語言偵測指南

MediaPipe 語言偵測器工作可讓您識別一段文字的語言。這項工作會使用機器學習 (ML) 模型處理文字資料並輸出預測清單,其中每項預測都是由 ISO 639-1 語言代碼和機率組成。

試試看!

開始使用

如要開始使用這項工作,請按照目標平台適用的任一實作指南操作。下列平台專用指南將逐步引導您完成這項工作的基本實作方式,包括建議的模型,以及含有建議設定選項的程式碼範例:

任務詳細資料

本節說明這項工作的功能、輸入、輸出和設定選項。

功能

  • 分數門檻:根據預測分數篩選結果
  • 標籤許可清單和拒絕清單:指定偵測到的類別
工作輸入內容 工作輸出內容
語言偵測工具接受以下輸入資料類型:
  • 字串
語言偵測工具輸出預測項目清單,其中包括:
    • 語言代碼:ISO 639-1 (https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes)
    • 機率:這項預測的可信度分數,以零和 1 之間的機率表示,以浮點值表示。

設定選項

這項工作有以下設定選項:

選項名稱 說明 值範圍 預設值
max_results 設定要傳回的得分最高語言預測結果 (選用) 數量上限。如果這個值小於零,系統會傳回所有可用的結果。 任何正數 -1
score_threshold 設定預測分數門檻,覆寫模型中繼資料 (如有) 中提供的分數門檻。這個值下方的結果遭到拒絕。 不限浮點值 未設定
category_allowlist 設定允許的語言代碼清單 (選用)。如果不是空白,系統會篩除語言代碼未在此組合中的語言預測。這個選項與 category_denylist 互斥,且同時使用兩者會導致錯誤。 任何字串 未設定
category_denylist 設定系統不接受的語言代碼清單 (選填)。如果不是空白,系統會篩除語言代碼在此組合中的語言預測。這個選項與 category_allowlist 互斥,且同時使用兩者會導致錯誤。 任何字串 未設定

模型

當您開始以這項工作進行開發時,我們會提供預設的建議模型。

這個模型是輕量級 (315 KB),採用嵌入式類神經網路分類架構。此模型使用 ISO 639-1 語言代碼識別語言,並可識別 110 種語言。如需模型支援的語言清單,請參閱標籤檔案,檔案會根據其 ISO 639-1 代碼列出語言。

模型名稱 輸入形狀 量化類型 型號資訊卡 版本
語言偵測工具字串 UTF-8 無 (float32) 資訊 最新

工作基準

以下為整個管道根據上述預先訓練模型所產生的工作基準。延遲時間結果是 Pixel 6 使用 CPU / GPU 的平均延遲時間。

模型名稱 CPU 延遲時間 GPU 延遲時間
語言偵測器 0.31 毫秒 -