MediaPipe 語言偵測器工作可讓您識別一段文字的語言。這項工作會使用機器學習 (ML) 模型處理文字資料並輸出預測清單,其中每項預測都是由 ISO 639-1 語言代碼和機率組成。
開始使用
如要開始使用這項工作,請按照目標平台適用的任一實作指南操作。下列平台專用指南將逐步引導您完成這項工作的基本實作方式,包括建議的模型,以及含有建議設定選項的程式碼範例:
任務詳細資料
本節說明這項工作的功能、輸入、輸出和設定選項。
功能
- 分數門檻:根據預測分數篩選結果
- 標籤許可清單和拒絕清單:指定偵測到的類別
工作輸入內容 | 工作輸出內容 |
---|---|
語言偵測工具接受以下輸入資料類型:
|
語言偵測工具輸出預測項目清單,其中包括:
|
設定選項
這項工作有以下設定選項:
選項名稱 | 說明 | 值範圍 | 預設值 |
---|---|---|---|
max_results |
設定要傳回的得分最高語言預測結果 (選用) 數量上限。如果這個值小於零,系統會傳回所有可用的結果。 | 任何正數 | -1 |
score_threshold |
設定預測分數門檻,覆寫模型中繼資料 (如有) 中提供的分數門檻。這個值下方的結果遭到拒絕。 | 不限浮點值 | 未設定 |
category_allowlist |
設定允許的語言代碼清單 (選用)。如果不是空白,系統會篩除語言代碼未在此組合中的語言預測。這個選項與 category_denylist 互斥,且同時使用兩者會導致錯誤。 |
任何字串 | 未設定 |
category_denylist |
設定系統不接受的語言代碼清單 (選填)。如果不是空白,系統會篩除語言代碼在此組合中的語言預測。這個選項與 category_allowlist 互斥,且同時使用兩者會導致錯誤。 |
任何字串 | 未設定 |
模型
當您開始以這項工作進行開發時,我們會提供預設的建議模型。
語言偵測工具模型 (建議)
這個模型是輕量級 (315 KB),採用嵌入式類神經網路分類架構。此模型使用 ISO 639-1 語言代碼識別語言,並可識別 110 種語言。如需模型支援的語言清單,請參閱標籤檔案,檔案會根據其 ISO 639-1 代碼列出語言。
模型名稱 | 輸入形狀 | 量化類型 | 型號資訊卡 | 版本 |
---|---|---|---|---|
語言偵測工具 | 字串 UTF-8 | 無 (float32) | 資訊 | 最新 |
工作基準
以下為整個管道根據上述預先訓練模型所產生的工作基準。延遲時間結果是 Pixel 6 使用 CPU / GPU 的平均延遲時間。
模型名稱 | CPU 延遲時間 | GPU 延遲時間 |
---|---|---|
語言偵測器 | 0.31 毫秒 | - |