MediaPipe 言語検出タスクを使用すると、テキストの言語を識別できます。このタスクは、機械学習(ML)モデルでテキストデータを操作し、予測のリストを出力します。各予測は、ISO 639-1 言語コードと確率で構成されています。
使ってみる
このタスクの使用を開始するには、ターゲット プラットフォームの実装ガイドのいずれかに沿って操作します。以下のプラットフォーム固有のガイドでは、推奨モデルや推奨構成オプションを含むコードサンプルなど、このタスクの基本的な実装について説明します。
タスクの詳細
このセクションでは、このタスクの機能、入力、出力、構成オプションについて説明します。
機能
- スコアしきい値 - 予測スコアに基づいて結果をフィルタリングします。
- ラベルの許可リストと拒否リスト - 検出されたカテゴリを指定します。
タスクの入力 | タスクの出力 |
---|---|
言語検出ツールでは、次の入力データ型を使用できます。
|
Language Detector は、以下を含む予測のリストを出力します。
|
構成オプション
このタスクには、次の構成オプションがあります。
オプション名 | 説明 | 値の範囲 | デフォルト値 |
---|---|---|---|
max_results |
スコアが上位の言語予測を返す場合の最大数を設定します(省略可)。この値が 0 未満の場合、利用可能なすべての結果が返されます。 | 任意の正の数 | -1 |
score_threshold |
モデル メタデータ(存在する場合)で指定された値をオーバーライドする予測スコアのしきい値を設定します。この値を下回る結果は拒否されます。 | 任意の浮動小数点数 | 未設定 |
category_allowlist |
使用できる言語コードのオプション リストを設定します。空でない場合、言語コードがこのセットにない言語予測は除外されます。このオプションは category_denylist と相互に排他的であり、両方を使用するとエラーになります。 |
任意の文字列 | 未設定 |
category_denylist |
使用できない言語コードのオプション リストを設定します。空でない場合、言語コードがこのセット内にある言語予測は除外されます。このオプションは category_allowlist と相互に排他的であり、両方を使用するとエラーになります。 |
任意の文字列 | 未設定 |
モデル
このタスクで開発を開始すると、デフォルトの推奨モデルが提供されます。
言語検出モデル(推奨)
このモデルは軽量(315 KB)に構築されており、エンベディング ベースのニューラル ネットワーク分類アーキテクチャを使用します。このモデルは、ISO 639-1 言語コードを使用して言語を識別し、110 の言語を識別できます。モデルでサポートされている言語の一覧については、ラベルファイルをご覧ください。このファイルには、ISO 639-1 コードによって言語がリストされています。
モデル名 | 入力シェイプ | 量子化タイプ | モデルカード | バージョン |
---|---|---|---|---|
言語検出 | 文字列 UTF-8 | なし(float32) | 情報 | 最新 |
タスク ベンチマーク
上記の事前トレーニング済みモデルに基づくパイプライン全体のタスク ベンチマークは次のとおりです。レイテンシの結果は、CPU / GPU を使用した Google Pixel 6 の平均レイテンシです。
モデル名 | CPU レイテンシ | GPU レイテンシ |
---|---|---|
言語検出ツール | 0.31 ミリ秒 | - |