MediaPipe Language Detector タスクを使用すると、テキストの言語を識別できます。このタスクは、機械学習(ML)モデルを使用してテキストデータを処理し、予測のリストを出力します。各予測は ISO 639-1 言語コードと確率で構成されます。
使ってみる
このタスクを使用するには、対象プラットフォーム向けの次のいずれかの実装ガイドに沿って操作します。以下のプラットフォーム固有のガイドでは、推奨モデルや、推奨構成オプションを含むコード例など、このタスクの基本的な実装について説明します。
タスクの詳細
このセクションでは、このタスクの機能、入力、出力、構成オプションについて説明します。
機能
- スコアしきい値 - 予測スコアに基づいて結果をフィルタする
- ラベルの許可リストと拒否リスト - 検出されたカテゴリを指定します。
タスク入力 | タスクの出力 |
---|---|
言語検出機能は、次の入力データ型を受け入れます。
|
言語検出機能は、次を含む予測リストを出力します。
|
構成オプション
このタスクには、次の構成オプションがあります。
オプション名 | 説明 | 値の範囲 | デフォルト値 |
---|---|---|---|
max_results |
返されるスコア上位の言語予測の最大数を設定します(省略可)。この値が 0 未満の場合、利用可能なすべての結果が返されます。 | 任意の正の数 | -1 |
score_threshold |
モデル メタデータで指定された予測スコアしきい値(存在する場合)をオーバーライドする予測スコアしきい値を設定します。この値を下回る結果は拒否されます。 | 任意の浮動小数点数 | 未設定 |
category_allowlist |
許可される言語コードのリスト(省略可)を設定します。空でない場合、このセットに含まれていない言語コードの言語予測は除外されます。このオプションは category_denylist とは相互に排他的であり、両方を使用するとエラーが発生します。 |
任意の文字列 | 未設定 |
category_denylist |
許可されない言語コードのリストを設定します(省略可)。空でない場合、このセットに含まれる言語コードの言語予測は除外されます。このオプションは category_allowlist とは相互に排他的であり、両方を使用するとエラーが発生します。 |
任意の文字列 | 未設定 |
モデル
このタスクで開発を開始する際に、デフォルトの推奨モデルが用意されています。
言語検出モデル(推奨)
このモデルは軽量(315 KB)に構築されており、エンベディング ベースのニューラル ネットワーク分類アーキテクチャを使用します。このモデルは ISO 639-1 言語コードを使用して言語を識別し、110 の言語を識別できます。モデルでサポートされている言語の一覧については、ラベルファイルをご覧ください。このファイルには、ISO 639-1 コードで言語が一覧表示されます。
モデル名 | 入力シェイプ | 量子化のタイプ | モデルカード | バージョン |
---|---|---|---|---|
Language Detector | string UTF-8 | なし(float32) | 情報 | 最新 |
タスクのベンチマーク
上記の事前トレーニング済みモデルに基づくパイプライン全体のタスクのベンチマークは次のとおりです。レイテンシの結果は、CPU / GPU を使用した Google Pixel 6 の平均レイテンシです。
モデル名 | CPU レイテンシ | GPU レイテンシ |
---|---|---|
言語検出 | 0.31ms | - |