言語検出ガイド

フランス語の入力文が、出力でフランス語として正しく識別されていることを示す UI の例。

MediaPipe Language Detector タスクを使用すると、テキストの言語を識別できます。このタスクは、機械学習(ML)モデルを使用してテキストデータを処理し、予測のリストを出力します。各予測は ISO 639-1 言語コードと確率で構成されます。

試してみる

使ってみる

このタスクを使用するには、対象プラットフォーム向けの次のいずれかの実装ガイドに沿って操作します。以下のプラットフォーム固有のガイドでは、推奨モデルや、推奨構成オプションを含むコード例など、このタスクの基本的な実装について説明します。

タスクの詳細

このセクションでは、このタスクの機能、入力、出力、構成オプションについて説明します。

機能

  • スコアしきい値 - 予測スコアに基づいて結果をフィルタする
  • ラベルの許可リストと拒否リスト - 検出されたカテゴリを指定します。
タスク入力 タスクの出力
言語検出機能は、次の入力データ型を受け入れます。
  • 文字列
言語検出機能は、次を含む予測リストを出力します。
    • 言語コード: ISO 639-1(https://ja.wikipedia.org/wiki/ISO_639-1_コード一覧)の言語 / 言語 / 地域コード(英語の場合は「en」、ウズベク語の場合は「uz」、日本語(ローマ字)の場合は「ja-Latn」など)を文字列として指定します。
    • 確率: この予測の信頼スコア。0 ~ 1 の確率として浮動小数点値で表されます。

構成オプション

このタスクには、次の構成オプションがあります。

オプション名 説明 値の範囲 デフォルト値
max_results 返されるスコア上位の言語予測の最大数を設定します(省略可)。この値が 0 未満の場合、利用可能なすべての結果が返されます。 任意の正の数 -1
score_threshold モデル メタデータで指定された予測スコアしきい値(存在する場合)をオーバーライドする予測スコアしきい値を設定します。この値を下回る結果は拒否されます。 任意の浮動小数点数 未設定
category_allowlist 許可される言語コードのリスト(省略可)を設定します。空でない場合、このセットに含まれていない言語コードの言語予測は除外されます。このオプションは category_denylist とは相互に排他的であり、両方を使用するとエラーが発生します。 任意の文字列 未設定
category_denylist 許可されない言語コードのリストを設定します(省略可)。空でない場合、このセットに含まれる言語コードの言語予測は除外されます。このオプションは category_allowlist とは相互に排他的であり、両方を使用するとエラーが発生します。 任意の文字列 未設定

モデル

このタスクで開発を開始する際に、デフォルトの推奨モデルが用意されています。

このモデルは軽量(315 KB)に構築されており、エンベディング ベースのニューラル ネットワーク分類アーキテクチャを使用します。このモデルは ISO 639-1 言語コードを使用して言語を識別し、110 の言語を識別できます。モデルでサポートされている言語の一覧については、ラベルファイルをご覧ください。このファイルには、ISO 639-1 コードで言語が一覧表示されます。

モデル名 入力シェイプ 量子化のタイプ モデルカード バージョン
Language Detector string UTF-8 なし(float32) 情報 最新

タスクのベンチマーク

上記の事前トレーニング済みモデルに基づくパイプライン全体のタスクのベンチマークは次のとおりです。レイテンシの結果は、CPU / GPU を使用した Google Pixel 6 の平均レイテンシです。

モデル名 CPU レイテンシ GPU レイテンシ
言語検出 0.31ms -