言語検出ガイド

MediaPipe 言語検出タスクを使用すると、テキストの言語を識別できます。このタスクは、機械学習(ML)モデルでテキストデータを操作し、予測のリストを出力します。各予測は、ISO 639-1 言語コードと確率で構成されています。

試してみる

使ってみる

このタスクの使用を開始するには、ターゲット プラットフォームの実装ガイドのいずれかに沿って操作します。以下のプラットフォーム固有のガイドでは、推奨モデルや推奨構成オプションを含むコードサンプルなど、このタスクの基本的な実装について説明します。

タスクの詳細

このセクションでは、このタスクの機能、入力、出力、構成オプションについて説明します。

機能

  • スコアしきい値 - 予測スコアに基づいて結果をフィルタリングします。
  • ラベルの許可リストと拒否リスト - 検出されたカテゴリを指定します。
タスクの入力 タスクの出力
言語検出ツールでは、次の入力データ型を使用できます。
  • 文字列
Language Detector は、以下を含む予測のリストを出力します。
    • 言語コード: ISO 639-1(https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes)言語 / ロケールコード(例: 英語の場合は「en」、ウズベク語の場合は「uz」、日本語(ローマ字)の場合は「ja-Latn」)。
    • 確率: この予測の信頼スコア。0 ~ 1 の確率(浮動小数点値)で表されます。

構成オプション

このタスクには、次の構成オプションがあります。

オプション名 説明 値の範囲 デフォルト値
max_results スコアが上位の言語予測を返す場合の最大数を設定します(省略可)。この値が 0 未満の場合、利用可能なすべての結果が返されます。 任意の正の数 -1
score_threshold モデル メタデータ(存在する場合)で指定された値をオーバーライドする予測スコアのしきい値を設定します。この値を下回る結果は拒否されます。 任意の浮動小数点数 未設定
category_allowlist 使用できる言語コードのオプション リストを設定します。空でない場合、言語コードがこのセットにない言語予測は除外されます。このオプションは category_denylist と相互に排他的であり、両方を使用するとエラーになります。 任意の文字列 未設定
category_denylist 使用できない言語コードのオプション リストを設定します。空でない場合、言語コードがこのセット内にある言語予測は除外されます。このオプションは category_allowlist と相互に排他的であり、両方を使用するとエラーになります。 任意の文字列 未設定

モデル

このタスクで開発を開始すると、デフォルトの推奨モデルが提供されます。

このモデルは軽量(315 KB)に構築されており、エンベディング ベースのニューラル ネットワーク分類アーキテクチャを使用します。このモデルは、ISO 639-1 言語コードを使用して言語を識別し、110 の言語を識別できます。モデルでサポートされている言語の一覧については、ラベルファイルをご覧ください。このファイルには、ISO 639-1 コードによって言語がリストされています。

モデル名 入力シェイプ 量子化タイプ モデルカード バージョン
言語検出 文字列 UTF-8 なし(float32) 情報 最新

タスク ベンチマーク

上記の事前トレーニング済みモデルに基づくパイプライン全体のタスク ベンチマークは次のとおりです。レイテンシの結果は、CPU / GPU を使用した Google Pixel 6 の平均レイテンシです。

モデル名 CPU レイテンシ GPU レイテンシ
言語検出ツール 0.31 ミリ秒 -