Google AI Edge Portal のご紹介: エッジ AI を大規模にベンチマークします。限定公開プレビュー中にアクセスをリクエストするには、登録してください。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

言語検出ガイド

フランス語の入力文が、出力でフランス語として正しく識別されていることを示す UI の例。

MediaPipe Language Detector タスクを使用すると、テキストの言語を識別できます。このタスクは、機械学習（ML）モデルを使用してテキストデータを処理し、予測のリストを出力します。各予測は ISO 639-1 言語コードと確率で構成されます。

試してみる

使ってみる

このタスクを使用するには、対象プラットフォーム向けの次のいずれかの実装ガイドに沿って操作します。以下のプラットフォーム固有のガイドでは、推奨モデルや、推奨構成オプションを含むコード例など、このタスクの基本的な実装について説明します。

Android - コード例 - ガイド
Python - コード例 - ガイド
ウェブ - コード例 - ガイド

タスクの詳細

このセクションでは、このタスクの機能、入力、出力、構成オプションについて説明します。

機能

スコアしきい値 - 予測スコアに基づいて結果をフィルタする
ラベルの許可リストと拒否リスト - 検出されたカテゴリを指定します。

タスク入力	タスクの出力
言語検出機能は、次の入力データ型を受け入れます。文字列	言語検出機能は、次を含む予測リストを出力します。言語コード: ISO 639-1（https://ja.wikipedia.org/wiki/ISO_639-1_コード一覧）の言語 / 言語 / 地域コード（英語の場合は「en」、ウズベク語の場合は「uz」、日本語（ローマ字）の場合は「ja-Latn」など）を文字列として指定します。確率: この予測の信頼スコア。0 ～ 1 の確率として浮動小数点値で表されます。

タスク入力

タスクの出力

言語検出機能は、次の入力データ型を受け入れます。

文字列

言語検出機能は、次を含む予測リストを出力します。

言語コード: ISO 639-1（https://ja.wikipedia.org/wiki/ISO_639-1_コード一覧）の言語 / 言語 / 地域コード（英語の場合は「en」、ウズベク語の場合は「uz」、日本語（ローマ字）の場合は「ja-Latn」など）を文字列として指定します。

確率: この予測の信頼スコア。0 ～ 1 の確率として浮動小数点値で表されます。

構成オプション

このタスクには、次の構成オプションがあります。

オプション名	説明	値の範囲	デフォルト値
`max_results`	返されるスコア上位の言語予測の最大数を設定します（省略可）。この値が 0 未満の場合、利用可能なすべての結果が返されます。	任意の正の数	`-1`
`score_threshold`	モデルメタデータで指定された予測スコアしきい値（存在する場合）をオーバーライドする予測スコアしきい値を設定します。この値を下回る結果は拒否されます。	任意の浮動小数点数	未設定
`category_allowlist`	許可される言語コードのリスト（省略可）を設定します。空でない場合、このセットに含まれていない言語コードの言語予測は除外されます。このオプションは `category_denylist` とは相互に排他的であり、両方を使用するとエラーが発生します。	任意の文字列	未設定
`category_denylist`	許可されない言語コードのリストを設定します（省略可）。空でない場合、このセットに含まれる言語コードの言語予測は除外されます。このオプションは `category_allowlist` とは相互に排他的であり、両方を使用するとエラーが発生します。	任意の文字列	未設定

モデル

このタスクで開発を開始する際に、デフォルトの推奨モデルが用意されています。

言語検出モデル（推奨）

このモデルは軽量（315 KB）に構築されており、エンベディングベースのニューラルネットワーク分類アーキテクチャを使用します。このモデルは ISO 639-1 言語コードを使用して言語を識別し、110 の言語を識別できます。モデルでサポートされている言語の一覧については、ラベルファイルをご覧ください。このファイルには、ISO 639-1 コードで言語が一覧表示されます。

モデル名	入力シェイプ	量子化のタイプ	モデルカード	バージョン
Language Detector	string UTF-8	なし（float32）	情報	最新

タスクのベンチマーク

上記の事前トレーニング済みモデルに基づくパイプライン全体のタスクのベンチマークは次のとおりです。レイテンシの結果は、CPU / GPU を使用した Google Pixel 6 の平均レイテンシです。

モデル名	CPU レイテンシ	GPU レイテンシ
言語検出	0.31ms	-