Google AI Edge Portal のご紹介: エッジ AI を大規模にベンチマークします。限定公開プレビュー中にアクセスをリクエストするには、登録してください。

ウェブ向けテキスト分類ガイド

MediaPipe Text Classifier タスクを使用すると、テキストを肯定的または否定的な感情などの定義済みカテゴリのセットに分類できます。カテゴリは、使用するモデルと、そのモデルのトレーニング方法によって決まります。この手順では、ウェブアプリと JavaScript アプリでテキスト分類ツールを使用する方法について説明します。

このタスクの動作については、デモをご覧ください。このタスクの機能、モデル、構成オプションの詳細については、概要をご覧ください。

サンプルコード

テキスト分類器のサンプルコードには、このタスクの JavaScript での完全な実装が記載されています。このコードは、このタスクをテストし、独自のテキスト分類アプリの構築を開始するのに役立ちます。ウェブブラウザのみを使用して、テキスト分類の例を表示、実行、編集できます。

セットアップ

このセクションでは、Text Classifier を使用するために開発環境とコードプロジェクトを設定する主な手順について説明します。プラットフォームバージョンの要件など、MediaPipe Tasks を使用するための開発環境の設定に関する一般的な情報については、ウェブの設定ガイドをご覧ください。

JavaScript パッケージ

テキスト分類器のコードは、@mediapipe/tasks-text パッケージで入手できます。これらのライブラリは、プラットフォームの設定ガイドに記載されているリンクから入手してダウンロードできます。

次のコマンドを使用して、ローカルステージングに必要なパッケージを次のコードでインストールできます。

npm install @mediapipe/tasks-text

サーバーにデプロイする場合は、jsDelivr などのコンテンツ配信ネットワーク（CDN）サービスを使用して、次のように HTML ページに直接コードを追加できます。

<head>
  <script src="https://cdn.jsdelivr.net/npm/@mediapipe/tasks-text@0.1/text-bundle.js"
    crossorigin="anonymous"></script>
</head>

モデル

MediaPipe テキスト分類タスクには、このタスクと互換性のあるトレーニング済みモデルが必要です。Text Classifier で使用可能なトレーニング済みモデルの詳細については、タスクの概要のモデルセクションをご覧ください。

モデルを選択してダウンロードし、プロジェクトディレクトリに保存します。

<dev-project-root>/assets/bert_text_classifier.tflite

次の例に示すように、baseOptions オブジェクトの modelAssetPath パラメータを使用してモデルのパスを指定します。

baseOptions: {
        modelAssetPath: `/assets/bert_text_classifier.tflite`
      }

タスクを作成する

テキスト分類器の TextClassifier.createFrom...() 関数のいずれかを使用して、推論を実行するタスクを準備します。createFromModelPath() 関数は、トレーニング済みモデルファイルへの相対パスまたは絶対パスで使用できます。次のコード例は、TextClassifier.createFromOptions() 関数の使用方法を示しています。使用可能な構成オプションの詳細については、構成オプションをご覧ください。

次のコードは、このタスクをビルドして構成する方法を示しています。

async function createClassifier() {
  const textFiles = await FilesetResolver.forTextTasks("https://cdn.jsdelivr.net/npm/@mediapipe/tasks-text@latest/wasm/");
  textClassifier = await TextClassifier.createFromOptions(
    textFiles,
    {
      baseOptions: {
        modelAssetPath: `https://storage.googleapis.com/mediapipe-tasks/text_classifier/bert_text_classifier.tflite`
      },
      maxResults: 5
    }
  );
}
createClassifier();

構成オプション

このタスクには、ウェブアプリケーションと JavaScript アプリケーション用の次の構成オプションがあります。

オプション名	説明	値の範囲	デフォルト値
`displayNamesLocale`	タスクのモデルのメタデータで指定された表示名に使用するラベルの言語を設定します（利用可能な場合）。デフォルトは英語の場合は `en` です。TensorFlow Lite メタデータライター API を使用して、カスタムモデルのメタデータにローカライズされたラベルを追加できます。	言語 / 地域コード	en
`maxResults`	返される上位スコアの分類結果の最大数（省略可）を設定します。0 未満の場合、利用可能なすべての結果が返されます。	任意の正の数	`-1`
`scoreThreshold`	モデルメタデータで指定された予測スコアのしきい値（存在する場合）をオーバーライドするしきい値を設定します。この値より小さい結果は拒否されます。	任意の浮動小数点数	未設定
`categoryAllowlist`	許可されるカテゴリ名のオプションのリストを設定します。空でない場合、カテゴリ名がこのセットに含まれていない分類結果はフィルタリングされます。重複するカテゴリ名または不明なカテゴリ名は無視されます。このオプションは `categoryDenylist` と相互に排他的です。両方を使用するとエラーが発生します。	任意の文字列	未設定
`categoryDenylist`	許可されないカテゴリ名のオプションリストを設定します。空でない場合、カテゴリ名がこのセットに含まれる分類結果は除外されます。重複するカテゴリ名や不明なカテゴリ名は無視されます。このオプションは `categoryAllowlist` と相互排他的です。両方を使用するとエラーが発生します。	任意の文字列	未設定

データの準備

テキスト分類器はテキスト（String）データを処理します。このタスクは、トークン化やテンソルの前処理など、データ入力の前処理を処理します。

すべての前処理は classify() 関数内で処理されます。入力テキストの追加の前処理を事前に行う必要はありません。

const inputText = "The input text to be classified.";

タスクを実行する

テキスト分類器は、classify() 関数を使用して推論をトリガーします。テキスト分類の場合、これは入力テキストのカテゴリの候補を返すことを意味します。

次のコードは、タスクモデルで処理を実行する方法を示しています。

// Wait to run the function until inner text is set
const result: TextClassifierResult = await textClassifier.classify(
  inputText
);

結果を処理して表示する

テキスト分類器は、入力テキストのカテゴリのリストを含む TextClassifierResult を出力します。カテゴリは使用するモデルによって定義されるため、別のカテゴリが必要な場合は、別のモデルを選択するか、既存のモデルを再トレーニングします。

このタスクからの出力データの例を次に示します。

TextClassificationResult:
  Classification #0 (single classification head):
    ClassificationEntry #0:
      Category #0:
        category name: "positive"
        score: 0.8904
        index: 0
      Category #1:
        category name: "negative"
        score: 0.1096
        index: 1

この結果は、入力テキスト "an imperfect but overall entertaining mystery" に対して BERT 分類器を実行することで得られました。