LiteRT のご紹介: Google のオンデバイス AI 用の高性能ランタイム（旧称 TensorFlow Lite）です。

このページは Cloud Translation API によって翻訳されました。

ウェブ向け画像埋め込みガイド

MediaPipe Image Embedder タスクを使用すると、画像データを数値表現に変換して、2 つの画像の類似度を比較するなど、ML 関連の画像処理タスクを実行できます。画像埋め込みツールの使用方法パフォーマンスもモニタリングできます

機能、モデル、構成オプションの詳細については、概要をご覧ください。

サンプルコード

画像埋め込みツールのサンプルコードは、このコードの実装全体に対応しています。タスクを示しています。このコードは、このタスクのテストと独自の画像エンベディングアプリの作成を開始します。BigQuery では編集して画像埋め込みのサンプルコードできます。

セットアップ

このセクションでは、開発環境をセットアップする主な手順と Image Embedder を使用するコードプロジェクトがあります。一般的な情報については、 MediaPipe タスクを使用するための開発環境の設定プラットフォームバージョンの要件については、ウェブ用の設定ガイド

JavaScript パッケージ

画像埋め込みコードは MediaPipe @mediapipe/tasks-vision から利用できます。 NPM パッケージ。Google Chat ではプラットフォームに用意されているリンクから、これらのライブラリを検索してダウンロードします。設定ガイド

ローカルステージング用に次のコードを使用して、必要なパッケージをインストールできます。次のコマンドを使用します。

npm install @mediapipe/tasks-vision

コンテンツ配信ネットワーク（CDN）経由でタスクコードをインポートする場合追加する場合は、HTML ファイルのタグに次のコードを追加します。

<!-- You can replace jsDelivr with your preferred CDN -->
<head>
  <script src="https://cdn.jsdelivr.net/npm/@mediapipe/tasks-vision/vision_bundle.js"
    crossorigin="anonymous"></script>
</head>

モデル

MediaPipe Image Embedder タスクには、この変換と互換性のあるトレーニング済みモデルが必要タスクを実行します。画像エンベディングで使用可能なトレーニング済みモデルについて詳しくは、以下をご覧ください。タスクの概要のモデルセクションをご覧ください。

モデルを選択してダウンロードし、プロジェクトディレクトリに保存します。

<dev-project-root>/app/shared/models/

タスクを作成する

モデルのパスを指定する

createFromModelPath() を使用すると、デフォルトのオプションでタスクを作成できます。メソッド:

const vision = await FilesetResolver.forVisionTasks(
  // path/to/wasm/root
  "https://cdn.jsdelivr.net/npm/@mediapipe/tasks-vision@latest/wasm"
);
  const imageEmbedder = await ImageEmbedder.createFromOptions(vision, {
    baseOptions: {
      modelAssetPath: `https://storage.googleapis.com/mediapipe-models/image_embedder/mobilenet_v3_small/float32/1/mobilenet_v3_small.tflite`
    },
  });

モデルバッファを指定する

モデルがすでにメモリに読み込まれている場合は、 createFromModelBuffer() メソッド:

const vision = await FilesetResolver.forVisionTasks(
  // path/to/wasm/root
  "https://cdn.jsdelivr.net/npm/@mediapipe/tasks-vision@latest/wasm"
);
const imageEmbedder = ImageEmbedder.createFromModelBuffer(
    vision, 
    new Uint8Array(...)
);

カスタムオプションを指定する

MediaPipe Image Embedder タスクは、createFromOptions 関数を使用してできます。createFromOptions 関数は、次の値を受け入れます。構成オプションが含まれます。このモジュールの構成オプションについて詳しくは、構成オプションをご覧ください。

次のコードは、カスタム関数でタスクをビルドして構成する方法を示しています。オプション:

const vision = await FilesetResolver.forVisionTasks(
  // path/to/wasm/root
  "https://cdn.jsdelivr.net/npm/@mediapipe/tasks-vision@latest/wasm"
);
const imageEmbedder = await ImageEmbedder.createFromOptions(
    vision,
    {
      baseOptions: {
        modelAssetPath: "model.tflite"
      },
      quantize: true
    });

構成オプション

このタスクには、ウェブアプリケーション用に次の構成オプションがあります。

オプション名	説明	値の範囲	デフォルト値
`running_mode`	タスクの実行モードを設定します。2 つのモデルモード: IMAGE: 単一画像入力のモード。 VIDEO: 音声データのデコードされたフレームのモード入力データのライブストリームで実行できます。	{`IMAGE, VIDEO`}	`IMAGE`
`l2Normalize`	返された特徴ベクトルを L2 ノルムで正規化するかどうか。このオプションは、モデルにネイティブ L2_NORMALIZATION TFLite 演算ほとんどの場合はこれがすでに行われており、そのため、L2 正規化は TFLite 推論によって実現され、指定します。	`Boolean`	`False`
`quantize`	返されたエンベディングを、次を使用してバイトに量子化するかどうかスカラー量子化です。エンベディングは暗黙的にユニットノルムであると想定され、したがって、どのディメンションも [-1.0, 1.0] の範囲の値を持つことが保証されます。使用そうでない場合は l2Normalize オプションを使用します。	`Boolean`	`False`

データの準備

画像埋め込みツールでは、サポートされているすべての形式の画像を埋め込むことができます。ホストブラウザ。このタスクでは、次を含むデータ入力の前処理も処理されます。サイズ変更、回転、値の正規化です。

画像エンベディングの embed() メソッドと embedForVideo() メソッドの呼び出しが実行されるユーザーインターフェーススレッドをブロックします。データの抽出、各エンベディングがメインスレッドをブロックします。これを防ぐには、embed() を実行するウェブワーカーを実装し、別のスレッドの embedForVideo() メソッド。

タスクを実行する

画像エンベディングは embed()（実行モードは image）を使用します。トリガーする embedForVideo() メソッド（実行モードは video）説明します。Image Embedder API は、画像のエンベディングベクトルを生成します。

次のコードは、タスクモデルを使用して処理を実行する方法を示しています。

画像

const image = document.getElementById("image") as HTMLImageElement;
const imageEmbedderResult = imageEmbedder.embed(image);

動画

  const video = document.getElementById("webcam");

  const startTimeMs = performance.now();
  const embedderResult = await imageEmbedder.embedForVideo(video, startTimeMs);

結果の処理と表示

推論を実行すると、Image Embedder タスクは入力のエンベディングベクトルを含む ImageEmbedderResult オブジェクト追加します。

このタスクからの出力データの例を次に示します。

ImageEmbedderResult:
  Embedding #0 (sole embedding head):
    float_embedding: {0.0, 0.0, ..., 0.0, 1.0, 0.0, 0.0, 2.0}
    head_index: 0

この結果は、次の画像を埋め込むことで取得されました。

2 つのエンベディングの意味的類似度は、 ImageEmbedder.cosineSimilarity 関数を使用します。詳細については、次のコードをご覧ください。例です。

// Compute cosine similarity.
const similarity = ImageEmbedder.cosineSimilarity(
  imageEmbedderResult.embeddings[0],
  otherEmbedderResult.embeddings[0]);

画像埋め込みコードのサンプルコードは、埋め込み機能を表示する方法を示しています。結果については、コードサンプルをご覧ください。