ウェブ向け画像埋め込みガイド

MediaPipe Image Embedder タスクを使用すると、画像データを数値表現に変換して、2 つの画像の類似度を比較するなど、ML 関連の画像処理タスクを実行できます。画像埋め込みツールの使用方法 パフォーマンスもモニタリングできます

機能、モデル、構成オプションの詳細については、 概要をご覧ください。

サンプルコード

画像埋め込みツールのサンプルコードは、このコードの実装全体に対応しています。 タスクを示しています。このコードは、このタスクのテストと 独自の画像エンベディング アプリの作成を開始します。BigQuery では 編集して 画像埋め込みのサンプルコード できます。

セットアップ

このセクションでは、開発環境をセットアップする主な手順と Image Embedder を使用するコード プロジェクトがあります。一般的な情報については、 MediaPipe タスクを使用するための開発環境の設定 プラットフォーム バージョンの要件については、 ウェブ用の設定ガイド

JavaScript パッケージ

画像埋め込みコードは MediaPipe @mediapipe/tasks-vision から利用できます。 NPM パッケージ。Google Chat では プラットフォームに用意されているリンクから、これらのライブラリを検索してダウンロードします。 設定ガイド

<ph type="x-smartling-placeholder">

ローカル ステージング用に次のコードを使用して、必要なパッケージをインストールできます。 次のコマンドを使用します。

npm install @mediapipe/tasks-vision

コンテンツ配信ネットワーク(CDN)経由でタスクコードをインポートする場合 追加する場合は、HTML ファイルのタグに次のコードを追加します。

<!-- You can replace jsDelivr with your preferred CDN -->
<head>
  <script src="https://cdn.jsdelivr.net/npm/@mediapipe/tasks-vision/vision_bundle.js"
    crossorigin="anonymous"></script>
</head>

モデル

MediaPipe Image Embedder タスクには、この変換と互換性のあるトレーニング済みモデルが必要 タスクを実行します。画像エンベディングで使用可能なトレーニング済みモデルについて詳しくは、以下をご覧ください。 タスクの概要のモデル セクションをご覧ください。

モデルを選択してダウンロードし、プロジェクト ディレクトリに保存します。

<dev-project-root>/app/shared/models/

タスクを作成する

モデルのパスを指定する

createFromModelPath() を使用すると、デフォルトのオプションでタスクを作成できます。 メソッド:

const vision = await FilesetResolver.forVisionTasks(
  // path/to/wasm/root
  "https://cdn.jsdelivr.net/npm/@mediapipe/tasks-vision@latest/wasm"
);
  const imageEmbedder = await ImageEmbedder.createFromOptions(vision, {
    baseOptions: {
      modelAssetPath: `https://storage.googleapis.com/mediapipe-models/image_embedder/mobilenet_v3_small/float32/1/mobilenet_v3_small.tflite`
    },
  });

モデルバッファを指定する

モデルがすでにメモリに読み込まれている場合は、 createFromModelBuffer() メソッド:

const vision = await FilesetResolver.forVisionTasks(
  // path/to/wasm/root
  "https://cdn.jsdelivr.net/npm/@mediapipe/tasks-vision@latest/wasm"
);
const imageEmbedder = ImageEmbedder.createFromModelBuffer(
    vision, 
    new Uint8Array(...)
);

カスタム オプションを指定する

MediaPipe Image Embedder タスクは、createFromOptions 関数を使用して できます。createFromOptions 関数は、次の値を受け入れます。 構成オプションが含まれます。このモジュールの 構成オプションについて詳しくは、構成オプションをご覧ください。

次のコードは、カスタム関数でタスクをビルドして構成する方法を示しています。 オプション:

const vision = await FilesetResolver.forVisionTasks(
  // path/to/wasm/root
  "https://cdn.jsdelivr.net/npm/@mediapipe/tasks-vision@latest/wasm"
);
const imageEmbedder = await ImageEmbedder.createFromOptions(
    vision,
    {
      baseOptions: {
        modelAssetPath: "model.tflite"
      },
      quantize: true
    });

構成オプション

このタスクには、ウェブ アプリケーション用に次の構成オプションがあります。

オプション名 説明 値の範囲 デフォルト値
running_mode タスクの実行モードを設定します。2 つのモデル モード:

IMAGE: 単一画像入力のモード。

VIDEO: 音声データのデコードされたフレームのモード 入力データのライブ ストリームで実行できます。
{IMAGE, VIDEO} IMAGE
l2Normalize 返された特徴ベクトルを L2 ノルムで正規化するかどうか。 このオプションは、モデルにネイティブ L2_NORMALIZATION TFLite 演算ほとんどの場合はこれがすでに行われており、 そのため、L2 正規化は TFLite 推論によって実現され、 指定します。 Boolean False
quantize 返されたエンベディングを、次を使用してバイトに量子化するかどうか スカラー量子化です。エンベディングは暗黙的にユニットノルムであると想定され、 したがって、どのディメンションも [-1.0, 1.0] の範囲の値を持つことが保証されます。使用 そうでない場合は l2Normalize オプションを使用します。 Boolean False

データの準備

画像埋め込みツールでは、サポートされているすべての形式の画像を埋め込むことができます。 ホスト ブラウザ。このタスクでは、次を含むデータ入力の前処理も処理されます。 サイズ変更、回転、値の正規化です。

画像エンベディングの embed() メソッドと embedForVideo() メソッドの呼び出しが実行される ユーザー インターフェース スレッドをブロックします。データの抽出、 各エンベディングがメインスレッドをブロックします。 これを防ぐには、embed() を実行するウェブ ワーカーを実装し、 別のスレッドの embedForVideo() メソッド。

タスクを実行する

画像エンベディングは embed()(実行モードは image)を使用します。 トリガーする embedForVideo() メソッド(実行モードは video) 説明します。Image Embedder API は、画像のエンベディング ベクトルを 生成します。

次のコードは、タスクモデルを使用して処理を実行する方法を示しています。

画像

const image = document.getElementById("image") as HTMLImageElement;
const imageEmbedderResult = imageEmbedder.embed(image);

動画

  const video = document.getElementById("webcam");

  const startTimeMs = performance.now();
  const embedderResult = await imageEmbedder.embedForVideo(video, startTimeMs);

結果の処理と表示

推論を実行すると、Image Embedder タスクは 入力のエンベディング ベクトルを含む ImageEmbedderResult オブジェクト 追加します。

このタスクからの出力データの例を次に示します。

ImageEmbedderResult:
  Embedding #0 (sole embedding head):
    float_embedding: {0.0, 0.0, ..., 0.0, 1.0, 0.0, 0.0, 2.0}
    head_index: 0

この結果は、次の画像を埋め込むことで取得されました。

2 つのエンベディングの意味的類似度は、 ImageEmbedder.cosineSimilarity 関数を使用します。詳細については、次のコードをご覧ください。 例です。

// Compute cosine similarity.
const similarity = ImageEmbedder.cosineSimilarity(
  imageEmbedderResult.embeddings[0],
  otherEmbedderResult.embeddings[0]);

画像埋め込みコードのサンプルコードは、埋め込み機能を表示する方法を示しています。 結果については、 コードサンプル をご覧ください。