EmbeddingGemma モデルカード

モデルページ: EmbeddingGemma

リソースと技術ドキュメント:

利用規約: Terms

作成者: Google DeepMind

モデル情報

入力と出力の概要と簡単な定義。

説明

EmbeddingGemma は、3 億個のパラメータを持つ、サイズに対して最先端のオープン エンベディング モデルです。Gemma 3(T5Gemma 初期化あり)と、Gemini モデルの作成に使用されたものと同じ研究とテクノロジーに基づいて構築されています。EmbeddingGemma はテキストのベクトル表現を生成するため、分類、クラスタリング、セマンティック類似性検索などの検索タスクや取得タスクに適しています。このモデルは、100 以上の言語の音声データでトレーニングされています。

サイズが小さく、オンデバイスに重点を置いているため、スマートフォン、ノートパソコン、デスクトップなどのリソースが限られた環境にデプロイできます。これにより、最先端の AI モデルへのアクセスが民主化され、すべての人のイノベーションが促進されます。

技術的な詳細については、論文「EmbeddingGemma: Powerful and Lightweight Text Representations」をご覧ください。

入力と出力

  • 入力:

    • 質問、プロンプト、埋め込むドキュメントなどのテキスト文字列
    • 入力コンテキストの最大長は 2K
  • 出力:

    • 入力テキストデータの数値ベクトル表現
    • 出力エンベディングのディメンション サイズは 768 です。Matryoshka Representation Learning(MRL)を使用して、より小さいオプション(512、256、128)を利用できます。MRL を使用すると、ユーザーはサイズ 768 の出力エンベディングを希望のサイズに切り捨ててから、効率的かつ正確な表現のために再正規化できます。

引用

@article{embedding_gemma_2025,
    title={EmbeddingGemma: Powerful and Lightweight Text Representations},
    publisher={Google DeepMind},
    author={Schechter Vera, Henrique and Dua, Sahil and Team, EmbeddingGemma},
    year={2025},
    url={https://arxiv.org/abs/2509.20354}
}

モデルデータ

トレーニング データセット

このモデルは、さまざまなソースを含むテキストデータのデータセットでトレーニングされました。トークンの合計は約 3,200 億個です。主なコンポーネントは次のとおりです。

  • ウェブ ドキュメント: ウェブテキストの多様なコレクションにより、モデルは幅広い言語スタイル、トピック、語彙に触れることができます。トレーニング データセットには、100 以上の言語のコンテンツが含まれています。
  • コードと技術ドキュメント: モデルにコードと技術ドキュメントを公開すると、プログラミング言語と専門的な科学コンテンツの構造とパターンを学習し、コードと技術的な質問の理解を深めることができます。
  • 合成データとタスク固有のデータ: 合成トレーニング データは、モデルに特定のスキルを教えるのに役立ちます。これには、情報検索、分類、感情分析などのタスク用にキュレートされたデータが含まれており、一般的なエンベディング アプリケーションのパフォーマンスをファインチューニングするのに役立ちます。

これらの多様なデータソースの組み合わせは、さまざまなタスクやデータ形式を処理できる強力な多言語エンベディング モデルをトレーニングするうえで重要です。

データの前処理

トレーニング データに適用される主なデータ クリーニングとフィルタリングの方法は次のとおりです。

  • CSAM フィルタリング: データ準備プロセスの複数の段階で厳格な CSAM(児童性的虐待のコンテンツ)フィルタリングを適用し、有害で違法なコンテンツを確実に除外しました。
  • 機密データのフィルタリング: Gemma 事前トレーニング済みモデルの安全性と信頼性を高めるため、自動化された手法を使用して、特定の個人情報やその他の機密データをトレーニング セットからフィルタリングしました。
  • その他の方法: Google のポリシーに沿って、コンテンツの品質と安全性に基づいてフィルタリングします。

モデル開発

ハードウェア

EmbeddingGemma は、最新世代の Tensor Processing Unit(TPU)ハードウェア(TPUv5e)を使用してトレーニングされました。詳細については、Gemma 3 モデルカードをご覧ください。

ソフトウェア

トレーニングは JAXML Pathways を使用して行われました。詳細については、Gemma 3 モデルカードをご覧ください。

評価

ベンチマークの結果

このモデルは、テキスト理解のさまざまな側面をカバーするために、さまざまなデータセットと指標の大規模なコレクションに対して評価されました。

Full Precision Checkpoint

MTEB(多言語、v2)
次元数 Mean(タスク) Mean(TaskType)
768d 61.15 54.31
512d 60.71 53.89
256d 59.68 53.01
128d 58.23 51.77
MTEB(英語、v2)
次元数 Mean(タスク) Mean(TaskType)
768d 69.67 65.11
512d 69.18 64.59
256d 68.37 64.02
128d 66.66 62.70
MTEB(コード、v1)
次元数 Mean(タスク) Mean(TaskType)
768d 68.76 68.76
512d 68.48 68.48
256d 66.74 66.74
128d 62.96 62.96

QAT チェックポイント

MTEB(多言語、v2)
量子化構成(次元) Mean(タスク) Mean(TaskType)
混合精度*(768d) 60.69 53.82
Q8_0(768d) 60.93 53.95
Q4_0(768d) 60.62 53.61
MTEB(英語、v2)
量子化構成(次元) Mean(タスク) Mean(TaskType)
混合精度*(768d) 69.32 64.82
Q8_0(768d) 69.49 64.84
Q4_0(768d) 69.31 64.65
MTEB(コード、v1)
量子化構成(次元) Mean(タスク) Mean(TaskType)
混合精度*(768d) 68.03 68.03
Q8_0(768d) 68.70 68.70
Q4_0(768d) 67.99 67.99

* 混合精度とは、エンベディング、フィードフォワード、プロジェクション レイヤに int4、アテンションに int8 を使用したチャネルごとの量子化を指します(e4_a8_f4_p4)。

プロンプトの指示

EmbeddingGemma は、入力文字列の先頭に付加されたプロンプトを使用して、ドキュメントの検索、質問応答、事実の検証などのさまざまなユースケースや、クエリまたはドキュメントの特定の入力タイプに最適化されたエンベディングを生成できます。

クエリ プロンプトは task: {task description} | query: の形式に従います。タスクの説明はユースケースによって異なり、デフォルトのタスクの説明は search result です。ドキュメント スタイルのプロンプトは title: {title | "none"} | text: 形式に従います。ここで、タイトルは none(デフォルト)またはドキュメントの実際のタイトルのいずれかです。タイトルを指定すると、ドキュメント プロンプトのモデル パフォーマンスが向上しますが、手動で書式設定が必要になる場合があります。

ユースケースと入力データの型に基づいて、次のプロンプトを使用します。これらは、選択したモデリング フレームワークの EmbeddingGemma 構成ですでに使用可能になっている場合があります。


ユースケース(タスクタイプの列挙型)

説明

推奨されるプロンプト

検索(クエリ)

ドキュメント検索や情報検索に最適化されたエンベディングの生成に使用

task: search result | query: {content}

取得(ドキュメント)

title: {title | "none"} | text: {content}

質問応答

task: question answering | query: {content}

事実確認

task: fact checking | query: {content}

分類

事前設定されたラベルに従ってテキストを分類するように最適化されたエンベディングの生成に使用

task: classification | query: {content}

クラスタリング

類似性に基づいてテキストをクラスタ化するように最適化されたエンベディングの生成に使用

task: clustering | query: {content}

意味的類似性

テキストの類似性を評価するために最適化されたエンベディングの生成に使用されます。これは検索ユースケースを対象としていません。

タスク: 文の類似性 | クエリ: {コンテンツ}

コードの取得

配列を並べ替えるリンクリストを逆にするなど、自然言語クエリに基づいてコードブロックを取得するために使用。コードブロックのエンベディングは retrieval_document を使用して計算されます。

タスク: コードの取得 | クエリ: {コンテンツ}

使用量と制限事項

これらのモデルには、ユーザーが認識しておくべき制限事項があります。

想定される使用方法

オープン エンベディング モデルは、さまざまな業界やドメインで幅広い用途に使用されています。以下に示す用途は、考えられる用途の一部です。このリストの目的は、モデルの作成者がモデルのトレーニングと開発の一環として検討したユースケースに関するコンテキスト情報を提供することです。

  • セマンティック類似性: レコメンデーション システムや重複検出など、テキストの類似性を評価するように最適化されたエンベディング
  • 分類: 感情分析やスパム検出など、事前設定されたラベルに従ってテキストを分類するように最適化されたエンベディング
  • クラスタリング: ドキュメントの整理、市場調査、異常検出など、類似性に基づいてテキストをクラスタ化するように最適化されたエンベディング
  • 取得

    • ドキュメント: ドキュメント検索用に最適化されたエンベディング(検索用に記事、書籍、ウェブページをインデックス登録するなど)
    • クエリ: カスタム検索など、一般的な検索クエリ用に最適化されたエンベディング
    • コードクエリ: コードの候補や検索など、自然言語クエリに基づいてコードブロックを取得するために最適化されたエンベディング
  • 質問応答: 質問応答システム内の質問のエンベディング。質問に回答するドキュメント(チャットボックスなど)を見つけるために最適化されています。

  • ファクト チェック: 検証が必要なステートメントのエンベディング。ステートメントを裏付ける証拠または反論する証拠を含むドキュメントの取得に最適化されています(自動ファクト チェック システムなど)。

制限事項

  • トレーニング データ

    • トレーニング データの品質と多様性は、モデルの機能に大きな影響を与えます。トレーニング データにバイアスやギャップがあると、モデルの回答に制限が生じる可能性があります。
    • トレーニング データセットの範囲によって、モデルが効果的に処理できる対象分野が決まります。
  • 言語の曖昧さとニュアンス

    • 自然言語は本質的に複雑です。モデルは、微妙なニュアンス、皮肉、比喩表現を理解するのが難しい場合があります。

倫理的考慮事項とリスク

特定されたリスクと軽減策:

  • バイアスの永続化: モデルのトレーニング、ファインチューニング、その他のユースケースでは、継続的なモニタリング(評価指標、人間によるレビューを使用)とバイアス除去手法の調査を行うことが推奨されます。
  • 悪意のある目的での誤用: 技術的な制限と、デベロッパーとエンドユーザーの教育により、エンベディングの悪意のあるアプリケーションに対するリスクを軽減できます。ユーザーが不正使用を報告するための教育リソースと報告メカニズムが提供されます。Gemma モデルの使用禁止については、Gemma の使用禁止に関するポリシーで説明しています。
  • プライバシー侵害: 特定の個人情報やその他の機密データが削除されるようにフィルタされたデータでモデルがトレーニングされました。デベロッパーは、プライバシー保護技術を使用してプライバシー規制を遵守することが推奨されます。

利点

リリース時点で、このモデル ファミリーは、同サイズのモデルと比較して、責任ある AI 開発のためにゼロから設計された高性能のオープン エンベディング モデル実装を提供します。このドキュメントで説明するベンチマーク評価指標を使用すると、これらのモデルは、同程度のサイズの他のオープンモデルの代替モデルよりも優れたパフォーマンスを示しています。