模型頁面:EmbeddingGemma
資源和技術文件:
使用條款:條款
作者:Google DeepMind
型號資訊
輸入和輸出的摘要說明和簡要定義。
說明
EmbeddingGemma 是 Google 開放式嵌入模型,採用 3 億個參數,以這個大小來說是頂尖模型,以 Gemma 3 (使用 T5Gemma 初始化) 和與 Gemini 模型相同的研究成果和技術打造而成。EmbeddingGemma 會產生文字的向量表示法,因此非常適合用於搜尋和檢索工作,包括分類、分群和語意相似度搜尋。這個模型是以 100 多種口語的資料訓練而成。
這項模型體積小巧,且著重於裝置端運算,因此可在資源有限的環境中部署,例如手機、筆電或桌機,讓所有人都能使用最先進的 AI 模型,促進創新。
如要瞭解更多技術細節,請參閱論文:EmbeddingGemma:強大且輕巧的文字表示法。
輸入和輸出
輸入:
- 文字字串,例如問題、提示或要嵌入的文件
- 輸入背景資訊長度上限為 2,000 個字元
輸出內容:
- 輸入文字資料的數值向量表示法
- 輸出嵌入維度大小為 768,可透過 Matryoshka Representation Learning (MRL) 選擇較小的選項 (512、256 或 128)。MRL 可讓使用者將大小為 768 的輸出嵌入內容截斷為所需大小,然後重新正規化,以有效率且準確地呈現。
引用內容
@article{embedding_gemma_2025,
title={EmbeddingGemma: Powerful and Lightweight Text Representations},
publisher={Google DeepMind},
author={Schechter Vera, Henrique and Dua, Sahil and Team, EmbeddingGemma},
year={2025},
url={https://arxiv.org/abs/2509.20354}
}
模型資料
訓練資料集
這個模型是以文字資料集訓練而成,資料集包含各種來源,總計約 3,200 億個權杖。主要元件如下:
- 網路文件:多樣化的網路文字可確保模型接觸到各種語言風格、主題和詞彙。訓練資料集包含 100 多種語言的內容。
- 程式碼和技術文件:讓模型接觸程式碼和技術文件,有助於學習程式設計語言的結構和模式,以及專業的科學內容,進而提升對程式碼和技術問題的理解能力。
- 合成資料和特定工作資料:合成訓練資料有助於教導模型特定技能。包括資訊檢索、分類和情緒分析等工作專用的精選資料,有助於微調常見嵌入應用程式的效能。
結合這些多元資料來源,對於訓練強大的多語言嵌入模型至關重要,因為這類模型可處理各種不同的工作和資料格式。
資料預先處理
以下是訓練資料適用的主要資料清理和篩選方法:
- 兒少性虐待內容篩選:我們在資料準備過程的多個階段,都嚴格篩選兒少性虐待內容,確保排除有害和違法內容。
- 過濾私密資料:為確保 Gemma 預先訓練模型安全可靠,我們使用自動化技術,從訓練集過濾特定個人資訊和其他私密資料。
- 其他方法:根據內容品質和安全程度,按照我們的政策進行篩選。
模型開發
硬體
EmbeddingGemma 是使用最新一代的 Tensor Processing Unit (TPU) 硬體 (TPUv5e) 訓練而成,詳情請參閱 Gemma 3 模型資訊卡。
軟體
訓練作業是使用 JAX 和 ML Pathways 進行。詳情請參閱 Gemma 3 模型資訊卡。
評估
基準測試結果
我們使用大量不同的資料集和指標評估模型,涵蓋文字理解的各個層面。
完整精確度檢查點
MTEB (Multilingual, v2) | ||
---|---|---|
維度 | 平均數 (工作) | 平均值 (TaskType) |
768d | 61.15 | 54.31 |
512d | 60.71 | 53.89 |
256d | 59.68 | 53.01 |
128d | 58.23 | 51.77 |
MTEB (英文,v2) | ||
---|---|---|
維度 | 平均數 (工作) | 平均值 (TaskType) |
768d | 69.67 | 65.11 |
512d | 69.18 | 64.59 |
256d | 68.37 | 64.02 |
128d | 66.66 | 62.70 |
MTEB (程式碼,第 1 版) | ||
---|---|---|
維度 | 平均數 (工作) | 平均值 (TaskType) |
768d | 68.76 | 68.76 |
512d | 68.48 | 68.48 |
256d | 66.74 | 66.74 |
128d | 62.96 | 62.96 |
QAT 檢查點
MTEB (Multilingual, v2) | ||
---|---|---|
量化設定 (維度) | 平均數 (工作) | 平均值 (TaskType) |
混合精確度* (768d) | 60.69 | 53.82 |
Q8_0 (768d) | 60.93 | 53.95 |
Q4_0 (768d) | 60.62 | 53.61 |
MTEB (英文,v2) | ||
---|---|---|
量化設定 (維度) | 平均數 (工作) | 平均值 (TaskType) |
混合精確度* (768d) | 69.32 | 64.82 |
Q8_0 (768d) | 69.49 | 64.84 |
Q4_0 (768d) | 69.31 | 64.65 |
MTEB (程式碼,第 1 版) | ||
---|---|---|
量化設定 (維度) | 平均數 (工作) | 平均值 (TaskType) |
混合精確度* (768d) | 68.03 | 68.03 |
Q8_0 (768d) | 68.70 | 68.70 |
Q4_0 (768d) | 67.99 | 67.99 |
* 混合精度是指對每個管道進行量化,其中嵌入、前饋和投影層使用 int4,注意力機制則使用 int8 (e4_a8_f4_p4)。
提示詞說明
EmbeddingGemma 可為各種用途 (例如文件檢索、問答和事實查證) 或特定輸入類型 (查詢或文件) 生成最佳化嵌入,方法是在輸入字串前加上提示。
查詢提示的格式為 task: {task description} | query:
,其中工作說明會因用途而異,預設工作說明為 search result
。文件樣式的提示採用「<title>」格式,其中「title」可以是「<title>」 (預設值),也可以是文件的實際標題。title: {title | "none"} | text:
none
請注意,如果可以提供標題,模型在處理文件提示時的成效會更好,但可能需要手動設定格式。
請根據用途和輸入資料類型,使用下列提示。您選擇的建模架構可能已在 EmbeddingGemma 設定中提供這些選項。
用途 (工作類型列舉) |
說明 |
建議使用的提示 |
---|---|---|
擷取 (查詢) |
用於生成經過最佳化的嵌入,以便搜尋文件或擷取資訊 |
task: search result | query: {content} |
擷取 (文件) |
title: {title | "none"} | text: {content} |
|
回答問題 |
task: question answering | query: {content} |
|
事實查核 |
task: fact checking | query: {content} |
|
分類 |
用於生成最佳化嵌入,根據預設標籤分類文字 |
task: classification | query: {content} |
分群 |
用於生成最佳化嵌入,根據文字相似度將文字分組 |
task: clustering | query: {content} |
語意相似度 |
用於生成最佳化嵌入,以評估文字相似度。這項功能不適用於擷取用途。 |
工作:句子相似度 | 查詢:{content} |
程式碼擷取 |
根據自然語言查詢擷取程式碼區塊,例如「排序陣列」或「反轉連結串列」。程式碼區塊的嵌入內容會使用 retrieval_document 計算。 |
task: code retrieval | query: {content} |
使用方式和限制
這些模型有某些限制,使用者應留意。
預定用途
開放式嵌入模型可廣泛應用於各行各業和領域。以下列出的潛在用途並非詳盡無遺。這份清單的目的是提供情境資訊,說明模型建立者在模型訓練和開發期間考慮的可能用途。
- 語意相似度:嵌入項目經過最佳化,可評估文字相似度,例如建議系統和重複內容偵測
- 分類:最佳化嵌入,可根據預設標籤分類文字,例如情緒分析和垃圾內容偵測
- 分群:根據文字相似性進行分群的嵌入內容,例如文件整理、市場研究和異常偵測
擷取
- 文件:針對文件搜尋最佳化的嵌入,例如為搜尋建立文章、書籍或網頁索引
- 查詢:針對一般搜尋查詢最佳化的嵌入,例如自訂搜尋
- 程式碼查詢:根據自然語言查詢 (例如程式碼建議和搜尋) 擷取程式碼區塊時,可使用最佳化嵌入內容
問答:問答系統中的問題嵌入,經過最佳化處理,可找出回答問題的文件,例如聊天機器人。
事實查核:需要驗證的陳述內容的嵌入,經過最佳化處理,可擷取包含證據的文件,以佐證或反駁陳述內容,例如自動事實查核系統。
限制
訓練資料
- 訓練資料的品質和多樣性會大幅影響模型的能力。訓練資料中的偏誤或缺漏可能會導致模型回覆內容受限。
- 訓練資料集的範圍決定了模型可有效處理的主題領域。
語言的模糊性和細微差異
- 自然語言本質上就相當複雜,模型可能難以掌握細微的差異、諷刺或比喻。
倫理考量和風險
已識別的風險和緩解措施:
- 偏見延續:建議在模型訓練、微調和其他用途期間,持續監控 (使用評估指標、專人審查) 並探索去偏見技術。
- 用於惡意用途:技術限制和開發人員與使用者教育可協助防範惡意應用程式使用嵌入內容。我們提供教育資源和檢舉機制,方便使用者檢舉濫用行為。如要瞭解 Gemma 模型的使用限制,請參閱 Gemma 使用限制政策。
- 隱私權違規:訓練模型時,我們會篩除特定個人資訊和其他私密資料。建議開發人員採用隱私權保護技術,遵守隱私權法規。
優點
與大小相近的模型相比,這系列模型在發布時提供高效能的開放式嵌入模型實作,專為負責任的 AI 開發而設計。根據本文所述的基準評估指標,這些模型的效能優於其他同等大小的開放模型替代方案。