EmbeddingGemma 模型卡片

模型页面EmbeddingGemma

资源和技术文档

使用条款条款

作者:Google DeepMind

型号信息

输入和输出的简要说明和简短定义。

说明

EmbeddingGemma 是 Google 推出的一款开放式嵌入模型,具有 3 亿个参数,在同类模型中处于领先地位。该模型基于 Gemma 3(采用 T5Gemma 初始化)构建而成,并采用了与 Gemini 模型相同的研究成果和技术。EmbeddingGemma 可生成文本的向量表示,因此非常适合搜索和检索任务,包括分类、聚类和语义相似度搜索。此模型是使用 100 多种口语的数据训练的。

由于体积小巧且侧重于设备端,Gemini Nano 可以在资源有限的环境中部署,例如手机、笔记本电脑或桌面设备,从而让所有人都能使用最先进的 AI 模型,并帮助促进创新。

如需了解更多技术细节,请参阅我们的论文:EmbeddingGemma:强大而轻量级的文本表示

输入和输出

  • Input:

    • 文本字符串,例如问题、提示或要嵌入的文档
    • 输入上下文长度上限为 2K
  • 输出:

    • 输入文本数据的数值向量表示形式
    • 输出嵌入维度大小为 768,可通过 Matryoshka Representation Learning (MRL) 获得更小的选项(512、256 或 128)。MRL 允许用户将大小为 768 的输出嵌入截断为所需大小,然后重新归一化,以实现高效准确的表示。

引用

@article{embedding_gemma_2025,
    title={EmbeddingGemma: Powerful and Lightweight Text Representations},
    publisher={Google DeepMind},
    author={Schechter Vera, Henrique and Dua, Sahil and Team, EmbeddingGemma},
    year={2025},
    url={https://arxiv.org/abs/2509.20354}
}

模型数据

训练数据集

该模型基于包含各种来源的文本数据(总计约 3,200 亿个词元)的数据集进行训练。以下是关键组件:

  • 网页文档:各种各样的网页文本可确保模型接触到广泛的语言风格、主题和词汇。训练数据集包含 100 多种语言的内容。
  • 代码和技术文档:让模型接触代码和技术文档有助于其学习编程语言和专业科学内容的结构和模式,从而提高其对代码和技术问题的理解能力。
  • 合成数据和特定任务数据:合成训练数据有助于教模型学习特定技能。这包括用于信息检索、分类和情感分析等任务的精选数据,有助于针对常见的嵌入应用微调模型性能。

这些多样化数据源的组合对于训练强大的多语言嵌入模型至关重要,该模型可以处理各种不同的任务和数据格式。

数据预处理

以下是应用于训练数据的主要数据清理和过滤方法:

  • CSAM 过滤:在数据准备过程中,我们在多个阶段应用了严格的 CSAM(儿童性虐待内容)过滤,以确保排除有害和非法内容。
  • 敏感数据过滤:为了确保 Gemma 预训练模型的安全性和可靠性,我们使用了自动化技术来过滤掉训练集中的某些个人信息和其他敏感数据。
  • 其他方法:根据内容质量和安全性(符合我们的政策)进行过滤。

模型开发

硬件

EmbeddingGemma 使用最新一代的张量处理单元 (TPU) 硬件 (TPUv5e) 进行训练,如需了解详情,请参阅 Gemma 3 模型卡片

软件

训练使用 JAXML Pathways 完成。如需了解详情,请参阅 Gemma 3 模型卡片

评估

基准测试结果

该模型针对大量不同的数据集和指标进行了评估,以涵盖文本理解的不同方面。

全精度检查点

MTEB(多语言,v2)
维度 平均值(任务) 平均值 (TaskType)
768d 61.15 54.31
512d 60.71 53.89
256 天 59.68 53.01
128d 58.23 51.77
MTEB(英语,v2)
维度 平均值(任务) 平均值 (TaskType)
768d 69.67 65.11
512d 69.18 64.59
256 天 68.37 64.02
128d 66.66 62.70
MTEB(代码,v1)
维度 平均值(任务) 平均值 (TaskType)
768d 68.76 68.76
512d 68.48 68.48
256 天 66.74 66.74
128d 62.96 62.96

QAT 检查点

MTEB(多语言,v2)
量化配置(维度) 平均值(任务) 平均值 (TaskType)
混合精度* (768d) 60.69 53.82
Q8_0 (768 天) 60.93 53.95
Q4_0 (768d) 60.62 53.61
MTEB(英语,v2)
量化配置(维度) 平均值(任务) 平均值 (TaskType)
混合精度* (768d) 69.32 64.82
Q8_0 (768 天) 69.49 64.84
Q4_0 (768d) 69.31 64.65
MTEB(代码,v1)
量化配置(维度) 平均值(任务) 平均值 (TaskType)
混合精度* (768d) 68.03 68.03
Q8_0 (768 天) 68.70 68.70
Q4_0 (768d) 67.99 67.99

* 混合精度是指对嵌入层、前馈层和投影层使用 int4 进行逐通道量化,对注意力层使用 int8 进行逐通道量化 (e4_a8_f4_p4)。

提示说明

EmbeddingGemma 可以生成针对各种用例(例如文档检索、问答和事实验证)或特定输入类型(查询或文档)进行了优化的嵌入,方法是使用附加到输入字符串的提示。

查询提示采用 task: {task description} | query: 格式,其中任务说明因使用情形而异,默认任务说明为 search result。文档风格的提示采用 title: {title | "none"} | text: 格式,其中 title 为 none(默认)或文档的实际标题。请注意,如果提供标题,模型在处理文档提示时的性能会有所提升,但可能需要手动设置格式。

根据您的使用场景和输入数据类型,使用以下提示。这些可能已在您选择的建模框架的 EmbeddingGemma 配置中提供。


使用情形(任务类型枚举)

广告内容描述

推荐提示

检索(查询)

用于生成针对文档搜索或信息检索进行了优化的嵌入

任务:搜索结果 | 查询:{content}

检索(文档)

title: {title | "none"} | text: {content}

问答

任务:问答 | 查询:{content}

事实核查

任务:事实核查 | 查询:{content}

分类

用于生成经过优化的嵌入,以便根据预设标签对文本进行分类

task: classification | query: {content}

聚类

用于生成经过优化的嵌入,以便根据文本的相似性对文本进行分组

任务:聚类 | 查询:{content}

语义相似度

用于生成经过优化以评估文本相似度的嵌入。此方法不适用于检索用例。

任务:句子相似度 | 查询:{content}

代码检索

用于根据自然语言查询检索代码块,例如“对数组进行排序”或“反转链表”。代码块的嵌入是使用 retrieval_document 计算的。

任务:代码检索 | 查询:{content}

使用情况和限制

这些模型存在一定的局限性,用户应加以留意。

预期用途

开放式嵌入模型广泛应用于各个行业和领域。以下潜在用途列表并不全面。此列表旨在提供有关模型创建者在模型训练和开发过程中考虑的可能用例的背景信息。

  • 语义相似度:经过优化以评估文本相似度的嵌入,例如推荐系统和重复内容检测
  • 分类:经过优化的嵌入,可根据预设标签对文本进行分类,例如情感分析和垃圾内容检测
  • 聚类:经过优化的嵌入,可根据文本的相似性对文本进行聚类,例如用于文档整理、市场研究和异常检测
  • 检索

    • 文档:针对文档搜索优化的嵌入,例如为搜索编制文章、图书或网页的索引
    • 查询:针对常规搜索查询(例如自定义搜索)优化的嵌入
    • 代码查询:经过优化的嵌入,可根据自然语言查询(例如代码建议和搜索)检索代码块
  • 问答:问答系统中问题的嵌入,经过优化,可用于查找回答问题的文档,例如聊天机器人。

  • 事实验证:需要验证的陈述的嵌入,经过优化,可用于检索包含支持或反驳相应陈述的证据的文档,例如自动事实核查系统。

限制

  • 训练数据

    • 训练数据的质量和多样性会显著影响模型的功能。训练数据中的偏见或缺漏可能会导致模型回答存在局限性。
    • 训练数据集的范围决定了模型可以有效处理的主题领域。
  • 语言歧义和细微差别

    • 自然语言本身就很复杂。模型可能难以理解细微的差别、讽刺或比喻性语言。

道德考量和风险

已识别的风险和缓解措施:

  • 偏见持续存在:建议在模型训练、微调和其他使用情形中,持续监控(使用评估指标、人工审核)并探索去偏见技术。
  • 出于恶意目的的滥用:技术限制以及开发者和最终用户教育有助于缓解嵌入的恶意应用。我们还提供教育资源和举报机制,以便用户标记滥用行为。《Gemma 使用限制政策》中列出了禁止使用 Gemma 模型的情形。
  • 隐私权违规:模型在经过过滤的数据上进行训练,以移除某些个人信息和其他敏感数据。建议开发者使用隐私保护技术来遵守隐私权法规。

优势

在发布时,与同等规模的模型相比,此模型系列提供高性能的开放嵌入模型实现,从一开始就旨在实现负责任的 AI 开发。根据本文档中介绍的基准评估指标,这些模型在性能方面优于其他同等规模的开放模型替代方案。