模型页面:Gemma
资源和技术文档:
使用条款:条款
作者:Google DeepMind
型号信息
输入和输出的摘要说明和简要定义。
说明
Gemma 是 Google 推出的一系列先进的轻量级开放式模型,基于用于创建 Gemini 模型的研究和技术构建而成。Gemma 3 模型是多模态模型,用于处理文本和图片输入以及生成文本输出,并为经过预训练的变体和指令调优的变体提供开放式权重。Gemma 3 具有 128K 的大型上下文窗口,支持超过 140 种语言,并且比之前的版本提供更多尺寸。Gemma 3 模型非常适合各种文本生成和图片理解任务,包括问答、摘要和推理。由于其相对较小的体积,您可以在资源有限的环境(例如笔记本电脑、台式机或您自己的云基础架构)中部署它们,从而让所有人都能使用先进的 AI 模型,并帮助他们进行创新。
输入和输出
Input:
- 文本字符串,例如问题、提示或要总结的文档
- 图片,已标准化为 896 x 896 分辨率,并编码为每个 256 个令牌
- 输入上下文总大小为 128K 个令牌(对于 4B、12B 和 27B 大小),32K 个令牌(对于 1B 大小)
输出:
- 针对输入生成的文本,例如问题的答案、图片内容的分析或文档摘要
- 每个请求的总输出上下文最多为 128K 个令牌(对于大小为 4B、12B 和 27B 的上下文),对于大小为 1B 的上下文,则为 32K 个令牌(扣除请求输入令牌)
引用
@article{gemma_2025,
title={Gemma 3},
url={https://arxiv.org/abs/2503.19786},
publisher={Google DeepMind},
author={Gemma Team},
year={2025}
}
模型数据
用于模型训练的数据以及数据的处理方式。
训练数据集
这些模型是使用包含各种来源的文本数据集进行训练的。270 亿个词元的模型使用 14 万亿个词元进行训练,120 亿个词元的模型使用 12 万亿个词元进行训练,40 亿个词元的模型使用 4 万亿个词元进行训练,10 亿个词元的模型使用 2 万亿个词元进行训练。训练数据的知识截止日期为 2024 年 8 月。以下是关键组件:
- 网络文档:丰富多样的网络文本集确保模型接触到各种语言风格、主题和词汇。训练数据集包含 140 多种语言的内容。
- 代码:向模型展示代码有助于其学习编程语言的语法和模式,从而提高其生成代码和理解与代码相关的问题的能力。
- 数学:通过数学文本进行训练有助于模型学习逻辑推理、符号表示法,并解答数学问题。
- 图片:借助各种各样的图片,该模型可以执行图片分析和视觉数据提取任务。
将这些多样化的数据源组合起来对于训练出能够处理各种不同任务和数据格式的强大多模态模型至关重要。
数据预处理
以下是应用于训练数据的主要数据清理和过滤方法:
- 儿童性虐待内容过滤:在数据准备流程的多个阶段,我们都采用了严格的儿童性虐待内容 (CSAM) 过滤机制,以确保排除有害和非法内容。
- 敏感数据过滤:为了确保 Gemma 预训练模型安全可靠,我们使用了自动化技术从训练集中滤除特定的个人信息和其他敏感数据。
- 其他方法:根据我们的政策,根据内容质量和安全性进行过滤。
实现信息
有关模型内部结构的详细信息。
硬件
Gemma 使用张量处理单元 (TPU) 硬件 (TPUv4p、TPUv5p 和 TPUv5e) 进行训练。训练视觉-语言模型 (VLM) 需要强大的计算能力。TPU 专为机器学习中常见的矩阵运算而设计,在该领域具有以下几点优势:
- 性能:TPU 专为处理训练 VLM 所涉及的大量计算而设计。与 CPU 相比,它们可以显著加快训练速度。
- 内存:TPU 通常配备大量高带宽内存,可在训练期间处理大型模型和批量大小。这有助于提升模型质量。
- 可伸缩性:TPU Pod(由大量 TPU 组成的集群)提供了可伸缩的解决方案,可应对大型基础模型日益增多的复杂性。您可以将训练任务分配到多个 TPU 设备,以实现更快速、更高效的处理。
- 经济高效:在许多情况下,与基于 CPU 的基础架构相比,TPU 在训练大型模型方面可以提供更具成本效益的解决方案,尤其是考虑到因训练速度更快而节省的时间和资源。
- 这些优势与 Google 致力于可持续运营的承诺相符。
软件
训练是使用 JAX 和 ML Pathways 完成的。
借助 JAX,研究人员可以利用最新一代硬件(包括 TPU)更快、更高效地训练大型模型。ML Pathways 是 Google 在构建能够跨多个任务进行推广的人工智能系统方面的最新成果。这特别适用于基础模型,包括这些大语言模型。
JAX 和 ML Pathways 的搭配使用方式如 关于 Gemini 系列模型的论文中所述;“JAX 和 Pathways 的‘单控制器’编程模型允许单个 Python 进程协调整个训练运行,从而显著简化开发工作流。”
评估
模型评估指标和结果。
基准测试结果
我们针对大量不同的数据集和指标对这些模型进行了评估,以涵盖文本生成的不同方面。标记为 IT 的评估结果适用于经过指令调优的模型。标记为 PT 的评估结果适用于预训练模型。
推理和事实
基准 | n 个镜头 | Gemma 3 IT 1B | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
---|---|---|---|---|---|
GPQA 钻石级 | 零样本 | 19.2 | 30.8 | 40.9 | 42.4 |
SimpleQA | 零样本 | 2.2 | 4.0 | 6.3 | 10.0 |
FACTS 基础知识 | - | 36.4 | 70.1 | 75.8 | 74.9 |
BIG-Bench Hard | 零样本 | 39.1 | 72.2 | 85.7 | 87.6 |
BIG-Bench Extra Hard | 零样本 | 7.2 | 11.0 | 16.3 | 19.3 |
IFEval | 零样本 | 80.2 | 90.2 | 88.9 | 90.4 |
基准 | n 个镜头 | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|---|
HellaSwag | 10 次拍摄 | 62.3 | 77.2 | 84.2 | 85.6 |
BoolQ | 零样本 | 63.2 | 72.3 | 78.8 | 82.4 |
PIQA | 零样本 | 73.8 | 79.6 | 81.8 | 83.3 |
SocialIQA | 零样本 | 48.9 | 51.9 | 53.4 | 54.9 |
TriviaQA | 5 张 | 39.8 | 65.8 | 78.2 | 85.5 |
自然问题 | 5 张 | 9.48 | 20.0 | 31.4 | 36.1 |
ARC-c | 25 张 | 38.4 | 56.2 | 68.9 | 70.6 |
ARC-e | 零样本 | 73.0 | 82.4 | 88.3 | 89.0 |
WinoGrande | 5 张 | 58.2 | 64.7 | 74.3 | 78.8 |
BIG-Bench Hard | 少样本 | 28.4 | 50.9 | 72.6 | 77.7 |
DROP | 单样本 | 42.4 | 60.1 | 72.2 | 77.2 |
STEM 和编码
基准 | n 个镜头 | Gemma 3 IT 1B | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
---|---|---|---|---|---|
MMLU(专业版) | 零样本 | 14.7 | 43.6 | 60.6 | 67.5 |
LiveCodeBench | 零样本 | 1.9 | 12.6 | 24.6 | 29.7 |
Bird-SQL(开发版) | - | 6.4 | 36.3 | 47.9 | 54.4 |
数学 | 零样本 | 48.0 | 75.6 | 83.8 | 89.0 |
HiddenMath | 零样本 | 15.8 | 43.0 | 54.5 | 60.3 |
MBPP | 3 连拍 | 35.2 | 63.2 | 73.0 | 74.4 |
HumanEval | 零样本 | 41.5 | 71.3 | 85.4 | 87.8 |
Natural2Code | 零样本 | 56.0 | 70.3 | 80.7 | 84.5 |
GSM8K | 零样本 | 62.8 | 89.2 | 94.4 | 95.9 |
基准 | n 个镜头 | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
MMLU | 5 张 | 59.6 | 74.5 | 78.6 |
MMLU(专业版 COT) | 5 张 | 29.2 | 45.3 | 52.2 |
AGIEval | 3-5-shot | 42.1 | 57.4 | 66.2 |
MATH | 4 个镜头 | 24.2 | 43.3 | 50.0 |
GSM8K | 8 张 | 38.4 | 71.0 | 82.6 |
GPQA | 5 连拍 | 15.0 | 25.4 | 24.3 |
MBPP | 3 连拍 | 46.0 | 60.4 | 65.6 |
HumanEval | 零样本 | 36.0 | 45.7 | 48.8 |
多语言
基准 | n 个镜头 | Gemma 3 IT 1B | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
---|---|---|---|---|---|
Global-MMLU-Lite | 零样本 | 34.2 岁 | 54.5 | 69.5 | 75.1 |
ECLeKTic | 零样本 | 1.4 | 4.6 | 10.3 | 16.7 |
WMT24++ | 零样本 | 35.9 | 46.8 | 51.6 | 53.4 |
基准 | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
MGSM | 2.04 | 34.7 | 64.3 | 74.3 |
Global-MMLU-Lite | 24.9 | 57.0 | 69.4 | 75.7 |
WMT24++ (ChrF) | 36.7 | 48.4 | 53.9 | 55.7 |
FloRes | 29.5 | 39.2 | 46.0 | 48.8 |
XQuAD(所有) | 43.9 | 68.0 | 74.5 | 76.8 |
ECLeKTic | 4.69 | 11.0 | 17.2 | 24.4 |
IndicGenBench | 41.4 | 57.2 | 61.7 | 63.4 |
多模态
基准 | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
---|---|---|---|
MMMU(值) | 48.8 | 59.6 | 64.9 |
DocVQA | 75.8 | 87.1 | 86.6 |
InfoVQA | 50.0 | 64.9 | 70.6 |
TextVQA | 57.8 | 67.7 | 65.1 |
AI2D | 74.8 | 84.2 | 84.5 |
ChartQA | 68.8 | 75.7 | 78.0 |
VQAv2(val) | 62.4 | 71.6 | 71.0 |
MathVista (testmini) | 50.0 | 62.9 | 67.6 |
基准 | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|
COCOcap | 102 | 111 | 116 |
DocVQA(val) | 72.8 | 82.3 | 85.6 |
InfoVQA (val) | 44.1 | 54.8 | 59.4 |
MMMU(pt) | 39.2 | 50.3 | 56.1 |
TextVQA (val) | 58.9 | 66.5 | 68.6 |
RealWorldQA | 45.5 | 52.2 | 53.9 |
ReMI | 27.3 | 38.5 | 44.8 |
AI2D | 63.2 | 75.2 | 79.0 |
ChartQA | 63.6 | 74.7 | 76.3 |
VQAv2 | 63.9 | 71.2 | 72.9 |
BLINK | 38.0 | 35.9 | 39.6 |
OKVQA | 51.0 | 58.7 | 60.2 |
TallyQA | 42.5 | 51.8 | 54.3 |
SpatialSense VQA | 50.9 | 60.0 | 59.4 |
CountBenchQA | 26.1 | 17.8 | 68.0 |
道德和安全
伦理和安全评估方法和结果。
评估方法
我们的评估方法包括结构化评估,以及对相关内容政策的内部红队测试。红队攻击由多个不同的团队执行,每个团队都有不同的目标和人工评估指标。我们根据与伦理和安全相关的多个不同类别对这些模型进行了评估,包括:
- 儿童安全:评估文本转文本和图片转文本提示是否违反了儿童安全政策,包括儿童性虐待和剥削。
- 内容安全:评估文本转文本和图片转文本提示,涵盖骚扰、暴力和血腥内容以及仇恨言论等安全政策。
- 表述性伤害:评估文本到文本和图片到文本提示,涵盖安全政策,包括偏见、刻板印象以及有害联想或不准确性。
除了开发级评估之外,我们还会进行“保证评估”,这是我们为进行责任治理决策而进行的“独立”内部评估。这些测试由模型开发团队之外的团队进行,以便为发布决策提供依据。我们会将主要发现反馈给模型团队,但会保留提示集,以防止过度拟合并确保结果能够为决策提供依据。在发布审核过程中,我们会将保证评估结果报告给责任和安全委员会。
评估结果
与之前的 Gemma 模型相比,我们发现在儿童安全、内容安全和表征性伤害等所有安全测试领域,新模型都取得了显著进步。所有测试均在不使用安全过滤器的情况下进行,以评估模型的功能和行为。无论是文本到文本还是图片到文本,无论模型大小如何,该模型都产生了最少的违规行为,并且在未经证实的推理方面,与之前的 Gemma 模型相比,其性能有了显著提升。我们的评估存在一个限制,即仅包含英语提示。
使用和限制
这些模型存在一些限制,用户应予以留意。
预期用途
开放式视觉-语言模型 (VLM) 在各个行业和领域都有广泛的应用。以下潜在用途列表并未详尽列出所有用途。此列表旨在提供有关模型创建者在模型训练和开发过程中考虑的可能用例的背景信息。
- 内容创作和传播
- 文本生成:这些模型可用于生成诗歌、脚本、代码、营销文案和电子邮件草稿等富有创意的文本格式。
- 聊天机器人和对话式 AI:为客户服务、虚拟助理或互动应用提供对话式界面。
- 文本摘要:为文本语料库、研究论文或报告生成简洁的摘要。
- 图片数据提取:这些模型可用于提取、解读和总结视觉数据,以便进行文本通信。
- 研究和教育
- 自然语言处理 (NLP) 和 VLM 研究:这些模型可以为研究人员实验 VLM 和 NLP 技术、开发算法并为该领域的发展做出贡献奠定基础。
- 语言学习工具:支持互动式语言学习体验,有助于纠正语法或提供写作练习。
- 知识探索:通过生成摘要或解答特定主题的问题,协助研究人员探索大量文本。
限制
- 训练数据
- 训练数据的质量和多样性会显著影响模型的功能。训练数据中的偏见或缺口可能会导致模型的回答受到限制。
- 训练数据集的范围决定了模型可以有效处理的主题领域。
- 情境和任务复杂性
- 模型更擅长处理可通过清晰的提示和说明来界定的任务。开放式或高度复杂的任务可能很难完成。
- 模型的性能可能会受到提供的上下文量的影响(在一定程度上,上下文越长,输出结果就越好)。
- 语言模糊性和细微差别
- 自然语言本身就很复杂。模型可能难以理解细微的细微差别、讽刺或比喻性语言。
- 符合实情
- 模型会根据从训练数据集中学到的信息生成回答,但它们不是知识库。它们可能会生成不正确或过时的实情陈述。
- Common Sense
- 模型依赖于语言中的统计模式。在某些情况下,它们可能无法运用常识推理。
道德注意事项和风险
视觉-语言模型 (VLM) 的开发引发了一些伦理问题。在创建开放式模型时,我们仔细考虑了以下事项:
- 偏见和公平性
- 使用大规模真实文本和图像数据训练的 VLM 可能会反映训练材料中嵌入的社会文化偏见。这些模型经过了仔细审核、输入数据预处理(如本卡片中所述)和后续评估。
- 虚假信息和滥用
- VLM 可能会被滥用来生成虚假、误导性或有害的文本。
- 我们提供了有关负责任地使用该模型的指南,请参阅 Responsible Generative AI 工具包。
- 公开透明,责任明确:
- 此模型卡片总结了模型的架构、功能、限制和评估流程的详细信息。
- 负责任地开发的开放模型可让 AI 生态系统中的开发者和研究人员都能使用 VLM 技术,从而分享创新成果。
发现的风险和缓解措施:
- 偏见的延续:建议在模型训练、微调和其他用例期间进行持续监控(使用评估指标、人工审核),并探索去偏见技术。
- 生成有害内容:内容安全机制和准则至关重要。我们建议开发者谨慎行事,并根据其特定的产品政策和应用使用情形实施适当的内容安全保护措施。
- 出于恶意目的滥用:技术限制以及对开发者和最终用户的教育有助于防范 VLM 的恶意应用。提供教育资源和举报机制,供用户举报滥用行为。Gemma 使用限制政策中列出了 Gemma 模型的禁止用途。
- 隐私权违规:模型的训练数据经过过滤,以移除特定个人信息和其他敏感数据。我们建议开发者采用可保护隐私的技术来遵守隐私权法规。
优势
与同等规模的模型相比,此系列模型在发布时提供高性能的开放式视觉-语言模型实现,从头开始设计,以负责任的 AI 开发为目标。
使用本文档中介绍的基准评估指标,这些模型的性能已被证明优于其他规模相当的开源模型替代方案。