Gemma 4 发布，支持文本、音频和图片输入，上下文窗口最长可达 25.6 万个 token！了解详情

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemma 4 模型卡片

Gemma 4 横幅

Hugging Face | GitHub | 发布博客 | 文档
许可：Apache 2.0 | 作者：Google DeepMind

Gemma 是 Google DeepMind 构建的一系列开放模型。Gemma 4 模型是多模态模型，用于处理文本和图片输入（小型模型支持音频输入）以及生成文本输出。此版本包含预训练和指令调优的开放权重模型。Gemma 4 的上下文窗口最多可容纳 25.6 万个 token，并支持 140 多种语言。

Gemma 4 同时采用密集型架构和混合专家 (MoE) 架构，非常适合文本生成、编码和推理等任务。这些模型有四种不同的规模：E2B、E4B、26B A4B 和 31B。它们尺寸各异，可部署在从高端手机到笔记本电脑和服务器的各种环境中，从而让更多人能够使用最先进的 AI。

Gemma 4 引入了关键的功能和架构改进：

推理 - 该系列中的所有模型都设计为高能力推理器，具有可配置的思考模式。
扩展的多模态功能 - 处理文本、支持可变宽高比和分辨率的图片（所有模型）、视频和音频（在 E2B 和 E4B 模型上原生支持）。
多样化且高效的架构 - 提供不同大小的密集型和混合专家 (MoE) 变体，以实现可伸缩的部署。
针对设备端进行了优化 - 较小的模型专为在笔记本电脑和移动设备上高效本地执行而设计。
更大的上下文窗口 - 小型模型的上下文窗口为 12.8 万个 token，中型模型的上下文窗口为 25.6 万个 token。
增强的编码和智能体功能 - 在编码基准方面取得了显著改进，同时支持原生函数调用，可打造功能强大的自主代理。
原生系统提示支持 - Gemma 4 引入了对 system 角色的原生支持，从而实现更结构化且可控的对话。

模型概览

Gemma 4 模型旨在提供各种规模的先进性能，目标部署场景涵盖移动设备和边缘设备 (E2B、E4B) 到消费类 GPU 和工作站 (26B A4B、31B)。它们非常适合推理、智能体工作流、编码和多模态理解。

这些模型采用混合注意力机制，将局部滑动窗口注意力和全局注意力交织在一起，确保最后一层始终是全局的。这种混合设计可提供轻量级模型的处理速度和低内存占用空间，同时不会牺牲复杂长上下文任务所需的深度感知能力。为了优化长上下文的内存，全局层采用统一的键和值，并应用比例 RoPE (p-RoPE)。

密集模型

属性	E2B	E4B	31B Dense
参数总数	23 亿有效参数（嵌入后为 51 亿）	45 亿有效参数（含嵌入为 80 亿）	307 亿
图层	35	42	60
滑动窗口	512 个词元	512 个词元	1024 个词元
上下文长度	12.8 万个 token	12.8 万个 token	25.6 万个 token
词汇大小	26.2 万	26.2 万	26.2 万
支持的模态	文字、图片、音频	文字、图片、音频	文字、图片
视觉编码器参数	~1.5 亿	~1.5 亿	~5.5 亿
音频编码器参数	~3 亿	~3 亿	没有音频

E2B 和 E4B 中的“E”表示“有效”形参。较小的模型采用 Per-Layer Embeddings (PLE)，以最大限度提高设备端部署中的参数效率。PLE 不会向模型添加更多层或参数，而是为每个词法单元的每个解码器层提供自己的小型嵌入。这些嵌入表很大，但仅用于快速查找，因此有效形参数量远小于总数。

混合专家 (MoE) 模型

属性	26B A4B MoE
参数总数	252 亿
有效参数	38 亿
图层	30
滑动窗口	1024 个词元
上下文长度	25.6 万个 token
词汇大小	26.2 万
专家数量	8 个有效目标 / 128 个目标（总数）和 1 个共享目标
支持的模态	文字、图片
视觉编码器参数	~5.5 亿

26B A4B 中的“A”表示“有效参数”，与模型包含的参数总数相对。通过在推理期间仅激活 40 亿个参数子集，混合专家模型运行速度比其 260 亿个总参数所暗示的速度快得多。与 31B 密集模型相比，它在推理速度方面表现出色，因为它的运行速度几乎与 40 亿参数模型一样快。

基准测试结果

我们针对大量不同的数据集和指标对这些模型进行了评估，以涵盖文本生成的不同方面。表格中标记的评估结果适用于指令调优模型。

	Gemma 4 31B	Gemma 4 26B A4B	Gemma 4 E4B	Gemma 4 E2B	Gemma 3 27B（无思考）
MMLU Pro	85.2%	82.6%	69.4%	60.0%	67.6%
AIME 2026 无工具	89.2%	88.3%	42.5%	37.5%	20.8%
LiveCodeBench v6	80.0%	77.1%	52.0%	44.0%	29.1%
Codeforces ELO	2150	1718	940	633	110
GPQA Diamond	84.3%	82.3%	58.6%	43.4%	42.4%
Tau2（3 次的平均值）	76.9%	68.2%	42.2%	24.5%	16.2%
HLE 无工具	19.5%	8.7%	-	-	-
支持搜索的 HLE	26.5%	17.2%	-	-	-
BigBench Extra Hard	74.4%	64.8%	33.1%	21.9%	19.3%
MMMLU	88.4%	86.3%	76.6%	67.4%	70.7%
视力
MMMU Pro	76.9%	73.8%	52.6%	44.2%	49.7%
OmniDocBench 1.5（平均编辑距离，越低越好）	0.131	0.149	0.181	0.290	0.365
MATH-Vision	85.6%	82.4%	59.5%	52.4%	46.0%
MedXPertQA MM	61.3%	58.1%	28.7%	23.5%	-
音频
CoVoST	-	-	35.54	33.47	-
FLEURS（值越低越好）	-	-	0.08	0.09	-
长上下文
MRCR v2 8 针 128k（平均）	66.4%	44.1%	25.4%	19.1%	13.5%

核心功能

Gemma 4 模型可处理文本、视觉和音频方面的各种任务。主要功能包括：

思考 - 内置推理模式，可让模型在回答之前进行分步思考。
长上下文 - 上下文窗口最多可容纳 128K 个 token（E2B/E4B）和 256K 个 token（26B A4B/31B）。
图片理解 - 对象检测、文档/PDF 解析、屏幕和界面理解、图表理解、OCR（包括多语言）、手写识别和指点。可以处理具有不同宽高比和分辨率的图片。
视频理解 - 通过处理帧序列来分析视频。
交织的多模态输入 - 在单个提示中，可以按任意顺序自由混合文本和图片。
函数调用 - 原生支持结构化工具使用，可实现智能体工作流。
编码 - 代码生成、补全和更正。
多语言 - 开箱即用，支持 35 种以上的语言，预训练了 140 种以上的语言。
音频（仅限 E2B 和 E4B）- 自动语音识别 (ASR) 和语音转译文翻译（支持多种语言）。

最佳做法

为了获得最佳性能，请使用以下配置和最佳实践：

1. 抽样参数

在所有使用情形下，都使用以下标准化抽样配置：

temperature=1.0
top_p=0.95
top_k=64

2. 思考模式配置

与 Gemma 3 相比，这些模型使用标准的 system、assistant 和 user 角色。为了妥善管理思考过程，请使用以下控制令牌：

触发思考：通过在系统提示的开头添加 <|think|> 令牌来启用思考。如需停用思考，请移除令牌。
标准生成：启用思考功能后，模型将输出其内部推理，然后使用以下结构输出最终答案：<|channel>thought\n[内部推理]<channel|>
停用思考行为：对于除 E2B 和 E4B 变体之外的所有模型，如果停用思考，模型仍会生成标记，但会使用空的思考块：<|channel>thought\n<channel|>[最终答案]

请注意，许多库（例如 Transformers 和 llama.cpp）会为您处理聊天模板的复杂性。

3. 多轮对话

历史记录中没有思考内容：在多轮对话中，历史模型输出应仅包含最终回答。在下一个用户回合开始之前，不得添加上一个模型回合的想法。

4. 模态顺序

为了让多模态输入取得最佳效果，请将图片和/或音频内容放在提示中的文本前面。

5. 可变图片分辨率

除了可变宽高比之外，Gemma 4 还支持通过可配置的视觉 token 预算来支持可变图片分辨率，该预算可控制用于表示图片的 token 数量。较高的 token 预算可以保留更多视觉细节，但需要额外的计算资源；较低的预算可以更快地完成不需要精细理解的任务。

支持的令牌预算为：70、140、280、560 和 1120。
- 对于分类、添加字幕或视频理解任务，请使用较低的预算，因为这些任务需要更快的推理速度和处理大量帧，而细粒度细节并不重要。
- 对于 OCR、文档解析或读取小文本等任务，请使用更高的预算。

6. 音频

对于音频处理，请使用以下提示结构：

音频语音识别 (ASR)

Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
*   Only output the transcription, with no newlines.
*   When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.

自动语音翻译 (AST)

Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

7. 音频和视频时长

所有模型都支持图片输入，并且可以将视频作为帧进行处理，而 E2B 和 E4B 模型还支持音频输入。音频时长上限为 30 秒。假设图片以每秒一帧的速度处理，视频时长最长为 60 秒。

模型数据

用于模型训练的数据以及数据的处理方式。

训练数据集

我们的预训练数据集是一个大规模、多样化的数据集合，涵盖广泛的领域和模态，包括网页文档、代码、图片、音频，截止日期为 2025 年 1 月。以下是关键组成部分：

网页文档：各种各样的网页文本可确保模型接触到广泛的语言样式、主题和词汇。训练数据集包含 140 多种语言的内容。
代码：让模型接触代码有助于其学习编程语言的语法和模式，从而提高其生成代码和理解代码相关问题的能力。
数学：通过数学文本训练，模型可以学习逻辑推理、符号表示，并解答数学问题。
图片：各种各样的图片可让模型执行图片分析和视觉数据提取任务。

这些多样化数据源的组合对于训练强大的多模态模型至关重要，该模型能够处理各种不同的任务和数据格式。

数据预处理

以下是应用于训练数据的主要数据清理和过滤方法：

CSAM 过滤：在数据准备流程的多个阶段应用了严格的 CSAM（儿童性虐待内容）过滤，以确保排除有害和非法内容。
敏感数据过滤：为了确保 Gemma 预训练模型的安全性和可靠性，我们使用了自动化技术来过滤掉训练集中的某些个人信息和其他敏感数据。
其他方法：根据内容质量和安全性（符合我们的政策）进行过滤。

伦理和安全

随着开放模型在企业基础架构中发挥越来越重要的作用，来源和安全性变得至关重要。Gemma 4 由 Google DeepMind 开发，与我们的专有 Gemini 模型一样，会接受严格的安全评估。

评估方法

Gemma 4 模型是与内部安全和 Responsible AI 团队合作开发的。我们进行了一系列自动化评估和人工评估，以帮助提高模型安全性。这些评估符合 Google 的 AI 原则以及安全政策，旨在防止我们的生成式 AI 模型生成有害内容，包括：

与儿童性虐待内容和性剥削有关的内容
危险内容（例如，宣扬自杀或提供可能导致现实世界中发生伤害的活动说明）
露骨色情内容
仇恨言论（例如，对受保护群体的成员进行人格侮辱）
骚扰（例如，鼓动针对他人的暴力行为）

评估结果

在所有安全测试方面，与之前的 Gemma 模型相比，我们在所有内容安全类别中都取得了重大改进。总体而言，Gemma 4 模型在提升安全性方面明显优于 Gemma 3 和 3n 模型，同时可将无正当理由的拒绝降至较低水平。所有测试均在未启用安全过滤器的前提下进行，以评估模型的功能和行为。无论是文生文还是图片到文本，也无论模型大小，该模型产生的政策违规情况都极少，并且与之前的 Gemma 模型相比，性能有了显著提升。

使用和限制

这些模型存在一定的局限性，用户应加以留意。

预期用途

多模态模型（能够处理视觉、语言和/或音频）在各个行业和领域有着广泛的应用。以下潜在用途列表并不详尽。此列表旨在提供有关模型创建者在模型训练和开发过程中考虑的可能用例的背景信息。

内容创作和交流
- 文本生成：这些模型可用于生成创意文本格式，例如诗歌、脚本、代码、营销文案和电子邮件草稿。
- 聊天机器人和对话式 AI：为客户服务、虚拟助理或互动式应用提供对话界面。
- 文本摘要：生成文本语料库、研究论文或报告的简明摘要。
- 图片数据提取：这些模型可用于提取、解读和总结视觉数据，以便进行文本交流。
- 音频处理和互动：较小的模型（E2B 和 E4B）可以分析和解读音频输入，从而实现语音驱动的互动和转写。
研究和教育
- 自然语言处理 (NLP) 和 VLM 研究：这些模型可作为研究人员试验 VLM 和 NLP 技术、开发算法并为该领域的发展做出贡献的基础。
- 语言学习工具：支持互动式语言学习体验，有助于进行语法更正或提供写作练习。
  - 知识探索：通过生成摘要或回答有关特定主题的问题，帮助研究人员探索大量文本。

限制

训练数据
- 训练数据的质量和多样性会显著影响模型的功能。训练数据中的偏见或缺漏可能会导致模型回答存在局限性。
- 训练数据集的范围决定了模型可以有效处理的主题领域。
情境和任务复杂性
- 模型在可以通过清晰的提示和指令来完成的任务上表现出色。开放式或高度复杂的任务可能具有挑战性。
- 模型的性能会受到所提供上下文数量的影响（通常情况下，上下文越长，输出效果越好，但会达到某个上限）。
语言歧义和细微差别
- 自然语言本身就很复杂。模型可能难以理解细微的差别、讽刺或比喻性语言。
事实准确性
- 模型会根据从训练数据集中学到的信息生成回答，但它们不是知识库。可能会生成不正确或过时的事实陈述。
Common Sense
- 模型依赖于语言中的统计模式。它们可能在某些情况下缺乏应用常识推理的能力。

伦理考量和风险

视觉-语言模型 (VLM) 的开发引发了多项伦理问题。在创建开放模型时，我们仔细考虑了以下因素：

偏见与公平性
- 基于大规模真实世界文本和图像数据训练的 VLM 可能会反映训练材料中嵌入的社会文化偏见。如本卡片中所述，Gemma 4 模型经过了仔细的审查、输入数据预处理和后训练评估，有助于降低这些偏差的风险。
虚假信息和滥用行为
- VLM 可能会被滥用，生成虚假、误导性或有害的文本。
- 我们提供了有关负责任地使用该模型的指南，请参阅负责任的生成式 AI 工具包。
透明度和问责制
- 此模型卡片总结了模型架构、功能、限制和评估流程的详细信息。
- 负责任地开发的开放模型可让 AI 生态系统中的开发者和研究人员使用 VLM 技术，从而有机会分享创新成果。

已识别的风险和缓解措施：

生成有害内容：内容安全机制和准则至关重要。建议开发者根据其具体产品政策和应用使用情形谨慎行事，并实施适当的内容安全保护措施。
出于恶意目的的滥用：技术限制以及开发者和最终用户教育有助于缓解 VLM 的恶意应用。我们提供教育资源和举报机制，以便用户标记滥用行为。
隐私权违规：模型是使用经过过滤的数据进行训练的，这些数据已移除某些个人信息和其他敏感数据。建议开发者使用可保护隐私的技术来遵守隐私权法规。
偏见持续存在：建议在模型训练、微调和其他使用情形中，持续监控（使用评估指标、人工审核）并探索去偏见技术。

优势

在发布时，与同等规模的模型相比，这一系列模型提供了高性能的开放视觉语言模型实现，从一开始就旨在实现 Responsible AI 开发。