Gemma 4 发布，支持文本、音频和图片输入，上下文窗口最长可达 25.6 万个 token！了解详情

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

DiffusionGemma 模型卡片

Hugging Face | GitHub | Launch Blog | Documentation
License: Apache 2.0 | Authors: Google DeepMind

DiffusionGemma 是 Google DeepMind 构建的生成模型。DiffusionGemma 基于 26B A4B 混合专家 (MoE) Gemma 4 架构，使用离散扩散生成 token。此开放权重模型是多模态模型，可处理文本、图片和视频输入，以生成文本输出。

DiffusionGemma 基于 MoE 基础，旨在提高生成速度（每秒 token 数），同时仍可在各种硬件环境中部署。DiffusionGemma 以 Gemma 4 的架构和功能改进为基础，引入了多项核心功能：

离散文本扩散 \- 从逐个 token 的自回归转变为块自回归多画布采样。它通过并行迭代去噪 token 块（“画布”）来生成文本，从而显著提高解码速度。
多模态输入处理 \- 处理交错的文本、图片（支持可变宽高比和分辨率）和视频输入，以生成文本输出。
编码器-解码器架构 \- 利用自回归编码器处理和缓存提示上下文，并搭配一个对生成画布应用双向注意力的解码器。
混合专家 (MoE) 效率 \- 利用稀疏 MoE 设计（在 128 个总专家中，有 8 个有效专家）提供强大的推理能力，同时保持较低的内存占用量，适合本地执行。
思考模式（推理） \- 设计为功能强大的推理器，具有可配置的思考模式。
针对小批量推理进行了优化 \- 专门针对单个功能强大的加速器上的低延迟、高速生成进行了设计。
原生系统提示支持 \- 与 Gemma 4 一样，它支持更新 system 角色，从而实现更结构化且可控的对话。

模型概览

DiffusionGemma 旨在减少标准因果语言模型的顺序瓶颈。它采用专门针对推理速度进行了优化的编码器-解码器架构。

编码器以预填充容量运行，处理初始提示并生成 KV 缓存。然后，解码器利用双向注意力处理 token 的输入块（“画布”），并通过交叉注意力访问缓存的上下文。

在推理过程中，DiffusionGemma 利用多画布采样。该模型不是一次生成一个 token，而是使用扩散采样器迭代去噪整个 token 块。画布完全去噪后，编码器会对其进行处理并将其附加到 KV 缓存，然后模型会生成下一个画布。这种块自回归方法有助于以更高的速度生成文本。

DiffusionGemma

| 总参数 | 252 亿 | | 有效参数 | 38 亿 | | 层数 | 30 | | 滑动窗口 | 1024 个 token | | 上下文长度 | 最多 25.6 万个 token | | 画布长度 | 256 | | 词汇量 | 26.2 万 | | 专家数量 | 8 个有效专家 / 128 个总专家和 1 个共享专家 | | 支持的模态 | 文本、图片 | | 视觉编码器参数 | 大约 5.5 亿 |

基准结果

这些模型针对大量不同的数据集和指标进行了评估，以涵盖文本生成的不同方面。表格中标记的评估结果适用于指令调优模型，并使用建议的熵界限 (EB) 采样器（请参阅下方的最佳实践）。

基准	DiffusionGemma 26B A4B	Gemma 4 26B A4B
MMLU Pro	77.6%	82.6%
AIME 2026 无工具	69.1%	88.3%
LiveCodeBench v6	69.1%	77.1%
Codeforces ELO	1429	1718
GPQA Diamond	73.2%	82.3%
Tau2（平均值，共 3 个）	56.2%	68.2%
HLE 无工具	11.0%	8.7%
HLE（带搜索）	11.9%	17.2%
BigBench Extra Hard	47.6%	64.8%
MMMLU	81.5%	86.3%
Vision
MMMU Pro	54.3%	73.8%
OmniDocBench 1.5（平均编辑距离，越低越好）	0.319	0.149
MATH-Vision	70.5%	82.4%
MedXPertQA MM	49.0%	58.1%
长上下文
MRCR v2 8 针形 128k（平均值）	32.0%	44.1%

核心功能

DiffusionGemma 可处理文本和视觉方面的各种任务。主要功能包括：

高速生成 - 通过扩散采样并行去噪 256 个 token，每次正向传递生成 15-20 个 token，从而实现低延迟，在小批次大小设置 (H100, FP8) 中，每个用户的生成速度超过每秒 1100 个 token。
自适应推理时间计算 - 简单的提示和结构化任务（如代码）所需的去噪步骤较少，从而能够根据任务复杂性动态调整每秒 token 数。
思考 \- 内置推理模式，可让模型在回答之前逐步思考。
长上下文 \- 上下文窗口最多可包含 25.6 万个 token。
图片理解 \- 对象检测、文档/PDF 解析、屏幕和界面理解、图表理解、OCR（包括多语言）、手写识别和指向。图片可以按可变宽高比和分辨率进行处理。
视频理解 \- 通过处理帧序列来分析和描述视频内容。
交错的多模态输入 \- 在单个提示中混合图片、视频和文本，以进行上下文丰富的推理。
函数调用 \- 原生支持结构化工具使用，从而实现代理工作流。
编码和推理 \- 能够生成代码、补全代码和进行逐步逻辑推理。
多语言 \- 开箱即用，支持 35 种以上语言，并基于 140 种以上语言进行了预训练。

最佳实践

为了获得最佳性能，请使用以下配置和最佳实践：

1. 扩散采样设置

在所有用例中使用以下标准化采样配置：

方法：扩散采样，具有熵界限去噪和自适应停止功能。
采样配置：
- 去噪步骤数上限 = 48
- 温度计划（用于 logit 塑形）：从 0.8 线性衰减到 0.4
- token 选择：在每个步骤中，采样器选择熵最低的 token，以使其互信息界限保持在熵界限 = 0.1 以下
- token 重新去噪：采样器完全重新去噪未选择的 token
自适应停止：仅当同时满足以下两个条件时，采样才会提前终止：
- 置信度高的预测：画布上的平均模型熵低于熵阈值 = 0.005
- 稳定的预测：最高概率 token 预测在两个连续的去噪步骤中保持不变

2. 思考模式配置

与 Gemma 4 模型类似，我们使用标准的 system、assistant 和 user 角色。如需正确管理思考过程，请使用以下控制 token：

触发思考：通过在系统提示的开头添加 <|think|> token 来启用思考。如需停用思考，请移除该 token（请注意，系统可能仍会发出空思考通道）。
标准生成：启用思考后，模型将输出其内部推理，然后使用以下结构输出最终答案： <|channel>thought\n[内部推理]<channel|>。
已停用思考行为：如果停用了思考，模型仍会生成标记，但会使用空思考块： <|channel>thought\n<channel|>[最终答案]。

请注意，许多库（例如 transformers）会为您处理聊天模板的复杂性。

3. 多轮对话

历史记录中没有思考内容：在多轮对话中，历史模型输出应仅包含最终回答。在下一个用户轮次开始之前，不得添加先前模型轮次的思考。

4. 模态顺序

为了获得最佳的多模态输入性能，请将图片内容放在提示中的文本之前。

5. 可变图片分辨率

除了可变宽高比之外，DiffusionGemma 还通过可配置的视觉 token 预算支持可变图片分辨率，该预算控制用于表示图片的 token 数量。较高的 token 预算会保留更多视觉细节，但会增加计算量，而较低的预算则可以为不需要精细理解的任务实现更快的推理。

支持的 token 预算为：70、140、280、560 和 1120。
- 对于分类、标注或视频理解，请使用较低的预算，因为更快的推理和处理许多帧比精细的细节更重要。
- 对于 OCR、文档解析或阅读小文本等任务，请使用较高的预算。

6. 视频时长

所有模型都支持图片输入，并且可以将视频作为帧进行处理。假设图片以每秒一帧的速度处理，则视频最多支持 60 秒。

模型数据

用于模型训练的数据以及数据的处理方式。

训练数据集

我们的预训练数据集是一个大规模、多样化的数据集，涵盖各种领域和模态，包括网页文档、代码、图片、音频，截止日期为 2025 年 1 月。以下是关键组件：

网页文档：多样化的网页文本集合可确保模型接触到各种语言风格、主题和词汇。训练数据集包含 140 多种语言的内容。
代码：让模型接触代码有助于其学习编程语言的语法和模式，从而提高其生成代码和理解代码相关问题的能力。
数学：基于数学文本进行训练有助于模型学习逻辑推理、符号表示和处理数学查询。
图片：各种图片使模型能够执行图片分析和视觉数据提取任务。

这些多样化数据源的组合对于训练功能强大的多模态模型至关重要，该模型可以处理各种不同的任务和数据格式。

数据预处理

以下是应用于训练数据的关键数据清理和过滤方法：

CSAM 过滤：在数据准备过程的多个阶段应用了严格的 CSAM（儿童性虐待内容）过滤，以确保排除有害和非法内容。
敏感数据过滤：为了确保 Gemma 预训练模型的安全性和可靠性，我们使用了自动化技术从训练集中过滤掉某些个人信息和其他敏感数据。
其他方法：根据内容质量和安全性（符合我们的政策）进行过滤。

伦理和安全

随着开放模型成为企业基础架构的核心，来源和安全性至关重要。DiffusionGemma 由 Google DeepMind 开发，与我们的专有 Gemini 模型一样，经过了严格的安全评估。

评估方法

DiffusionGemma 是与内部安全和负责任的 AI 团队合作开发的。我们进行了一系列自动化评估和人工评估，以帮助提高模型安全性。这些评估符合 Google 的 AI 原则以及安全政策，旨在防止我们的生成式 AI 模型生成有害内容，包括：

与儿童性虐待内容和性剥削有关的内容
危险内容（例如，宣扬自杀或指导可能导致现实世界伤害的活动）
露骨色情内容
仇恨言论（例如，将受保护群体中的成员非人化）
骚扰（例如，鼓励对他人施加暴力）

评估结果

在所有安全测试领域，与前几代 Gemma 模型相比，我们在所有类别的内容安全方面都取得了重大改进。总体而言，与 Gemma 3 和 3n 模型相比，DiffusionGemma（与 Gemma 4 模型一样）在提高安全性方面表现出色，同时将不合理的拒绝率保持在较低水平。所有测试都是在没有安全过滤条件的情况下进行的，目的是评估模型的原始能力和基准行为。对于文生文和图片到文本，以及所有模型大小，该模型产生的政策违规行为极少，并且与之前的 Gemma 模型相比有了显著改进。

使用和限制

这些模型存在一定的限制，用户应注意。

预期用途

多模态模型（能够处理视觉、语言和/或音频）在各个行业和领域都有广泛的应用。以下潜在用途列表并不详尽。此列表的目的是提供有关模型创建者在模型训练和开发过程中考虑的可能用例的背景信息。

内容创作和交流
- 文本生成：生成创意文本格式，例如诗歌、脚本、代码、营销文案和电子邮件草稿。
- 聊天机器人和对话式 AI：为客户服务、虚拟助理或互动式应用提供对话式界面。
- 文本摘要：生成文本语料库、研究论文或报告的简明摘要。
- 图片数据提取：提取、解释和汇总视觉数据，以用于文本交流。
研究和教育
- 自然语言处理 (NLP) 和 VLM 研究：为研究人员试验 VLM 和 NLP 技术、开发算法以及为该领域的发展做出贡献奠定基础。
- 语言学习工具：支持互动式语言学习体验，帮助纠正语法或提供写作练习。
- 知识探索：通过生成摘要或回答有关特定主题的问题，帮助研究人员探索大量文本。

限制

训练数据
- 训练数据的质量和多样性会显著影响模型的能力。训练数据中的偏见或缺漏可能会导致模型回答的限制。
- 训练数据集的范围决定了模型可以有效处理的主题领域。
上下文和任务复杂性
- 该模型在可以使用清晰的提示和说明来构建的任务上表现良好。开放式或高度复杂的任务可能具有挑战性。
- 模型的性能可能会受到所提供上下文量的影响（在一定程度上，上下文越长，输出通常越好）。
语言歧义和细微差别
- 自然语言本身就很复杂。该模型可能难以理解细微的差别、讽刺或比喻性语言。
事实准确性
- 该模型根据从训练数据集中学到的信息生成回答，但它们不是知识库。它可能会生成不正确或过时的事实陈述。
常识
- 该模型依赖于语言中的统计模式。在某些情况下，它可能缺乏应用常识推理的能力。

伦理考量和风险

在创建开放的视觉语言模型时，我们仔细考虑了以下几点：

偏见和公平性
- 基于大规模真实世界文本和图片数据训练的 VLM 可能会反映训练材料中嵌入的社会文化偏见。如本卡片中所述，DiffusionGemma 经过了仔细审查、输入数据预处理和训练后评估，以帮助降低这些偏见的风险。
虚假信息和滥用
- VLM 可能会被滥用以生成虚假、误导性或有害的文本。
- 我们提供了负责任地使用该模型的准则，请参阅负责任的生成式 AI 工具包。
透明度和问责制
- 此模型卡片总结了有关模型架构、功能、限制和评估流程的详细信息。
- 负责任地开发的开放模型提供了一个机会，通过让 AI 生态系统中的开发者和研究人员能够使用 VLM 技术来分享创新。

已识别的风险和缓解措施：

生成有害内容：内容安全机制和准则至关重要。我们鼓励开发者谨慎行事，并根据其具体产品政策和应用用例实施适当的内容安全保护措施。
滥用于恶意目的：技术限制以及对开发者和最终用户的教育有助于缓解 VLM 的恶意应用。我们为用户提供了教育资源和报告机制，以便用户标记滥用行为。
侵犯隐私：模型基于经过过滤的数据进行训练，以移除某些个人信息和其他敏感数据。我们鼓励开发者使用可保护隐私的技术遵守隐私权法规。
偏见持续存在：我们鼓励在模型训练、微调和其他用例期间执行持续监控（使用评估指标、人工审核）并探索去偏见技术。

福利

在发布时，这是一款低延迟、高性能的开放视觉语言模型，为开发者和对研究扩散语言模型感兴趣的人员提供了一个极具吸引力的选择。与类似大小的模型相比，该模型从一开始就旨在实现 Responsible AI 开发。