Gemma 4 发布，支持文本、音频和图片输入，上下文窗口最长可达 25.6 万个 token！了解详情

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

DiffusionGemma 模型概览

DiffusionGemma 是一种实验性开放模型，用于探索文本扩散，这是一种非常快速的文本生成方法。DiffusionGemma 基于 26B（4B 活跃）专家混合 (MoE) Gemma 4 架构，使用离散扩散生成 token。此开放权重模型是多模态的，可处理文本、图片和视频输入，以生成文本输出。

DiffusionGemma 基于 MoE，旨在提高生成速度（每秒 token 数），同时仍可在各种硬件环境中部署。DiffusionGemma 以 Gemma 4 的架构和功能进步为基础，引入了多项核心功能：

离散文本扩散：从传统因果 token 生成转向块自回归多画布采样。该模型通过并行迭代去噪 token 块（“画布”）来生成文本，从而大幅提高解码速度。
多模态处理：原生接受文本、图片（支持可变宽高比和分辨率）和视频输入。（注意：不支持音频输入）。
编码器-解码器架构：利用自回归编码器处理和缓存提示上下文，并结合对生成画布应用双向注意力的去噪。
专家混合 (MoE) 效率：利用基于 26B（4B 活跃）MoE 变体的稀疏 MoE 设计，以最小的开销提供深度推理功能。量化后，它符合消费类 GPU 的 18GB VRAM 限制，非常适合本地执行。
思考模式：内置的可配置推理通道允许模型在发出最终答案之前逐步思考。

与传统模型的权衡

虽然传统语言模型非常适合大规模云部署，因为它们可以批量处理数千个请求，但对于单个用户在本地运行这些模型会导致硬件利用率不足。DiffusionGemma 通过同时生成整个 256 个 token 块（而不是一次生成一个 token）来解决此问题，从而最大限度地提高本地硬件性能。

不过，这种方法严格针对面向消费者的低并发本地使用场景；由于其并行解码在高 QPS 云工作负载下提供的回报递减，因此在单个加速器上，吞吐量优势在低到中等批次大小下最为明显。

推荐的服务配置

为了获得最佳延迟时间和质量，我们建议使用以下 Diffusion 采样设置的默认参数进行部署：

参数	推荐值	函数	理由
去噪步数上限	48	每个画布的去噪步数上限。	去噪步数的安全限制。启用自适应停止后，去噪将在较少的步骤内停止，通常为 12-16 步，具体取决于任务。
温度时间表	线性 0.8 -> 0.4	温度缩放时间表，从高开始，并随着去噪步数的增加而减少。	高温 (0.8) 有助于早期探索；低温 (0.4) 可锁定最终 token。
自适应早停法	熵阈值：0.005	如果 A) 画布上的平均模型熵低于阈值，并且 B) 如果两个连续的去噪器预测保持相同，则提前停止执行。	简单的提示和结构化任务（如代码）所需的去噪步数较少，从而能够根据任务复杂性动态调整每秒 token 数。
token 选择	熵界限：0.1	在每个步骤中，采样器都会选择熵最低的 token，以使其互信息界限保持在熵界限以下。采样器会完全重新去噪未选择的 token。	确保仅选择模型相对确定的 token 来优化画布，并将其他 token 留到后续的去噪步骤中进行优化。

在 Hugging Face 上获取在 Kaggle 上获取在 Vertex 上访问

访问实验性模型权重（根据 Apache 2.0 许可发布），以便您在自己的项目和应用中部署该模型。

详细了解 DiffusionGemma 架构试用 DiffusionGemma

微调 DiffusionGemma 部署 DiffusionGemma