DiffusionGemma 是一种实验性开放模型,用于探索文本扩散,这是一种非常快速的文本生成方法。DiffusionGemma 基于 26B(4B 活跃)专家混合 (MoE) Gemma 4 架构,使用离散扩散生成 token。此开放权重模型是多模态的,可处理文本、图片和视频输入,以生成文本输出。
DiffusionGemma 基于 MoE,旨在提高生成速度(每秒 token 数),同时仍可在各种硬件环境中部署。DiffusionGemma 以 Gemma 4 的架构和功能进步为基础,引入了多项核心功能:
- 离散文本扩散: 从传统因果 token 生成转向块自回归多画布采样。该模型通过并行迭代去噪 token 块(“画布”)来生成文本,从而大幅提高解码速度。
- 多模态处理: 原生接受文本、图片(支持可变宽高比和分辨率)和视频输入。(注意:不支持音频输入)。
- 编码器-解码器架构: 利用自回归编码器处理和缓存提示上下文,并结合对生成画布应用双向注意力的去噪。
- 专家混合 (MoE) 效率: 利用基于 26B(4B 活跃)MoE 变体的稀疏 MoE 设计,以最小的开销提供深度推理功能。量化后,它符合消费类 GPU 的 18GB VRAM 限制,非常适合本地执行。
- 思考模式: 内置的可配置推理通道允许模型在发出最终答案之前逐步思考。
与传统模型的权衡
虽然传统语言模型非常适合大规模云部署,因为它们可以批量处理数千个请求,但对于单个用户在本地运行这些模型会导致硬件利用率不足。DiffusionGemma 通过同时生成整个 256 个 token 块(而不是一次生成一个 token)来解决此问题,从而最大限度地提高本地硬件性能。
不过,这种方法严格针对面向消费者的低并发本地使用场景;由于其并行解码在高 QPS 云工作负载下提供的回报递减,因此在单个加速器上,吞吐量优势在低到中等批次大小下最为明显。
推荐的服务配置
为了获得最佳延迟时间和质量,我们建议使用以下 Diffusion 采样设置的默认参数进行部署:
| 参数 | 推荐值 | 函数 | 理由 |
|---|---|---|---|
| 去噪步数上限 | 48 | 每个画布的去噪步数上限。 | 去噪步数的安全限制。启用自适应停止后,去噪将在较少的步骤内停止,通常为 12-16 步,具体取决于任务。 |
| 温度时间表 | 线性 0.8 -> 0.4 | 温度缩放时间表,从高开始,并随着去噪步数的增加而减少。 | 高温 (0.8) 有助于早期探索;低温 (0.4) 可锁定最终 token。 |
| 自适应早停法 | 熵阈值:0.005 | 如果 A) 画布上的平均模型熵低于阈值,并且 B) 如果两个连续的去噪器预测保持相同,则提前停止执行。 |
简单的提示和结构化任务(如代码)所需的去噪步数较少,从而能够根据任务复杂性动态调整每秒 token 数。 |
| token 选择 | 熵界限:0.1 | 在每个步骤中,采样器都会选择熵最低的 token,以使其互信息界限保持在熵界限以下。采样器会完全重新去噪未选择的 token。 | 确保仅选择模型相对确定的 token 来优化画布,并将其他 token 留到后续的去噪步骤中进行优化。 |
在 Hugging Face 上获取 在 Kaggle 上获取 在 Vertex 上访问
访问实验性模型权重(根据 Apache 2.0 许可发布),以便您在自己的项目和应用中部署该模型。