Gemma 是一系列生成式人工智能模型,可用于各种生成任务,包括问答、总结和推理。Gemma 模型提供开放权重,并允许负责任的商业用途,让您可以在自己的项目和应用中调整和部署它们。
Gemma 4 模型系列包含四种不同的架构,可满足特定的硬件要求:
- 小尺寸:20 亿和 40 亿有效参数模型,专为超移动设备、边缘设备和浏览器部署(例如 Pixel、Chrome)而打造。
- 密集:一款强大的 310 亿参数密集模型,可弥合服务器级性能与本地执行之间的差距。
- Mixture-of-Experts::一款高效的 26B MoE 模型,专为高吞吐量、高级推理而设计。
- 统一:一种用于多模态任务的 120 亿参数免费编码器模型,用输入内容的直接线性投影替换了视觉和音频编码器。
您可以从 Kaggle 和 Hugging Face 下载 Gemma 4 模型。如需详细了解 Gemma 4 的技术细节,请参阅模型卡片。您还可以下载早期版本的 Gemma 核心模型。如需了解详情,请参阅之前的 Gemma 模型。
在 Kaggle 上获取 在 Hugging Face 上获取
功能
- 推理:该系列中的所有模型都设计为功能强大的推理器,具有可配置的思维模式。
- 扩展的多模态功能:处理文本、图片(支持可变宽高比和分辨率,适用于所有型号)、视频和音频(在 E2B、E4B 和 12B 型号上原生支持)。
- 更大的上下文窗口:小型模型的上下文窗口为 12.8 万个 token,而中型模型支持 25.6 万个 token。
- 增强的编码和智能体功能:在编码基准方面取得了显著改进,同时内置了函数调用支持,可打造功能强大的自主代理。
- 原生系统提示支持:Gemma 4 引入了对系统角色的内置支持,可实现更结构化、更可控的对话。
- 多 token 预测:所有 Gemma 4 模型(E2B、E4B、12B、31B 和 26B A4B)都包含一个用于推测性解码的专用草稿模型,可在不损失质量的情况下显著加快推理速度。
形参大小和量化
Gemma 4 模型提供 5 种参数规模:E2B、E4B、12B、31B 和 26B A4B。这些模型可以采用默认精确率(16 位),也可以通过量化采用较低的精确率。不同的规模和精确率代表着 AI 应用的一系列权衡。参数和位数(精确率)较高的模型通常功能更强大,但在处理周期、内存成本和能耗方面运行成本更高。参数和位数(精确率)较低的模型功能较弱,但可能足以满足您的 AI 任务需求。
Gemma 4 推理内存要求
下表详细列出了使用各种大小的 Gemma 4 模型版本运行推理时所需的 GPU 或 TPU 内存大致大小。
| 参数 | BF16(16 位) | SFP8(8 位) | Q4_0(4 位) | 移动设备 | 移动设备(纯文字) |
|---|---|---|---|---|---|
| Gemma 4 E2B | 11.4 GB | 5.7 GB | 2.9 GB | 1.1 GB | 0.84 GB |
| Gemma 4 E4B | 17.9 GB | 8.9 GB | 4.5 GB | 2.5GB | 2.2 GB |
| Gemma 4 12B | 26.7 GB | 13.4 GB | 6.7 GB | - | - |
| Gemma 4 26B A4B | 57.7 GB | 28.8 GB | 14.4 GB | - | - |
| Gemma 4 31B | 69.9 GB | 34.9 GB | 17.5 GB | - | - |
表 1. 根据参数数量、量化级别和加载其他内容时 20% 的开销,加载 Gemma 4 模型所需的大致 GPU 或 TPU 内存。移动版使用 LiteRT-LM。
内存规划的行动要点
- 高效架构(E2B 和 E4B):“E”表示“有效”形参。较小的模型采用逐层嵌入 (PLE) 技术,可在设备端部署中最大限度地提高形参效率。PLE 不会向模型添加更多层,而是为每个令牌的每个解码器层提供自己的小型嵌入。这些嵌入表很大,但仅用于快速查找,因此加载静态权重的所需总内存高于有效形参数量。
- MoE 架构 (26B A4B):26B 是一种混合专家模型。虽然在生成期间,它每个令牌仅激活 40 亿个参数,但所有 260 亿个参数都必须加载到内存中,才能保持快速的路由和推理速度。因此,其基准内存需求量更接近于 260 亿参数的密集模型,而不是 40 亿参数的模型。
- 仅限基本权重:上表中的估计值仅考虑了加载静态模型权重所需的内存。它们不包括支持软件或上下文窗口所需的额外 VRAM。
- 上下文窗口(KV 缓存):内存消耗量会根据提示和生成的回答中的令牌总数动态增加。除了基本模型权重之外,更大的上下文窗口还需要更多 VRAM。
- 微调开销:微调 Gemma 模型所需的内存远高于标准推理。确切的内存占用量在很大程度上取决于开发框架、批次大小,以及您是使用全精度调优还是使用参数高效微调 (PEFT) 方法(例如低秩适应 [LoRA])。
量化感知训练 (QAT)
对于需要以最小的质量损失实现最高效率的部署,Gemma 提供官方的量化感知训练 (QAT) 模型。
与标准训练后量化 (PTQ) 不同,后者会压缩完全训练好的模型,并可能导致质量下降,而 QAT 会将量化模拟集成到训练流程本身中。这样一来,模型便可学习弥补精度损失,从而生成性能几乎与其高精度基准相同的较小模型。
快速路由表
| 目标部署引擎 | 下载后缀 | 主要使用场景 |
|---|---|---|
| llama.cpp / LM Studio(本地) | {model-name}-qat-q4_0-gguf |
在 CPU、Apple Silicon 或消费类 GPU 上实现零设置本地部署。 |
| vLLM / SGLang | 服务器:{model-name}-qat-w4a16-ct移动设备: {model-name}-qat-mobile-ct |
利用 4 位权重和 16 位激活实现高吞吐量推理。 |
| 推测解码 | 模型:{model-name}-qat-q4_0-unquantizedDRAFTER: {model-name}-qat-q4_0-unquantized-assistant |
同时运行主模型及其匹配的 MTP 草稿模型,以大幅加快 token 生成速度。模型必须经过量化。 |
| 其他格式 | {model-name}-qat-q4_0-unquantized |
用于转换为其他格式(例如 MLX)的未量化权重 |
| 移动部署 (Transformers) | {model-name}-qat-mobile-transformers |
针对移动设备使用情形优化的边缘权重。它们可作为其他格式的参考。 |
Hugging Face 上的官方 QAT 集合
- collections/google/gemma-4-qat-q4-0
- 未量化的 QAT 检查点(
-unquantized/-assistant):直接从 QAT 流水线中提取的半精度权重。这些模型非常适合用于自定义下游编译、研究,或使用辅助草稿模型运行推测性解码。适用于 Gemma 4 E2B、E4B、12B、26B A4B 和 31B。 - GGUF (
-gguf):检查点可用于在本地 LLM 生态系统中实现即时插入式兼容性。适用于 Gemma 4 E2B、E4B、12B、26B A4B 和 31B。 - 压缩张量 (
-w4a16-ct):在compressed-tensors标准中以原生方式序列化,可实现优化的云端高并发服务。适用于 Gemma 4 E2B、E4B、12B 和 31B。
- 未量化的 QAT 检查点(
- collections/google/gemma-4-qat-mobile
- 针对移动设备进行了优化(
-mobile-transformers/-mobile-ct):基于专门针对移动硬件限制而设计的自定义wNa8o8架构构建。它利用目标 2 位解码层、优化的 KV 缓存和静态激活来最大限度地节省设备端 RAM,而不会使边缘处理器过载。适用于 Gemma 4 E2B 和 E4B。
- 针对移动设备进行了优化(
您还可以直接从 Kaggle 访问所有官方 Gemma 4 QAT 检查点。
之前的 Gemma 模型
您还可以使用之前的 Gemma 模型,这些模型也可从 Kaggle 和 Hugging Face 获取。如需详细了解之前 Gemma 模型的技术细节,请参阅以下模型卡片页面:
准备好开始构建了吗?不妨从 Gemma 模型开始!