Gemma 4 模型概览

Gemma 是一系列生成式人工智能模型,可用于各种生成任务,包括问答、总结和推理。Gemma 模型提供开放权重,并允许负责任的商业用途,让您可以在自己的项目和应用中调整和部署它们。

Gemma 4 模型系列包含四种不同的架构,可满足特定的硬件要求:

  • 小尺寸:20 亿和 40 亿有效参数模型,专为超移动设备、边缘设备和浏览器部署(例如 Pixel、Chrome)而打造。
  • 密集:一款强大的 310 亿参数密集模型,可弥合服务器级性能与本地执行之间的差距。
  • Mixture-of-Experts::一款高效的 26B MoE 模型,专为高吞吐量、高级推理而设计。
  • 统一:一种用于多模态任务的 120 亿参数免费编码器模型,用输入内容的直接线性投影替换了视觉和音频编码器。

您可以从 KaggleHugging Face 下载 Gemma 4 模型。如需详细了解 Gemma 4 的技术细节,请参阅模型卡片。您还可以下载早期版本的 Gemma 核心模型。如需了解详情,请参阅之前的 Gemma 模型

在 Kaggle 上获取 在 Hugging Face 上获取

功能

  • 推理:该系列中的所有模型都设计为功能强大的推理器,具有可配置的思维模式
  • 扩展的多模态功能:处理文本、图片(支持可变宽高比和分辨率,适用于所有型号)、视频音频(在 E2B、E4B 和 12B 型号上原生支持)。
  • 更大的上下文窗口:小型模型的上下文窗口为 12.8 万个 token,而中型模型支持 25.6 万个 token。
  • 增强的编码和智能体功能:在编码基准方面取得了显著改进,同时内置了函数调用支持,可打造功能强大的自主代理。
  • 原生系统提示支持:Gemma 4 引入了对系统角色的内置支持,可实现更结构化、更可控的对话。
  • 多 token 预测:所有 Gemma 4 模型(E2B、E4B、12B、31B 和 26B A4B)都包含一个用于推测性解码的专用草稿模型,可在不损失质量的情况下显著加快推理速度。

形参大小和量化

Gemma 4 模型提供 5 种参数规模:E2B、E4B、12B、31B 和 26B A4B。这些模型可以采用默认精确率(16 位),也可以通过量化采用较低的精确率。不同的规模和精确率代表着 AI 应用的一系列权衡。参数和位数(精确率)较高的模型通常功能更强大,但在处理周期、内存成本和能耗方面运行成本更高。参数和位数(精确率)较低的模型功能较弱,但可能足以满足您的 AI 任务需求。

Gemma 4 推理内存要求

下表详细列出了使用各种大小的 Gemma 4 模型版本运行推理时所需的 GPU 或 TPU 内存大致大小。

参数 BF16(16 位) SFP8(8 位) Q4_0(4 位) 移动设备 移动设备(纯文字)
Gemma 4 E2B 11.4 GB 5.7 GB 2.9 GB 1.1 GB 0.84 GB
Gemma 4 E4B 17.9 GB 8.9 GB 4.5 GB 2.5GB 2.2 GB
Gemma 4 12B 26.7 GB 13.4 GB 6.7 GB - -
Gemma 4 26B A4B 57.7 GB 28.8 GB 14.4 GB - -
Gemma 4 31B 69.9 GB 34.9 GB 17.5 GB - -

表 1. 根据参数数量、量化级别和加载其他内容时 20% 的开销,加载 Gemma 4 模型所需的大致 GPU 或 TPU 内存。移动版使用 LiteRT-LM。

内存规划的行动要点

  • 高效架构(E2B 和 E4B):“E”表示“有效”形参。较小的模型采用逐层嵌入 (PLE) 技术,可在设备端部署中最大限度地提高形参效率。PLE 不会向模型添加更多层,而是为每个令牌的每个解码器层提供自己的小型嵌入。这些嵌入表很大,但仅用于快速查找,因此加载静态权重的所需总内存高于有效形参数量。
  • MoE 架构 (26B A4B):26B 是一种混合专家模型。虽然在生成期间,它每个令牌仅激活 40 亿个参数,但所有 260 亿个参数都必须加载到内存中,才能保持快速的路由和推理速度。因此,其基准内存需求量更接近于 260 亿参数的密集模型,而不是 40 亿参数的模型。
  • 仅限基本权重:上表中的估计值考虑了加载静态模型权重所需的内存。它们不包括支持软件或上下文窗口所需的额外 VRAM。
  • 上下文窗口(KV 缓存):内存消耗量会根据提示和生成的回答中的令牌总数动态增加。除了基本模型权重之外,更大的上下文窗口还需要更多 VRAM。
  • 微调开销微调 Gemma 模型所需的内存远高于标准推理。确切的内存占用量在很大程度上取决于开发框架、批次大小,以及您是使用全精度调优还是使用参数高效微调 (PEFT) 方法(例如低秩适应 [LoRA])。

量化感知训练 (QAT)

对于需要以最小的质量损失实现最高效率的部署,Gemma 提供官方的量化感知训练 (QAT) 模型。

与标准训练后量化 (PTQ) 不同,后者会压缩完全训练好的模型,并可能导致质量下降,而 QAT 会将量化模拟集成到训练流程本身中。这样一来,模型便可学习弥补精度损失,从而生成性能几乎与其高精度基准相同的较小模型。

快速路由表

目标部署引擎 下载后缀 主要使用场景
llama.cpp / LM Studio(本地) {model-name}-qat-q4_0-gguf 在 CPU、Apple Silicon 或消费类 GPU 上实现零设置本地部署。
vLLM / SGLang 服务器:{model-name}-qat-w4a16-ct
移动设备:{model-name}-qat-mobile-ct
利用 4 位权重和 16 位激活实现高吞吐量推理。
推测解码 模型:{model-name}-qat-q4_0-unquantized
DRAFTER:{model-name}-qat-q4_0-unquantized-assistant
同时运行主模型及其匹配的 MTP 草稿模型,以大幅加快 token 生成速度。模型必须经过量化。
其他格式 {model-name}-qat-q4_0-unquantized 用于转换为其他格式(例如 MLX)的未量化权重
移动部署 (Transformers) {model-name}-qat-mobile-transformers 针对移动设备使用情形优化的边缘权重。它们可作为其他格式的参考。

Hugging Face 上的官方 QAT 集合

  • collections/google/gemma-4-qat-q4-0
    • 未量化的 QAT 检查点(-unquantized / -assistant:直接从 QAT 流水线中提取的半精度权重。这些模型非常适合用于自定义下游编译、研究,或使用辅助草稿模型运行推测性解码。适用于 Gemma 4 E2B、E4B、12B、26B A4B 和 31B。
    • GGUF (-gguf):检查点可用于在本地 LLM 生态系统中实现即时插入式兼容性。适用于 Gemma 4 E2B、E4B、12B、26B A4B 和 31B。
    • 压缩张量 (-w4a16-ct):在 compressed-tensors 标准中以原生方式序列化,可实现优化的云端高并发服务。适用于 Gemma 4 E2B、E4B、12B 和 31B。
  • collections/google/gemma-4-qat-mobile
    • 针对移动设备进行了优化(-mobile-transformers / -mobile-ct:基于专门针对移动硬件限制而设计的自定义 wNa8o8 架构构建。它利用目标 2 位解码层、优化的 KV 缓存和静态激活来最大限度地节省设备端 RAM,而不会使边缘处理器过载。适用于 Gemma 4 E2B 和 E4B。

您还可以直接从 Kaggle 访问所有官方 Gemma 4 QAT 检查点。

之前的 Gemma 模型

您还可以使用之前的 Gemma 模型,这些模型也可从 KaggleHugging Face 获取。如需详细了解之前 Gemma 模型的技术细节,请参阅以下模型卡片页面:

准备好开始构建了吗?不妨从 Gemma 模型开始