Gemma 4 发布，支持文本、音频和图片输入，上下文窗口最长可达 25.6 万个 token！了解详情

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemma 4 模型概览

Gemma 是一系列生成式人工智能模型，可用于各种生成任务，包括问答、总结和推理。Gemma 模型提供开放权重，并允许负责任的商业用途，让您可以在自己的项目和应用中调整和部署它们。

Gemma 4 模型系列包含四种不同的架构，可满足特定的硬件要求：

小尺寸：20 亿和 40 亿有效参数模型，专为超移动设备、边缘设备和浏览器部署（例如 Pixel、Chrome）而打造。
密集：一款强大的 310 亿参数密集模型，可弥合服务器级性能与本地执行之间的差距。
Mixture-of-Experts:：一款高效的 26B MoE 模型，专为高吞吐量、高级推理而设计。
统一：一种用于多模态任务的 120 亿参数免费编码器模型，用输入内容的直接线性投影替换了视觉和音频编码器。

您可以从 Kaggle 和 Hugging Face 下载 Gemma 4 模型。如需详细了解 Gemma 4 的技术细节，请参阅模型卡片。您还可以下载早期版本的 Gemma 核心模型。如需了解详情，请参阅之前的 Gemma 模型。

在 Kaggle 上获取在 Hugging Face 上获取

功能

推理：该系列中的所有模型都设计为功能强大的推理器，具有可配置的思维模式。
扩展的多模态功能：处理文本、图片（支持可变宽高比和分辨率，适用于所有型号）、视频和音频（在 E2B、E4B 和 12B 型号上原生支持）。
更大的上下文窗口：小型模型的上下文窗口为 12.8 万个 token，而中型模型支持 25.6 万个 token。
增强的编码和智能体功能：在编码基准方面取得了显著改进，同时内置了函数调用支持，可打造功能强大的自主代理。
原生系统提示支持：Gemma 4 引入了对系统角色的内置支持，可实现更结构化、更可控的对话。
多 token 预测：所有 Gemma 4 模型（E2B、E4B、12B、31B 和 26B A4B）都包含一个用于推测性解码的专用草稿模型，可在不损失质量的情况下显著加快推理速度。

形参大小和量化

Gemma 4 模型提供 5 种参数规模：E2B、E4B、12B、31B 和 26B A4B。这些模型可以采用默认精确率（16 位），也可以通过量化采用较低的精确率。不同的规模和精确率代表着 AI 应用的一系列权衡。参数和位数（精确率）较高的模型通常功能更强大，但在处理周期、内存成本和能耗方面运行成本更高。参数和位数（精确率）较低的模型功能较弱，但可能足以满足您的 AI 任务需求。

Gemma 4 推理内存要求

下表详细列出了使用各种大小的 Gemma 4 模型版本运行推理时所需的 GPU 或 TPU 内存大致大小。

参数	BF16（16 位）	SFP8（8 位）	Q4_0（4 位）	移动设备	移动设备（纯文字）
Gemma 4 E2B	11.4 GB	5.7 GB	2.9 GB	1.1 GB	0.84 GB
Gemma 4 E4B	17.9 GB	8.9 GB	4.5 GB	2.5GB	2.2 GB
Gemma 4 12B	26.7 GB	13.4 GB	6.7 GB	-	-
Gemma 4 26B A4B	57.7 GB	28.8 GB	14.4 GB	-	-
Gemma 4 31B	69.9 GB	34.9 GB	17.5 GB	-	-

表 1. 根据参数数量、量化级别和加载其他内容时 20% 的开销，加载 Gemma 4 模型所需的大致 GPU 或 TPU 内存。移动版使用 LiteRT-LM。

内存规划的行动要点

高效架构（E2B 和 E4B）：“E”表示“有效”形参。较小的模型采用逐层嵌入 (PLE) 技术，可在设备端部署中最大限度地提高形参效率。PLE 不会向模型添加更多层，而是为每个令牌的每个解码器层提供自己的小型嵌入。这些嵌入表很大，但仅用于快速查找，因此加载静态权重的所需总内存高于有效形参数量。
MoE 架构 (26B A4B)：26B 是一种混合专家模型。虽然在生成期间，它每个令牌仅激活 40 亿个参数，但所有 260 亿个参数都必须加载到内存中，才能保持快速的路由和推理速度。因此，其基准内存需求量更接近于 260 亿参数的密集模型，而不是 40 亿参数的模型。
仅限基本权重：上表中的估计值仅考虑了加载静态模型权重所需的内存。它们不包括支持软件或上下文窗口所需的额外 VRAM。
上下文窗口（KV 缓存）：内存消耗量会根据提示和生成的回答中的令牌总数动态增加。除了基本模型权重之外，更大的上下文窗口还需要更多 VRAM。
微调开销：微调 Gemma 模型所需的内存远高于标准推理。确切的内存占用量在很大程度上取决于开发框架、批次大小，以及您是使用全精度调优还是使用参数高效微调 (PEFT) 方法（例如低秩适应 [LoRA]）。

量化感知训练 (QAT)

对于需要以最小的质量损失实现最高效率的部署，Gemma 提供官方的量化感知训练 (QAT) 模型。

与标准训练后量化 (PTQ) 不同，后者会压缩完全训练好的模型，并可能导致质量下降，而 QAT 会将量化模拟集成到训练流程本身中。这样一来，模型便可学习弥补精度损失，从而生成性能几乎与其高精度基准相同的较小模型。

快速路由表

目标部署引擎	下载后缀	主要使用场景
llama.cpp / LM Studio（本地）	`{model-name}-qat-q4_0-gguf`	在 CPU、Apple Silicon 或消费类 GPU 上实现零设置本地部署。
vLLM / SGLang	服务器：`{model-name}-qat-w4a16-ct` 移动设备：`{model-name}-qat-mobile-ct`	利用 4 位权重和 16 位激活实现高吞吐量推理。
推测解码	模型：`{model-name}-qat-q4_0-unquantized` DRAFTER：`{model-name}-qat-q4_0-unquantized-assistant`	同时运行主模型及其匹配的 MTP 草稿模型，以大幅加快 token 生成速度。模型必须经过量化。
其他格式	`{model-name}-qat-q4_0-unquantized`	用于转换为其他格式（例如 MLX）的未量化权重
移动部署 (Transformers)	`{model-name}-qat-mobile-transformers`	针对移动设备使用情形优化的边缘权重。它们可作为其他格式的参考。

Hugging Face 上的官方 QAT 集合

collections/google/gemma-4-qat-q4-0
- 未量化的 QAT 检查点（-unquantized / -assistant）：直接从 QAT 流水线中提取的半精度权重。这些模型非常适合用于自定义下游编译、研究，或使用辅助草稿模型运行推测性解码。适用于 Gemma 4 E2B、E4B、12B、26B A4B 和 31B。
- GGUF (-gguf)：检查点可用于在本地 LLM 生态系统中实现即时插入式兼容性。适用于 Gemma 4 E2B、E4B、12B、26B A4B 和 31B。
- 压缩张量 (-w4a16-ct)：在 compressed-tensors 标准中以原生方式序列化，可实现优化的云端高并发服务。适用于 Gemma 4 E2B、E4B、12B 和 31B。
collections/google/gemma-4-qat-mobile
- 针对移动设备进行了优化（-mobile-transformers / -mobile-ct）：基于专门针对移动硬件限制而设计的自定义 wNa8o8 架构构建。它利用目标 2 位解码层、优化的 KV 缓存和静态激活来最大限度地节省设备端 RAM，而不会使边缘处理器过载。适用于 Gemma 4 E2B 和 E4B。

您还可以直接从 Kaggle 访问所有官方 Gemma 4 QAT 检查点。

之前的 Gemma 模型

您还可以使用之前的 Gemma 模型，这些模型也可从 Kaggle 和 Hugging Face 获取。如需详细了解之前 Gemma 模型的技术细节，请参阅以下模型卡片页面：

Gemma 3 模型卡片
Gemma 2 模型卡片
Gemma 1 模型卡片