Gemma 4 发布，支持文本、音频和图片输入，上下文窗口最长可达 25.6 万个 token！了解详情

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemma 4 模型概览

Gemma 是一系列生成式人工智能模型，您可以在各种生成任务中使用它们，包括问答、总结和推理。Gemma 模型提供开放权重，并允许负责任的商业用途，让您可以在自己的项目和应用中对其进行调优和部署。

Gemma 4 模型系列包含三种不同的架构，这些架构是根据特定的硬件要求量身定制的：

小型模型： 2B 和 4B 有效参数模型，专为超移动设备、边缘设备和浏览器部署（例如 Pixel、Chrome）而打造。
密集型模型：一款强大的 31B 参数密集型模型，可弥合服务器级性能与本地执行之间的差距。
Mixture-of-Experts:：一款高效的 26B MoE 模型，专为高吞吐量、高级推理而设计。

您可以从 Kaggle 和 Hugging Face 下载 Gemma 4 模型。如需了解有关 Gemma 4 的更多技术详情，请参阅模型卡片。您还可以下载早期版本的 Gemma 核心模型。如需了解更多信息，请参阅之前的 Gemma 模型。

在 Kaggle 上获取在 Hugging Face 上获取

功能

推理：该系列中的所有模型都设计为功能强大的推理器，并提供可配置的思考模式。
扩展的多模态：处理文本、具有可变宽高比和分辨率支持的图片（所有模型）、视频和音频（E2B 和 E4B 模型原生提供此功能）。
更大的上下文窗口：小型模型具有 128K 上下文窗口，而中型模型支持 256K。
增强的编码和智能体功能：在编码基准方面取得了显著改进，同时内置了函数调用支持，可为功能强大的自主智能体提供支持。
原生系统提示支持： Gemma 4 引入了对系统角色的内置支持，可实现更结构化且可控的对话。
多 token 预测：所有 Gemma 4 模型（E2B、E4B、31B 和 26B A4B）都包含一个专用的草稿模型，用于推测性解码，从而显著加快推理速度，且不会损失质量。

参数大小和量化

Gemma 4 模型提供 4 种参数大小：E2B、E4B、31B 和 26B A4B。这些模型可以采用默认精度（16 位），也可以通过量化采用较低的精度。不同的尺寸和精度代表着 AI 应用的一系列权衡。参数和位数（精度）较高的模型通常功能更强大，但在处理周期、内存成本和功耗方面运行成本更高。参数和位数（精度）较低的模型功能较少，但可能足以满足您的 AI 任务的需求。

Gemma 4 推理内存要求

下表详细列出了使用各种大小的 Gemma 4 模型版本运行推理所需的大致 GPU 或 TPU 内存。

参数	BF16（16 位）	SFP8（8 位）	Q4_0（4 位）
Gemma 4 E2B	9.6 GB	4.6 GB	3.2 GB
Gemma 4 E4B	15 GB	7.5 GB	5 GB
Gemma 4 31B	58.3 GB	30.4 GB	17.4 GB
Gemma 4 26B A4B	48 GB	25 GB	15.6 GB

表 1. 加载 Gemma 4 模型所需的大致 GPU 或 TPU 内存，具体取决于参数数量和量化级别。

内存规划的行动要点

高效架构（E2B 和 E4B）： “E”代表“有效”参数。较小的模型采用每层嵌入 (PLE) 技术，以最大限度地提高设备端部署中的参数效率。PLE 不会向模型添加更多层，而是为每个 token 的每个解码器层提供自己的小型嵌入。这些嵌入表很大，但仅用于快速查找，因此加载静态权重所需的总内存高于有效参数数量所暗示的内存。
MoE 架构（26B A4B）： 26B 是混合专家模型。虽然在生成期间每个 token 仅激活 40 亿个参数，但所有 260 亿个参数 都必须加载到内存中，以保持快速路由和推理速度。因此，其基准内存要求比 4B 模型更接近于密集型 26B 模型。
仅基准权重：上表中的估算值仅考虑了加载静态模型权重所需的内存。它们不包括支持软件或上下文窗口所需的额外 VRAM。
上下文窗口（KV 缓存）：内存消耗将根据提示和生成的响应中的 token 总数动态增加。除了基准模型权重之外，更大的上下文窗口还需要显著更多的 VRAM。
微调开销：微调 Gemma 模型的内存要求远高于标准推理。您的确切占用空间将很大程度上取决于开发框架、批次大小，以及您是使用全精度调优还是使用参数高效微调 (PEFT) 方法（例如低秩适应 (LoRA)）。

之前的 Gemma 模型

您可以使用之前几代的 Gemma 模型，这些模型也可从 Kaggle 和 Hugging Face 获取。如需了解有关之前 Gemma 模型的更多技术详情，请参阅以下模型卡片页面：

Gemma 3 模型卡片
Gemma 2 模型卡片
Gemma 1 模型卡片