Gemma 4 模型概览

Gemma 是一系列生成式人工智能模型,您可以在各种生成任务中使用它们,包括问答、总结和推理。Gemma 模型提供开放权重,并 允许负责任的 商业用途, 让您可以在自己的项目和应用中对其进行调优和部署。

Gemma 4 模型系列包含三种不同的架构,这些架构专为满足特定的硬件要求而设计:

  • 小型: 2B 和 4B 有效参数模型,专为超移动设备、边缘设备和浏览器部署(例如 Pixel、Chrome)而打造。
  • 密集型: 一种强大的 31B 参数密集型模型,可弥合服务器级性能与本地执行之间的差距。
  • Mixture-of-Experts:: 一种高效的 26B MoE 模型,专为高吞吐量、高级推理而设计。

您可以从 KaggleHugging Face 下载 Gemma 4 模型。 如需了解有关 Gemma 4 的更多技术详情,请参阅 模型卡片。 您还可以下载早期版本的 Gemma 核心模型。如需了解更多 信息,请参阅之前的 Gemma 模型

在 Kaggle 上获取 在 Hugging Face 上获取

功能

  • 推理: 该系列中的所有模型都设计为功能强大的 推理器,并提供可配置的 思考 模式
  • 扩展的多模态: 处理文本、 具有可变宽高比 和分辨率支持的图像(所有模型)、 视频音频(在 E2B 和 E4B 模型上原生提供)。
  • 更大的上下文窗口: 小型模型具有 128K 上下文窗口,而中型模型支持 256K。
  • 增强的编码和代理功能: 在 编码基准方面取得了显著改进,同时内置了函数调用 支持,可为 功能强大的自主代理提供支持。
  • 原生系统提示支持: Gemma 4 引入了对系统角色的内置支持,可实现更结构化且可控的对话。

参数大小和量化

Gemma 4 模型提供 4 种参数大小:E2B、E4B、31B 和 26B A4B。 这些模型可以采用默认精度(16 位),也可以通过量化采用较低的精度。不同的尺寸和精度代表着 AI 应用的一系列权衡。参数和位数(精度)较高的模型通常功能更强大,但在处理周期、内存成本和功耗方面运行成本更高。参数和位数(精度)较低的模型功能较少,但可能足以满足您的 AI 任务的需求。

Gemma 4 推理内存要求

下表详细列出了使用各种大小的 Gemma 4 模型版本运行推理所需的大致 GPU 或 TPU 内存。

参数 BF16(16 位) SFP8(8 位) Q4_0(4 位)
Gemma 4 E2B 9.6 GB 4.6 GB 3.2 GB
Gemma 4 E4B 15 GB 7.5 GB 5 GB
Gemma 4 31B 58.3 GB 30.4 GB 17.4 GB
Gemma 4 26B A4B 48 GB 25 GB 15.6 GB

表 1. 加载 Gemma 4 模型所需的大致 GPU 或 TPU 内存,具体取决于参数数量和量化级别。

内存规划的行动要点

  • 高效架构(E2B 和 E4B): “E”代表“有效”参数。较小的模型采用每层嵌入 (PLE) 技术,以最大限度地提高设备端部署中的参数效率。PLE 不会向模型添加更多层,而是为每个词法单元的每个解码器层提供自己的小型嵌入。这些嵌入表很大,但仅用于快速查找,因此加载静态权重所需的总内存高于有效参数数量所暗示的内存。
  • MoE 架构(26B A4B): 26B 是混合专家模型。虽然在生成期间每个词法单元仅激活 40 亿个参数,但所有 260 亿个参数 都必须加载到内存中,以保持快速路由和推理速度。因此,其基准内存要求比 4B 模型更接近于密集型 26B 模型。
  • 仅基准权重: 上表中的估算值 考虑了加载静态模型权重所需的内存。它们不包括支持软件或上下文窗口所需的额外 VRAM。
  • 上下文窗口(KV 缓存): 内存消耗将根据提示和生成的响应中的词法单元总数动态增加。除了基准模型权重之外,更大的上下文窗口还需要显著更多的 VRAM。
  • 微调开销微调 Gemma 模型的内存要求远高于标准推理。您的确切占用空间将很大程度上取决于开发框架、批次大小,以及您是使用全精度调优还是使用参数高效微调 (PEFT) 方法(例如低秩适应 (LoRA))。

之前的 Gemma 模型

您可以使用之前的 Gemma 模型,这些模型也可从 KaggleHugging Face 获取。如需了解有关之前 Gemma 模型的更多技术详情,请参阅以下模型卡片页面:

准备好开始构建了吗? 开始使用 Gemma 模型!