Gemma 4 发布，支持文本、音频和图片输入，上下文窗口最长可达 25.6 万个 token！了解详情

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

使用 Google Cloud 部署 Gemma

Google Cloud 平台提供了多种用于部署、提供和微调 Gemma 4 开放模型的选项，包括：

Gemini Enterprise Agent Platform
Cloud Run
Google Kubernetes Engine (GKE)
智能体开发套件 (ADK)
Gemini Enterprise Agent Platform 训练集群
MaxText
使用 TPU 的 vLLM
Sovereign Cloud

Gemini Enterprise Agent Platform

Gemini Enterprise Agent Platform 是一个 Google Cloud 平台，可用于快速构建和扩缩机器学习项目。Gemma 4 已在 Model Garden 中推出，这是 Gemini Enterprise Agent Platform 上精选的模型集合。您可以直接从控制台测试和部署模型。

如需了解详情，请参阅以下页面：

Agent Platform 概览：开始使用 Gemini Enterprise Agent Platform。
将 Gemma 与 Gemini Enterprise Agent Platform 搭配使用：将 Gemma 开放模型与 Gemini Enterprise Agent Platform 搭配使用。

Cloud Run

Cloud Run 是一个全托管式平台，可让您在 Google 高度可伸缩的基础设施之上运行代码或容器。在 Cloud Run 上部署 Gemma 4，使用 GPU 实现零扩缩、按用量付费的推理。

对于较大的模型大小，请利用 RTX 6000 Pro GPU 和模型流处理进行高级配置。

Google Kubernetes Engine (GKE)

Google Kubernetes Engine (GKE) 是 Google Cloud 提供的代管式 Kubernetes 服务。在 GKE 上运行 Gemma 4，实现企业级容器编排。使用 TPU 和 GPU 以高吞吐量和低延迟部署模型。

智能体开发套件 (ADK)

使用 Gemma 4 和智能体开发套件 (ADK) 构建和编排 AI 智能体。Gemma 4 具有强大的推理和函数调用能力，非常适合智能体工作流。

Gemini Enterprise Agent Platform 训练集群

使用 Gemini Enterprise Agent Platform 训练集群对 Gemma 4 进行微调。训练集群可为大规模训练和微调开放模型提供优化的基础设施。

将 vLLM 与 TPU 搭配使用

在 Google Cloud TPU 上提供 Gemma 4，以获得出色的服务性能。

MaxText

MaxText（一种适用于 Google Cloud TPU 的高性能任意大小 JAX LLM 实现）支持 Gemma 4。

Sovereign Cloud

Gemma 4 可在 Sovereign Cloud 解决方案中使用，可为敏感工作负载提供增强的控制和合规性。