Google Cloud 平台提供了多种用于部署、提供和微调 Gemma 4 开放模型的方法,包括:
- Vertex AI Model Garden
- Cloud Run
- Google Kubernetes Engine (GKE)
- 智能体开发套件 (ADK)
- Vertex AI Training Clusters (VTC)
- MaxText
- 使用 TPU 的 vLLM
- Sovereign Cloud
Vertex AI Model Garden
Vertex AI 是一个 Google Cloud 平台,可用于 快速构建和扩缩机器学习项目。 Gemma 4 在 Model Garden中提供, Model Garden 是 Vertex AI 上精选的模型集合。 您可以直接从控制台中测试和部署模型。
如需了解详情,请参阅以下页面:
- Vertex AI 简介: 开始使用 Vertex AI。
- Gemma with Vertex AI: 将 Gemma 开放模型与 Vertex AI 搭配使用。
Cloud Run
Cloud Run 是一个全托管式平台, 可让您在 Google 高度可伸缩的基础设施之上 运行代码或容器。 在 Cloud Run 上部署 Gemma 4 使用 GPU 实现缩减至零的按用量付费推理。
对于较大的模式大小,请利用高级配置 ,并使用 RTX 6000 Pro GPU 和模型流式传输。
Google Kubernetes Engine (GKE)
Google Kubernetes Engine (GKE) 是 Google Cloud 提供的托管式 Kubernetes 服务。 在 GKE 上运行 Gemma 4 以实现企业级容器编排。 使用 TPU 和 GPU 以高吞吐量和低延迟提供模型。
智能体开发套件 (ADK)
使用 Gemma 4 和 智能体开发套件 (ADK) 构建和编排 AI 智能体。 Gemma 4 强大的推理和函数调用功能使其非常适合智能体工作流。
Vertex AI Training 集群 (VTC)
使用 Vertex AI Training 集群 (VTC) 微调 Gemma 4。VTC 为开放模型的大规模训练和微调提供了优化的基础设施。
使用 TPU 的 vLLM
在 Google Cloud TPU 上提供 Gemma 4 以获得最先进的服务性能。
MaxText
MaxText 支持 Gemma 4,MaxText 是一种高性能、 任意大小的 JAX LLM 实现,适用于 Google Cloud TPU。
Sovereign Cloud
Gemma 4 在 Sovereign Cloud 解决方案中提供, 为敏感工作负载提供增强的控制和合规性。