Gemma 3n 已发布，它支持音频输入，并针对日常设备进行了优化！了解详情

使用 Google Cloud 部署 Gemma

Google Cloud 平台提供了许多用于部署和提供 Gemma 开放模型的服务，包括：

Vertex AI
Cloud Run
Google Kubernetes Engine
Dataflow ML

Vertex AI

Vertex AI 是 Google Cloud 平台，无需内部 MLOps 专业知识，即可快速构建和扩缩机器学习项目。Vertex AI 提供了一个控制台，您可以在其中使用各种各样的模型，并提供端到端 MLOps 功能和无服务器体验，以简化开发流程。

您可以将 Vertex AI 用作提供 Gemma 的下游应用。Gemma 可在 Model Garden（精选模型集合）中找到。例如，您可以从 Gemma 实现中移植权重，并使用 Vertex AI 提供该版本的 Gemma 以获取预测结果。

如需了解详情，请参阅以下页面：

Vertex AI 简介：Vertex AI 使用入门。
将 Gemma 与 Vertex AI 搭配使用：将 Gemma 开放模型与 Vertex AI 搭配使用。
使用 KerasNLP 微调 Gemma，然后部署到 Vertex AI：使用 Keras 的端到端 Notebook 微调 Gemma。

Cloud Run

Cloud Run 是一个全托管式平台，可让您在 Google 高度可伸缩的基础架构之上运行代码、函数或容器。

Cloud Run 提供按需、快速启动、可扩缩到零、按使用量付费的 GPU，可让您部署 Gemma 等开放模型。

如需详细了解如何在 Cloud Run 上运行 Gemma，请参阅以下页面：

Google Kubernetes Engine (GKE)

Google Kubernetes Engine (GKE) 是 Google Cloud 提供的代管式 Kubernetes 服务，您可以使用 Google 的基础架构来大规模部署和操作容器化应用。您可以使用以下 LLM 服务框架，在 GKE 上使用 Cloud 张量处理单元 (TPU) 和图形处理单元 (GPU) 来提供 Gemma：

通过在 GKE 上部署 Gemma，您可以实现一个可直接用于生产环境的强大推理服务解决方案，具备托管式 Kubernetes 的所有优势，包括高效的可伸缩性和更高的可用性。

如需了解详情，请参阅以下页面：

GKE 概览：开始使用 Google Kubernetes Engine (GKE)
GKE 上的 AI/机器学习编排：使用 GKE 运行经过优化的 AI/机器学习工作负载

Dataflow 机器学习

Dataflow ML 是一个 Google Cloud 平台，用于部署和管理完整的机器学习工作流。借助 Dataflow ML，您可以使用数据处理工具准备数据以进行模型训练，然后使用 Gemma 等模型通过批处理和流处理流水线进行本地和远程推理。

您可以使用 Dataflow ML 通过几行代码将 Gemma 无缝集成到 Apache Beam 推理流水线中，从而提取数据、验证和转换数据、将文本输入馈送到 Gemma 并生成文本输出。

如需了解详情，请参阅以下页面：

将 Gemma 开放模型与 Dataflow 搭配使用：开始在 Dataflow 中使用 Gemma。
使用 Gemma 开放模型运行推理：介绍如何在 Apache Beam 推理流水线中使用 Gemma 的教程。