Google Cloud 平台提供了许多用于部署和提供 Gemma 开放模型的服务,包括:
Vertex AI
Vertex AI 是 Google Cloud 平台,无需内部 MLOps 专业知识,即可快速构建和扩缩机器学习项目。Vertex AI 提供了一个控制台,您可以在其中使用各种各样的模型,并提供端到端 MLOps 功能和无服务器体验,以简化开发流程。
您可以将 Vertex AI 用作提供 Gemma 的下游应用。Gemma 可在 Model Garden(精选模型集合)中找到。例如,您可以从 Gemma 实现中移植权重,并使用 Vertex AI 提供该版本的 Gemma 以获取预测结果。
如需了解详情,请参阅以下页面:
- Vertex AI 简介:Vertex AI 使用入门。
- 将 Gemma 与 Vertex AI 搭配使用:将 Gemma 开放模型与 Vertex AI 搭配使用。
- 使用 KerasNLP 微调 Gemma,然后部署到 Vertex AI:使用 Keras 的端到端 Notebook 微调 Gemma。
Cloud Run
Cloud Run 是一个全托管式平台,可让您在 Google 高度可伸缩的基础架构之上运行代码、函数或容器。
Cloud Run 提供按需、快速启动、可扩缩到零、按使用量付费的 GPU,可让您部署 Gemma 等开放模型。
如需详细了解如何在 Cloud Run 上运行 Gemma,请参阅以下页面:
- 在 Cloud Run 上使用 GPU 的最佳实践
- 使用 Ollama 在 Cloud Run GPU 上运行 Gemma 推理
- 使用 vLLM 在 Cloud Run GPU 上运行 Gemma 推理
- 使用 Transformers.js 在 Cloud Run GPU 上运行 Gemma 推理
Google Kubernetes Engine (GKE)
Google Kubernetes Engine (GKE) 是 Google Cloud 提供的代管式 Kubernetes 服务,您可以使用 Google 的基础架构来大规模部署和操作容器化应用。您可以使用以下 LLM 服务框架,在 GKE 上使用 Cloud 张量处理单元 (TPU) 和图形处理单元 (GPU) 来提供 Gemma:
- 通过 vLLM 使用 GKE 中的 GPU 提供 Gemma
- 通过 TGI 使用 GKE 中的 GPU 提供 Gemma
- 通过 Triton 和 TensorRT-LLM 使用 GKE 中的 GPU 提供 Gemma
- 通过 JetStream 使用 GKE 中的 TPU 应用 Gemma
- 使用 GKE 中的 TPU 和 Saxml 来提供 Gemma
通过在 GKE 上部署 Gemma,您可以实现一个可直接用于生产环境的强大推理服务解决方案,具备托管式 Kubernetes 的所有优势,包括高效的可伸缩性和更高的可用性。
如需了解详情,请参阅以下页面:
- GKE 概览:开始使用 Google Kubernetes Engine (GKE)
- GKE 上的 AI/机器学习编排:使用 GKE 运行经过优化的 AI/机器学习工作负载
Dataflow 机器学习
Dataflow ML 是一个 Google Cloud 平台,用于部署和管理完整的机器学习工作流。借助 Dataflow ML,您可以使用数据处理工具准备数据以进行模型训练,然后使用 Gemma 等模型通过批处理和流处理流水线进行本地和远程推理。
您可以使用 Dataflow ML 通过几行代码将 Gemma 无缝集成到 Apache Beam 推理流水线中,从而提取数据、验证和转换数据、将文本输入馈送到 Gemma 并生成文本输出。
如需了解详情,请参阅以下页面:
- 将 Gemma 开放模型与 Dataflow 搭配使用:开始在 Dataflow 中使用 Gemma。
- 使用 Gemma 开放模型运行推理:介绍如何在 Apache Beam 推理流水线中使用 Gemma 的教程。