Google Kubernetes Engine (GKE) 一项来自 Google Cloud 的代管式 Kubernetes 服务, 来大规模部署和运行容器化应用 Google 的基础架构。您可以使用 Cloud Tensor 处理单元来为 Gemma 提供数据 (TPU) 和 GKE 上的图形处理单元 (GPU),这些 LLM 服务 框架:
- 在具有 vLLM 的 GKE 上使用 GPU 为 Gemma 传送内容
- 借助 TGI 在 GKE 上使用 GPU 提供 Gemma 服务
- 在 GKE 上使用 GPU 向 Gemma 传送 Triton 和 TensorRT-LLM
- 通过 JetStream 在 GKE 上使用 TPU 为 Gemma 传送内容
- 通过 Saxml 在 GKE 上使用 TPU 为 Gemma 传送内容
通过在 GKE 上运行 Gemma,您可以实现可用于生产环境的强大推理 提供具有代管式 Kubernetes 所有优势的服务解决方案, 更高的可伸缩性和可用性
如需了解详情,请参阅以下页面:
- GKE 概览: Google Kubernetes Engine (GKE) 使用入门
- AI/机器学习编排 GKE: 使用 GKE 运行经过优化的 AI/机器学习工作负载