Google Cloud Kubernetes Engine 提供了丰富的部署选项,可让您使用首选开发框架运行高性能、低延迟的 Gemma 模型。请参阅以下部署指南,了解如何在 GPU 上部署 Hugging Face、vLLM、TensorRT-LLM,以及如何使用 JetStream 执行 TPU,以及应用和调优指南:
部署和提供
使用 Hugging Face TGI 在 GPU 上提供 Gemma:使用 GPU 和 Hugging Face 文本生成推理 (TGI) 框架在 GKE 上部署 Gemma 模型。
使用 vLLM 在 GPU 上提供 Gemma 服务:结合使用 vLLM 和 Gemma 可实现便捷的模型负载管理和高吞吐量。
使用 TensorRT-LLM 在 GPU 上提供 Gemma:使用 NVIDIA TensorRT-LLM 部署 Gemma,以最大限度地提高模型运维效率。
通过 JetStream 在 TPU 上部署 Gemma:通过 JetStream 在 TPU 处理器上部署 Gemma,实现高性能和低延迟。
分析数据
- 使用 BigQuery、Cloud Run 和 Gemma 在 GKE 上分析数据:使用 BigQuery 和 Gemma 构建数据分析流水线。
微调
- 使用多个 GPU 微调 Gemma 开放模型:根据您自己的数据集自定义 Gemma 的行为。