使用 Kubernetes Engine 运行 Gemma

Google Cloud Kubernetes Engine 提供了丰富的部署选项，可让您使用首选开发框架运行高性能、低延迟的 Gemma 模型。请参阅以下部署指南，了解如何在 GPU 上部署 Hugging Face、vLLM、TensorRT-LLM，以及如何使用 JetStream 执行 TPU，以及应用和调优指南：

部署和提供

使用 Hugging Face TGI 在 GPU 上提供 Gemma：使用 GPU 和 Hugging Face 文本生成推理 (TGI) 框架在 GKE 上部署 Gemma 模型。
使用 vLLM 在 GPU 上提供 Gemma 服务：结合使用 vLLM 和 Gemma 可实现便捷的模型负载管理和高吞吐量。
使用 TensorRT-LLM 在 GPU 上提供 Gemma：使用 NVIDIA TensorRT-LLM 部署 Gemma，以最大限度地提高模型运维效率。
通过 JetStream 在 TPU 上部署 Gemma：通过 JetStream 在 TPU 处理器上部署 Gemma，实现高性能和低延迟。

分析数据

使用 BigQuery、Cloud Run 和 Gemma 在 GKE 上分析数据：使用 BigQuery 和 Gemma 构建数据分析流水线。

微调

使用多个 GPU 微调 Gemma 开放模型：根据您自己的数据集自定义 Gemma 的行为。