使用 Kubernetes Engine 运行 Gemma

Google Cloud Kubernetes Engine 提供了丰富的部署选项,可让您使用首选开发框架运行高性能、低延迟的 Gemma 模型。请参阅以下部署指南,了解如何在 GPU 上部署 Hugging Face、vLLM、TensorRT-LLM,以及如何使用 JetStream 执行 TPU,以及应用和调优指南:

部署和提供

分析数据

微调