使用 Kubernetes Engine 執行 Gemma

Google Cloud Kubernetes Engine 提供多種部署選項,可讓您使用偏好的開發架構,以高效能和低延遲的方式執行 Gemma 模型。請參閱下列部署指南,瞭解如何在 GPU 上使用 Hugging Face、vLLM、TensorRT-LLM,以及透過 JetStream 執行 TPU,以及應用程式和調整指南:

部署及提供

分析資料

微調