使用 Kubernetes Engine 執行 Gemma

Google Cloud Kubernetes Engine 提供多種部署選項，可讓您使用偏好的開發架構，以高效能和低延遲的方式執行 Gemma 模型。請參閱下列部署指南，瞭解如何在 GPU 上使用 Hugging Face、vLLM、TensorRT-LLM，以及透過 JetStream 執行 TPU，以及應用程式和調整指南：

部署及提供

透過 Hugging Face TGI 在 GPU 上提供 Gemma 服務：使用 GPU 和 Hugging Face Text Generation Inference (TGI) 架構，在 GKE 上部署 Gemma 模型。
透過 vLLM 在 GPU 上提供 Gemma 服務：透過 vLLM 部署 Gemma，方便管理模型負載並提高效能。
使用 TensorRT-LLM 在 GPU 上提供 Gemma：透過 NVIDIA TensorRT-LLM 部署 Gemma，盡可能提高模型運作效率。
透過 JetStream 在 TPU 上提供 Gemma：在 TPU 處理器上部署 Gemma 與 JetStream，以便享有高效能和低延遲。

分析資料

使用 BigQuery、Cloud Run 和 Gemma 分析 GKE 上的資料：使用 BigQuery 和 Gemma 建立資料分析管道。

微調

使用多個 GPU 微調 Gemma 開放模型：根據您自己的資料集自訂 Gemma 行為。