Google Cloud Kubernetes Engine 提供多種部署選項,可讓您使用偏好的開發架構,以高效能和低延遲的方式執行 Gemma 模型。請參閱下列部署指南,瞭解如何在 GPU 上使用 Hugging Face、vLLM、TensorRT-LLM,以及透過 JetStream 執行 TPU,以及應用程式和調整指南:
部署及提供
透過 Hugging Face TGI 在 GPU 上提供 Gemma 服務:使用 GPU 和 Hugging Face Text Generation Inference (TGI) 架構,在 GKE 上部署 Gemma 模型。
透過 vLLM 在 GPU 上提供 Gemma 服務:透過 vLLM 部署 Gemma,方便管理模型負載並提高效能。
使用 TensorRT-LLM 在 GPU 上提供 Gemma:透過 NVIDIA TensorRT-LLM 部署 Gemma,盡可能提高模型運作效率。
透過 JetStream 在 TPU 上提供 Gemma:在 TPU 處理器上部署 Gemma 與 JetStream,以便享有高效能和低延遲。
分析資料
- 使用 BigQuery、Cloud Run 和 Gemma 分析 GKE 上的資料:使用 BigQuery 和 Gemma 建立資料分析管道。
微調
- 使用多個 GPU 微調 Gemma 開放模型:根據您自己的資料集自訂 Gemma 行為。