Google Kubernetes Engine (GKE) 這是 Google Cloud 提供的代管 Kubernetes 服務 方便您大規模部署及操作容器化應用程式 基礎架構您可以使用 Cloud Tensor 處理單元提供 Gemma 服務 GKE 中的 (TPU) 和圖形處理器 (GPU) 搭配這些 LLM 服務 架構:
- 透過 vLLM 在 GKE 中使用 GPU 提供 Gemma 服務
- 透過 TGI 在 GKE 上使用 GPU 提供 Gemma
- 透過 Triton 和 TensorRT-LLM 在 GKE 中使用 GPU 提供 Gemma
- 透過 JetStream 在 GKE 上使用 TPU 提供 Gemma
- 透過 Saxml 在 GKE 上使用 TPU 提供 Gemma 服務
透過在 GKE 上提供 Gemma,您就能實作可用於實際工作環境的可靠推論 提供解決方案,具備代管 Kubernetes 的所有優點,包括 具備高效率的擴充性和可用性
詳情請參閱以下頁面:
- GKE 總覽: 開始使用 Google Kubernetes Engine (GKE)
- 運用 AI/機器學習自動化調度管理 GKE: 透過 GKE 執行最佳化 AI/機器學習工作負載