Google Kubernetes Engine (GKE) ist einem verwalteten Kubernetes-Dienst von Google Cloud, der können Sie Containeranwendungen mit die Infrastruktur von Google. Sie können Gemma mit Cloud Tensor-Verarbeitungseinheiten bereitstellen (TPUs) und Grafikprozessoren (GPUs) in GKE mit dieser LLM-Bereitstellung Frameworks:
- Gemma mit GPUs in GKE mit vLLM bereitstellen
- Gemma mithilfe von GPUs in GKE mit TGI bereitstellen
- Gemma mithilfe von GPUs in GKE mit Triton und TensorRT-LLM bereitstellen
- Gemma mit TPUs in GKE mit JetStream bereitstellen
- Gemma mithilfe von TPUs in GKE mit Saxml bereitstellen
Durch das Bereitstellen von Gemma in GKE können Sie eine robuste, produktionsreife Inferenz implementieren Bereitstellungslösung mit allen Vorteilen einer verwalteten Kubernetes-Umgebung wie eine effiziente Skalierbarkeit und eine höhere Verfügbarkeit.
Weitere Informationen finden Sie auf den folgenden Seiten:
- GKE Übersicht: Erste Schritte mit der Google Kubernetes Engine (GKE)
- KI-/ML-Orchestrierung auf GKE: Optimierte KI-/ML-Arbeitslasten mit GKE ausführen