Google Kubernetes Engine (GKE) ist ein verwalteter Kubernetes-Dienst von Google Cloud, mit dem Sie in großem Maßstab Containeranwendungen über die Google-Infrastruktur bereitstellen und betreiben können. Mit den folgenden LLM-Frameworks können Sie Gemma mit Cloud Tensor-Verarbeitungseinheiten (TPUs) und Grafikprozessoren (GPUs) in GKE bereitstellen:
- Gemma mit GPUs in GKE mit vLLM bereitstellen
- Gemma mit GPUs in GKE mit TGI bereitstellen
- Gemma mit GPUs auf GKE mit Triton und TensorRT-LLM bereitstellen
- Gemma mit TPUs in GKE mit JetStream bereitstellen
- Gemma mit TPUs in GKE mit Saxml bereitstellen
Durch die Bereitstellung von Gemma in GKE können Sie eine robuste, produktionsreife Inferenzlösung mit allen Vorteilen von verwaltetem Kubernetes implementieren, einschließlich effizienter Skalierbarkeit und höherer Verfügbarkeit.
Weitere Informationen finden Sie auf den folgenden Seiten:
- GKE-Übersicht: Erste Schritte mit der Google Kubernetes Engine (GKE)
- KI-/ML-Orchestrierung in GKE: Optimierte KI-/ML-Arbeitslasten mit GKE ausführen