Im Gemma Cookbook-Repository finden Sie Beispiele für die Generierung und Feinabstimmung. Weitere Informationen

Diese Seite wurde von der Cloud Translation API übersetzt.

Google Kubernetes Engine (GKE) mit Gemma

Google Kubernetes Engine (GKE) ist einem verwalteten Kubernetes-Dienst von Google Cloud, der können Sie Containeranwendungen mit die Infrastruktur von Google. Sie können Gemma mit Cloud Tensor-Verarbeitungseinheiten bereitstellen (TPUs) und Grafikprozessoren (GPUs) in GKE mit dieser LLM-Bereitstellung Frameworks:

Gemma mit GPUs in GKE mit vLLM bereitstellen
Gemma mithilfe von GPUs in GKE mit TGI bereitstellen
Gemma mithilfe von GPUs in GKE mit Triton und TensorRT-LLM bereitstellen
Gemma mit TPUs in GKE mit JetStream bereitstellen
Gemma mithilfe von TPUs in GKE mit Saxml bereitstellen

Durch das Bereitstellen von Gemma in GKE können Sie eine robuste, produktionsreife Inferenz implementieren Bereitstellungslösung mit allen Vorteilen einer verwalteten Kubernetes-Umgebung wie eine effiziente Skalierbarkeit und eine höhere Verfügbarkeit.

Weitere Informationen finden Sie auf den folgenden Seiten:

GKE Übersicht: Erste Schritte mit der Google Kubernetes Engine (GKE)
KI-/ML-Orchestrierung auf GKE: Optimierte KI-/ML-Arbeitslasten mit GKE ausführen