Die Google Cloud-Plattform bietet viele Dienste zum Bereitstellen und Bereitstellen von offenen Gemma-Modellen, darunter:
Vertex AI
Vertex AI ist eine Google Cloud-Plattform, mit der Sie schnell Machine-Learning-Projekte erstellen und skalieren können, ohne dass Sie eigene MLOps-Kenntnisse benötigen. Vertex AI bietet eine Konsole, in der Sie mit einer großen Auswahl an Modellen arbeiten können. Außerdem bietet es End-to-End-MLOps-Funktionen und eine serverlose Umgebung für eine optimierte Entwicklung.
Sie können Vertex AI als nachgelagerte Anwendung verwenden, die Gemma bereitstellt. Gemma ist in Model Garden verfügbar, einer kuratierten Sammlung von Modellen. Sie können beispielsweise Gewichte aus einer Gemma-Implementierung portieren und diese Version von Gemma mit Vertex AI bereitstellen, um Vorhersagen zu erhalten.
Weitere Informationen finden Sie auf den folgenden Seiten:
- Einführung in Vertex AI: Erste Schritte mit Vertex AI.
- Gemma mit Vertex AI: Sie können offene Gemma-Modelle mit Vertex AI verwenden.
- Gemma mit KerasNLP optimieren und in Vertex AI bereitstellen: End-to-End-Notebook zum Optimieren von Gemma mit Keras.
Cloud Run
Cloud Run ist eine vollständig verwaltete Plattform, mit der Sie Ihren Code, Ihre Funktion oder Ihren Container auf der hoch skalierbaren Infrastruktur von Google ausführen können.
Cloud Run bietet On-Demand-GPUs, die schnell gestartet werden können, auf Null skaliert werden und nach der Nutzung bezahlt werden. So können Sie offene Modelle wie Gemma bereitstellen.
Weitere Informationen zum Ausführen von Gemma in Cloud Run finden Sie auf den folgenden Seiten:
- Best Practices für die Verwendung von GPUs in Cloud Run
- Gemma-Inferenzen auf Cloud Run-GPUs mit Ollama ausführen
- Gemma-Inferenzen auf Cloud Run-GPUs mit vLLM ausführen
- Gemma-Inferenzen auf Cloud Run-GPUs mit Transformers.js ausführen
Google Kubernetes Engine (GKE)
Google Kubernetes Engine (GKE) ist ein verwalteter Kubernetes-Dienst von Google Cloud, mit dem Sie Containeranwendungen in großem Maßstab mithilfe der Infrastruktur von Google bereitstellen und betreiben können. Sie können Gemma mit Cloud Tensor Processing Units (TPUs) und Grafikprozessoren (GPUs) in GKE mit den folgenden LLM-Bereitstellungs-Frameworks bereitstellen:
- Gemma mit GPUs in GKE mit vLLM bereitstellen
- Gemma mit GPUs in GKE mit TGI bereitstellen
- Gemma mit GPUs in GKE mit Triton und TensorRT-LLM bereitstellen
- Gemma mithilfe von TPUs in GKE mit JetStream bereitstellen
- Gemma mithilfe von TPUs in GKE mit Saxml bereitstellen
Wenn Sie Gemma in GKE bereitstellen, können Sie eine robuste, produktionsreife Inferenzbereitstellungslösung mit allen Vorteilen von verwaltetem Kubernetes implementieren, darunter effiziente Skalierbarkeit und höhere Verfügbarkeit.
Weitere Informationen finden Sie auf den folgenden Seiten:
- GKE-Übersicht: Erste Schritte mit der Google Kubernetes Engine (GKE)
- KI-/ML-Orchestrierung in der GKE: Optimierte KI-/ML-Arbeitslasten mit der GKE ausführen
Dataflow ML
Dataflow ML ist eine Google Cloud-Plattform zum Bereitstellen und Verwalten vollständiger Workflows für maschinelles Lernen. Mit Dataflow ML können Sie Ihre Daten mithilfe von Datenverarbeitungstools für das Modelltraining vorbereiten und dann mit Modellen wie Gemma lokale und Remote-Inferenzen mit Batch- und Streaming-Pipelines ausführen.
Mit Dataflow ML können Sie Gemma mit nur wenigen Codezeilen nahtlos in Ihre Apache Beam-Inferenzpipelines einbinden. So können Sie Daten aufnehmen, überprüfen und transformieren, Texteingaben in Gemma einspeisen und Textausgaben generieren.
Weitere Informationen finden Sie auf den folgenden Seiten:
- Offene Gemma-Modelle mit Dataflow verwenden: Erste Schritte mit Gemma in Dataflow.
- Inferenz mit einem offenen Gemma-Modell ausführen: Leitfaden, in dem Gemma in einer Apache Beam-Inferenzpipeline verwendet wird.