Gemma 3n mit Audioeingabe und optimiert für die Verwendung in Alltagsgeräten. Weitere Informationen

Gemma mit Google Cloud bereitstellen

Die Google Cloud-Plattform bietet viele Dienste zum Bereitstellen und Bereitstellen von offenen Gemma-Modellen, darunter:

Vertex AI
Cloud Run
Google Kubernetes Engine
Dataflow ML

Vertex AI

Vertex AI ist eine Google Cloud-Plattform, mit der Sie schnell Machine-Learning-Projekte erstellen und skalieren können, ohne dass Sie eigene MLOps-Kenntnisse benötigen. Vertex AI bietet eine Konsole, in der Sie mit einer großen Auswahl an Modellen arbeiten können. Außerdem bietet es End-to-End-MLOps-Funktionen und eine serverlose Umgebung für eine optimierte Entwicklung.

Sie können Vertex AI als nachgelagerte Anwendung verwenden, die Gemma bereitstellt. Gemma ist in Model Garden verfügbar, einer kuratierten Sammlung von Modellen. Sie können beispielsweise Gewichte aus einer Gemma-Implementierung portieren und diese Version von Gemma mit Vertex AI bereitstellen, um Vorhersagen zu erhalten.

Weitere Informationen finden Sie auf den folgenden Seiten:

Einführung in Vertex AI: Erste Schritte mit Vertex AI.
Gemma mit Vertex AI: Sie können offene Gemma-Modelle mit Vertex AI verwenden.
Gemma mit KerasNLP optimieren und in Vertex AI bereitstellen: End-to-End-Notebook zum Optimieren von Gemma mit Keras.

Cloud Run

Cloud Run ist eine vollständig verwaltete Plattform, mit der Sie Ihren Code, Ihre Funktion oder Ihren Container auf der hoch skalierbaren Infrastruktur von Google ausführen können.

Cloud Run bietet On-Demand-GPUs, die schnell gestartet werden können, auf Null skaliert werden und nach der Nutzung bezahlt werden. So können Sie offene Modelle wie Gemma bereitstellen.

Weitere Informationen zum Ausführen von Gemma in Cloud Run finden Sie auf den folgenden Seiten:

Google Kubernetes Engine (GKE)

Google Kubernetes Engine (GKE) ist ein verwalteter Kubernetes-Dienst von Google Cloud, mit dem Sie Containeranwendungen in großem Maßstab mithilfe der Infrastruktur von Google bereitstellen und betreiben können. Sie können Gemma mit Cloud Tensor Processing Units (TPUs) und Grafikprozessoren (GPUs) in GKE mit den folgenden LLM-Bereitstellungs-Frameworks bereitstellen:

Wenn Sie Gemma in GKE bereitstellen, können Sie eine robuste, produktionsreife Inferenzbereitstellungslösung mit allen Vorteilen von verwaltetem Kubernetes implementieren, darunter effiziente Skalierbarkeit und höhere Verfügbarkeit.

Weitere Informationen finden Sie auf den folgenden Seiten:

GKE-Übersicht: Erste Schritte mit der Google Kubernetes Engine (GKE)
KI-/ML-Orchestrierung in der GKE: Optimierte KI-/ML-Arbeitslasten mit der GKE ausführen

Dataflow ML

Dataflow ML ist eine Google Cloud-Plattform zum Bereitstellen und Verwalten vollständiger Workflows für maschinelles Lernen. Mit Dataflow ML können Sie Ihre Daten mithilfe von Datenverarbeitungstools für das Modelltraining vorbereiten und dann mit Modellen wie Gemma lokale und Remote-Inferenzen mit Batch- und Streaming-Pipelines ausführen.

Mit Dataflow ML können Sie Gemma mit nur wenigen Codezeilen nahtlos in Ihre Apache Beam-Inferenzpipelines einbinden. So können Sie Daten aufnehmen, überprüfen und transformieren, Texteingaben in Gemma einspeisen und Textausgaben generieren.

Weitere Informationen finden Sie auf den folgenden Seiten:

Offene Gemma-Modelle mit Dataflow verwenden: Erste Schritte mit Gemma in Dataflow.
Inferenz mit einem offenen Gemma-Modell ausführen: Leitfaden, in dem Gemma in einer Apache Beam-Inferenzpipeline verwendet wird.