Gemma-Inhaltsgenerierung und -Inferenzen ausführen

Wenn Sie ein Gemma-Modell ausführen möchten, müssen Sie zwei wichtige Entscheidungen treffen: 1) Welche Gemma-Variante möchten Sie ausführen? und 2) Welches KI-Ausführungs-Framework möchten Sie dafür verwenden? Ein wichtiges Problem bei beiden Entscheidungen ist die Hardware, die Ihnen und Ihren Nutzern zum Ausführen des Modells zur Verfügung steht.

Diese Übersicht soll Ihnen helfen, diese Entscheidungen zu treffen und mit Gemma-Modellen zu arbeiten. So führen Sie ein Gemma-Modell aus:

Framework auswählen

Gemma-Modelle sind mit einer Vielzahl von Ökosystem-Tools kompatibel. Die Auswahl der richtigen Methode hängt von Ihrer verfügbaren Hardware (Cloud-GPUs im Vergleich zu lokalem Laptop) und Ihrer bevorzugten Schnittstelle (Python-Code im Vergleich zur Desktopanwendung) ab.

Anhand der folgenden Tabelle können Sie schnell das für Ihre Anforderungen am besten geeignete Tool ermitteln:

Gewünschte Aktion Empfohlenes Framework Optimal für
Lokal mit einer Chat-Benutzeroberfläche ausführen – LM Studio
Ollama
Anfänger oder Nutzer, die auf ihrem Laptop eine ähnliche Erfahrung wie mit Gemini wünschen.
Effizient auf Edge-Geräten ausführen – Gemma.cpp
LiteRT-LM
llama.cpp
MediaPipe LLM Inference API
MLX
Leistungsstarke lokale Inferenz mit minimalen Ressourcen.
Modelle mit Python erstellen/trainieren – Gemma-Bibliothek für JAX
Hugging Face Transformers
Keras
PyTorch
Unsloth
Forscher und Entwickler, die benutzerdefinierte Anwendungen erstellen oder Modelle feinabstimmen.
Für die Produktion / Enterprise bereitstellen – Google Cloud Kubernetes Engine (GKE)
Google Cloud Run
Vertex AI
vLLM
Skalierbare, verwaltete Cloud-Bereitstellung mit Unternehmenssicherheit und MLOps-Unterstützung.

Framework-Details

Im Folgenden finden Sie Anleitungen zum Ausführen von Gemma-Modellen, kategorisiert nach Ihrer Bereitstellungsumgebung.

1. Desktop- und lokale Inferenz (hohe Effizienz)

Mit diesen Tools können Sie Gemma auf Consumer-Hardware (Laptops, Desktops) ausführen, indem Sie optimierte Formate (z. B. GGUF) oder bestimmte Hardwarebeschleuniger verwenden.

  • LM Studio: Eine Desktopanwendung, mit der Sie Gemma-Modelle in einer benutzerfreundlichen Oberfläche herunterladen und mit ihnen chatten können. Kein Coding erforderlich.
  • llama.cpp: Ein beliebter Open-Source-C++-Port von Llama (und Gemma), der unglaublich schnell auf CPUs und Apple Silicon ausgeführt wird.
  • LiteRT-LM: Bietet eine Befehlszeile (CLI), um optimierte .litertlm-Gemma-Modelle auf dem Desktop (Windows, Linux, macOS) auszuführen, die von LiteRT (früher TFLite) unterstützt werden.
  • MLX: Ein Framework, das speziell für maschinelles Lernen auf Apple Silicon entwickelt wurde und sich perfekt für Mac-Nutzer eignet, die integrierte Leistung wünschen.
  • Gemma.cpp: Eine schlanke, eigenständige C++-Inferenz-Engine speziell von Google.
  • Ollama: Ein Tool zum lokalen Ausführen offener LLMs, das häufig zur Unterstützung anderer Anwendungen verwendet wird.

2. Python-Entwicklung (Forschung und Feinabstimmung)

Standard-Frameworks für KI-Entwickler, die Anwendungen, Pipelines oder Trainingsmodelle erstellen.

  • Hugging Face Transformers: Der Branchenstandard für den schnellen Zugriff auf Modelle und Pipelines.
  • Unsloth: Eine optimierte Bibliothek zum Feinabstimmen von LLMs. Damit lassen sich Gemma-Modelle 2- bis 5-mal schneller und mit deutlich weniger Arbeitsspeicher trainieren. So ist es möglich, sie auf Consumer-GPUs (z. B. kostenlose Google Colab-Stufen) abzustimmen.
  • Keras / JAX / PyTorch: Kernbibliotheken für Deep-Learning-Forschung und Implementierung benutzerdefinierter Architekturen.

3. Mobile und Edge-Bereitstellung (auf dem Gerät)

Frameworks, die darauf ausgelegt sind, LLMs direkt auf Nutzergeräten (Android, iOS, Web) ohne Internetverbindung auszuführen. Dabei werden häufig NPUs (Neural Processing Units) verwendet.

  • LiteRT-LM: Das vollständig Open-Source-Framework für die Entwicklung von On-Device-LLMs bietet maximale Leistung und detaillierte Steuerung mit direkter Unterstützung für CPU-, GPU- und NPU-Beschleunigung auf Android und iOS.
  • MediaPipe LLM Inference API: Die einfachste Möglichkeit, Gemma in plattformübergreifende Apps einzubinden. Sie bietet eine API auf hoher Ebene, die unter Android, iOS und im Web funktioniert.

4. Cloud- und Produktionsbereitstellung

Verwaltete Dienste zum Skalieren Ihrer Anwendung für Tausende von Nutzern oder zum Zugriff auf enorme Rechenleistung.

  • Vertex AI: Die vollständig verwaltete KI-Plattform von Google Cloud. Am besten geeignet für Unternehmensanwendungen, die SLAs und Skalierung erfordern.
  • Google Cloud Kubernetes Engine (GKE): Zum Orchestrieren Ihrer eigenen Bereitstellungscluster.
  • vLLM: Eine Inferenz- und Bereitstellungs-Engine mit hohem Durchsatz und geringem Speicherbedarf, die häufig in Cloud-Bereitstellungen verwendet wird.

Achten Sie darauf, dass das von Ihnen gewählte Framework das gewünschte Gemma-Modellformat für die Bereitstellung unterstützt, z. B. das integrierte Keras-Format, Safetensors oder GGUF.

Gemma-Variante auswählen

Gemma-Modelle sind in verschiedenen Varianten und Größen verfügbar, darunter die Kernmodelle von Gemma sowie spezialisierte Modellvarianten wie PaliGemma und DataGemma. Viele Varianten wurden von der KI-Entwickler-Community auf Websites wie Kaggle und Hugging Face erstellt. Wenn Sie nicht sicher sind, mit welcher Variante Sie beginnen sollen, wählen Sie das neueste Gemma-Kernmodell mit Instruction-Tuning (IT) und der geringsten Anzahl von Parametern aus. Diese Art von Gemma-Modell hat geringe Rechenanforderungen und kann auf eine Vielzahl von Prompts reagieren, ohne dass zusätzliche Entwicklung erforderlich ist.

Berücksichtigen Sie bei der Auswahl einer Gemma-Variante die folgenden Faktoren:

  • Gemma-Kern und andere Variantenfamilien wie PaliGemma und CodeGemma: Gemma (Kern) empfehlen. Gemma-Varianten, die über die Kernversion hinausgehen, haben dieselbe Architektur wie das Kernmodell und werden trainiert, um bei bestimmten Aufgaben eine bessere Leistung zu erzielen. Sofern Ihre Anwendung oder Ihre Ziele nicht mit der Spezialisierung einer bestimmten Gemma-Variante übereinstimmen, sollten Sie am besten mit einem Gemma-Kernmodell beginnen.
  • Instruction-tuned (IT), pre-trained (PT), fine-tuned (FT), mixed (mix): IT wird empfohlen.
    • Instruction-tuned (IT) Gemma-Varianten sind Modelle, die darauf trainiert wurden, auf eine Vielzahl von Anweisungen oder Anfragen in menschlicher Sprache zu reagieren. Diese Modellvarianten sind der beste Ausgangspunkt, da sie auf Prompts reagieren können, ohne dass ein weiteres Modelltraining erforderlich ist.
    • Vortrainierte (PT) Gemma-Varianten sind Modelle, die darauf trainiert wurden, Rückschlüsse auf Sprache oder andere Daten zu ziehen, aber nicht darauf, menschliche Anweisungen zu befolgen. Diese Modelle erfordern zusätzliches Training oder Tuning, um Aufgaben effektiv ausführen zu können. Sie sind für Forscher oder Entwickler gedacht, die die Fähigkeiten des Modells und seiner Architektur untersuchen oder weiterentwickeln möchten.
    • Abgestimmte (FT) Gemma-Varianten können als IT-Varianten betrachtet werden, werden aber in der Regel für eine bestimmte Aufgabe oder für einen bestimmten Benchmark für generative KI trainiert. Die PaliGemma-Variantenfamilie umfasst eine Reihe von FT-Varianten.
    • Gemischt (Mix) Gemma-Varianten sind Versionen von PaliGemma-Modellen, die mit einer Vielzahl von Anweisungen abgestimmt wurden und für den allgemeinen Gebrauch geeignet sind.
  • Parameter: Kleinste verfügbare Zahl empfehlen. Im Allgemeinen gilt: Je mehr Parameter ein Modell hat, desto leistungsfähiger ist es. Für die Ausführung größerer Modelle sind jedoch größere und komplexere Rechenressourcen erforderlich, was die Entwicklung einer KI-Anwendung in der Regel verlangsamt. Sofern Sie nicht bereits festgestellt haben, dass ein kleineres Gemma-Modell Ihre Anforderungen nicht erfüllen kann, sollten Sie ein Modell mit einer geringen Anzahl von Parametern auswählen.
  • Quantisierungsstufen:Wir empfehlen die halbe Genauigkeit (16 Bit), außer für das Tuning. Die Quantisierung ist ein komplexes Thema, das sich darauf beschränkt, welche Größe und Präzision von Daten und folglich wie viel Speicher ein generatives KI-Modell für Berechnungen und die Generierung von Antworten verwendet. Nachdem ein Modell mit hochpräzisen Daten trainiert wurde, die in der Regel 32-Bit-Gleitkommadaten sind, können Modelle wie Gemma so geändert werden, dass sie Daten mit niedrigerer Präzision wie 16-, 8- oder 4-Bit-Größen verwenden. Diese quantisierten Gemma-Modelle können je nach Komplexität der Aufgaben weiterhin gute Ergebnisse liefern, während sie deutlich weniger Rechen- und Speicherressourcen benötigen. Die Tools zum Optimieren quantisierter Modelle sind jedoch begrenzt und möglicherweise nicht in Ihrem ausgewählten KI-Entwicklungsframework verfügbar. Normalerweise müssen Sie ein Modell wie Gemma mit voller Präzision abstimmen und das resultierende Modell dann quantisieren.

Eine Liste der wichtigsten von Google veröffentlichten Gemma-Modelle finden Sie unter Erste Schritte mit Gemma-Modellen, Liste der Gemma-Modelle.

Generierungs- und Inferenzanfragen ausführen

Nachdem Sie ein KI-Ausführungs-Framework und eine Gemma-Variante ausgewählt haben, können Sie das Modell ausführen und es auffordern, Inhalte zu generieren oder Aufgaben zu erledigen. Weitere Informationen zum Ausführen von Gemma mit einem bestimmten Framework finden Sie in den Anleitungen im Abschnitt Framework auswählen.

Prompt-Formatierung

Für alle auf Anweisungen abgestimmten Gemma-Varianten gelten bestimmte Anforderungen an die Formatierung von Prompts. Einige dieser Formatierungsanforderungen werden automatisch von dem Framework erfüllt, das Sie zum Ausführen von Gemma-Modellen verwenden. Wenn Sie Prompt-Daten jedoch direkt an einen Tokenizer senden, müssen Sie bestimmte Tags hinzufügen. Die Tagging-Anforderungen können sich je nach verwendeter Gemma-Variante ändern. Weitere Informationen zur Formatierung von Prompts für Gemma-Varianten und zu Systemanweisungen finden Sie in den folgenden Anleitungen: