Gemma-Inhaltsgenerierung und -Inferenzen ausführen

Wenn Sie ein Gemma-Modell ausführen möchten, müssen Sie zwei wichtige Entscheidungen treffen: 1) Welche Gemma-Variante möchten Sie ausführen? 2) Welches KI-Ausführungsframework verwenden Sie? Ein wichtiges Problem bei der Entscheidungsfindung ist die Hardware, die Sie und Ihre Nutzer zum Ausführen des Modells zur Verfügung haben.

Diese Übersicht hilft Ihnen bei diesen Entscheidungen und beim Einstieg in die Arbeit mit Gemma-Modellen. So führen Sie ein Gemma-Modell aus:

Framework auswählen

Gemma-Modelle sind mit einer Vielzahl von Ausführungsframeworks für generative KI kompatibel. Einer der wichtigsten Entscheidungsfaktoren für die Ausführung eines Gemma-Modells ist, welche Rechenressourcen Ihnen zur Verfügung stehen (oder stehen werden), um das Modell auszuführen. Die meisten kompatiblen KI-Frameworks erfordern spezielle Hardware wie GPUs oder TPUs, um ein Gemma-Modell effektiv auszuführen. Mit Tools wie Google Colab können diese speziellen Rechenressourcen in begrenztem Umfang bereitgestellt werden. Mit einigen Frameworks zur Ausführung von KI, z. B. Ollama und Gemma.cpp, können Sie Gemma auf gängigeren CPUs mit x86-kompatiblen oder ARM-Architekturen ausführen.

Hier finden Sie Anleitungen zum Ausführen von Gemma-Modellen mit verschiedenen KI-Laufzeit-Frameworks:

Das von Ihnen für die Bereitstellung vorgesehene Gemma-Modellformat, z. B. das native Keras-Format, Safetensors oder GGUF, muss vom ausgewählten Framework unterstützt werden.

Gemma-Variante auswählen

Gemma-Modelle sind in verschiedenen Varianten und Größen verfügbar, darunter die grundlegenden oder Kern-Gemma-Modelle sowie spezialisiertere Modellvarianten wie PaliGemma und DataGemma. Außerdem gibt es viele Varianten, die von der KI-Entwickler-Community auf Websites wie Kaggle und Hugging Face erstellt wurden. Wenn Sie sich nicht sicher sind, mit welcher Variante Sie beginnen sollten, wählen Sie das neueste Gemma-Core-IT-Modell (Instruction-Tuned) mit der niedrigsten Anzahl von Parametern aus. Diese Art von Gemma-Modell hat geringe Rechenanforderungen und kann auf eine Vielzahl von Prompts reagieren, ohne dass zusätzliche Entwicklungsarbeit erforderlich ist.

Berücksichtigen Sie bei der Auswahl einer Gemma-Variante die folgenden Faktoren:

  • Gemma-Kern und andere Variantenfamilien wie PaliGemma, CodeGemma: Wir empfehlen Gemma (Kern). Gemma-Varianten, die über die Kernversion hinausgehen, haben dieselbe Architektur wie das Kernmodell und sind für eine bessere Leistung bei bestimmten Aufgaben trainiert. Sofern Ihre Anwendung oder Ziele nicht mit der Spezialisierung einer bestimmten Gemma-Variante übereinstimmen, sollten Sie mit einem Gemma-Kern- oder Basismodell beginnen.
  • Anweisungen optimiert (IT), vorab trainiert (PT), optimiert (FT), gemischt (mix): IT wird empfohlen.
    • Anleitung abgestimmt (Instruction-Tuned, IT): Gemma-Varianten dieses Typs wurden darauf trainiert, auf eine Vielzahl von Anweisungen oder Anfragen in natürlicher Sprache zu reagieren. Diese Modellvarianten sind der beste Ausgangspunkt, da sie ohne weiteres Modelltraining auf Prompts reagieren können.
    • Vortrainierte (PT) Gemma-Varianten sind Modelle, die zum Erstellen von Rückschlüssen auf Sprache oder andere Daten trainiert wurden, aber nicht zum Befolgen von Anweisungen von Menschen. Diese Modelle erfordern zusätzliches Training oder eine Anpassung, um Aufgaben effektiv ausführen zu können. Sie sind für Forscher oder Entwickler gedacht, die die Funktionen des Modells und seiner Architektur untersuchen oder weiterentwickeln möchten.
    • Optimierte (FT) Gemma-Varianten können als IT-Varianten betrachtet werden, werden aber in der Regel für die Ausführung einer bestimmten Aufgabe trainiert oder erzielen gute Ergebnisse bei einem bestimmten generativen KI-Benchmark. Die PaliGemma-Variantenfamilie umfasst eine Reihe von FT-Varianten.
    • Mixed (Mix)-Gemma-Varianten sind Versionen von PaliGemma-Modellen, die mit einer Vielzahl von Anweisungen für die Anleitung optimiert wurden und für die allgemeine Verwendung geeignet sind.
  • Parameters: Die kleinste verfügbare Zahl wird empfohlen. Im Allgemeinen gilt: Je mehr Parameter ein Modell hat, desto leistungsfähiger ist es. Größere Modelle erfordern jedoch größere und komplexere Rechenressourcen und verlangsamen in der Regel die Entwicklung einer KI-Anwendung. Sofern Sie nicht bereits festgestellt haben, dass ein kleineres Gemma-Modell nicht Ihren Anforderungen entspricht, wählen Sie ein Modell mit einer kleinen Anzahl von Parametern aus.
  • Quantisierungsstufen: Außer bei der Optimierung wird eine Halbpräzision (16 Bit) empfohlen. Die Quantisierung ist ein komplexes Thema, das sich auf die Größe und Genauigkeit von Daten und damit auf die Menge des Arbeitsspeichers bezieht, die ein generatives KI-Modell für Berechnungen und das Generieren von Antworten benötigt. Nachdem ein Modell mit Daten mit hoher Genauigkeit trainiert wurde, in der Regel 32-Bit-Gleitkommadaten, können Modelle wie Gemma so geändert werden, dass sie Daten mit niedrigerer Genauigkeit wie 16, 8 oder 4 Bit verwenden. Diese quantisierten Gemma-Modelle können je nach Komplexität der Aufgaben weiterhin eine gute Leistung erzielen und dabei deutlich weniger Rechen- und Arbeitsspeicherressourcen verbrauchen. Tools zur Optimierung quantisierter Modelle sind jedoch begrenzt und möglicherweise nicht im von Ihnen ausgewählten KI-Entwicklungsframework verfügbar. Normalerweise müssen Sie ein Modell wie Gemma mit voller Präzision optimieren und dann das resultierende Modell quantisieren.

Eine Liste der wichtigsten von Google veröffentlichten Gemma-Modelle finden Sie im Abschnitt „Gemma-Modelle“ des Artikels Erste Schritte mit Gemma-Modellen.

Anfragen zum Generieren und Inferieren ausführen

Nachdem Sie ein KI-Ausführungsframework und eine Gemma-Variante ausgewählt haben, können Sie das Modell ausführen und es auffordern, Inhalte zu generieren oder Aufgaben auszuführen. Weitere Informationen zum Ausführen von Gemma mit einem bestimmten Framework finden Sie in den Anleitungen, die im Abschnitt Framework auswählen verlinkt sind.

Prompt-Formatierung

Für alle Gemma-Varianten mit Anleitung gelten bestimmte Anforderungen an die Promptformatierung. Einige dieser Formatierungsanforderungen werden automatisch vom Framework verarbeitet, mit dem Sie Gemma-Modelle ausführen. Wenn Sie Prompt-Daten jedoch direkt an einen Tokenisierer senden, müssen Sie bestimmte Tags hinzufügen. Die Anforderungen an das Tagging können sich je nach verwendeter Gemma-Variante ändern. In den folgenden Anleitungen finden Sie Informationen zur Formatierung von Gemma-Variantenprompts und zum System: