Gemma 4-Modelle – Übersicht

Gemma ist eine Familie generativer künstlicher Intelligenzmodelle, die für eine Vielzahl von Aufgaben im Bereich der Generierung verwendet werden können, darunter Question Answering, Zusammenfassung und Schlussfolgern. Gemma-Modelle werden mit offenen Gewichten bereitgestellt und ermöglichen eine verantwortungsvolle kommerzielle Nutzung, Sie können sie in Ihren eigenen Projekten und Anwendungen abstimmen und bereitstellen.

Die Gemma 4-Modellfamilie umfasst vier verschiedene Architekturen, die auf bestimmte Hardwareanforderungen zugeschnitten sind:

  • Kleine Größen:Modelle mit 2 und 4 Milliarden effektiven Parametern, die für die Bereitstellung auf Mobilgeräten, Edge-Geräten und in Browsern entwickelt wurden (z.B. Pixel, Chrome).
  • Dicht:Ein leistungsstarkes dichtes Modell mit 31 Milliarden Parametern, das die Lücke zwischen Serverleistung und lokaler Ausführung schließt.
  • Mixture-of-Experts::Ein hocheffizientes MoE-Modell mit 26 Milliarden Parametern, das für hohen Durchsatz und logisches Schlussfolgern entwickelt wurde.
  • Unified:Ein Modell mit 12 Milliarden Parametern ohne Encoder für multimodale Aufgaben, bei dem Vision- und Audio-Encoder durch direkte lineare Projektionen der Eingabe ersetzt wurden.

Sie können Gemma 4-Modelle von Kaggle und Hugging Face herunterladen. Weitere technische Details zu Gemma 4 finden Sie auf der Modellkarte. Ältere Versionen der Gemma-Kernmodelle sind ebenfalls zum Download verfügbar. Weitere Informationen finden Sie unter Frühere Gemma-Modelle.

Auf Kaggle herunterladen Auf Hugging Face herunterladen

Leistungsspektrum

  • Schlussfolgern: Alle Modelle der Familie sind als hochleistungsfähige Schlussfolgerer mit konfigurierbaren Denk modi.
  • Erweiterte Multimodalität: Verarbeitet Text, Bilder mit variabler Seitenverhältnis- und Auflösungsunterstützung (alle Modelle), Videos und Audio (nativ in den Modellen E2B, E4B und 12B enthalten).
  • Erweitertes Kontextfenster:Kleine Modelle haben ein Kontextfenster von 128.000, während die mittleren Modelle 256.000 unterstützen.
  • Verbesserte Codierungs- und Agentenfunktionen: Erzielt deutliche Verbesserungen bei Codierungs-Benchmarks und bietet integrierte Unterstützung für Funktionsaufrufe, wodurch hochleistungsfähige autonome Agenten möglich werden.
  • Native Unterstützung für System-Prompts:Gemma 4 bietet integrierte Unterstützung für die Systemrolle, wodurch strukturiertere und besser kontrollierbare Unterhaltungen möglich werden.
  • Multi-Token-Vorhersage: Alle Gemma 4-Modelle (E2B, E4B, 12B, 31B und 26B A4B) enthalten ein spezielles Entwurfsmodell für die spekulative Decodierung, wodurch die Inferenz deutlich schneller wird, ohne dass die Qualität darunter leidet.

Parametergrößen und Quantisierung

Gemma 4-Modelle sind in fünf Parametergrößen verfügbar: E2B, E4B, 12B, 31B und 26B A4B. Die Modelle können mit ihrer Standardgenauigkeit (16 Bit) oder mit einer geringeren Genauigkeit mithilfe der Quantisierung verwendet werden. Die verschiedenen Größen und Genauigkeiten stellen eine Reihe von Kompromissen für Ihre KI-Anwendung dar. Modelle mit mehr Parametern und Bits (höhere Genauigkeit) sind in der Regel leistungsfähiger, aber auch teurer in Bezug auf Verarbeitungszyklen, Arbeitsspeicherkosten und Stromverbrauch. Modelle mit weniger Parametern und Bits (geringere Genauigkeit) sind weniger leistungsfähig, können aber für Ihre KI-Aufgabe ausreichend sein.

Arbeitsspeicheranforderungen für die Gemma 4-Inferenz

In der folgenden Tabelle sind die ungefähren GPU- oder TPU-Arbeitsspeicheranforderungen für die Ausführung der Inferenz mit den verschiedenen Größen der Gemma 4-Modellversionen aufgeführt.

Parameter BF16 (16 Bit) SFP8 (8 Bit) Q4_0 (4 Bit) Mobilgeräte Mobilgeräte (nur Text)
Gemma 4 E2B 11,4 GB 5,7 GB 2,9 GB 1,1 GB 0,84 GB
Gemma 4 E4B 17,9 GB 8,9 GB 4,5 GB 2,5 GB 2,2 GB
Gemma 4 12B 26,7 GB 13,4 GB 6,7 GB - -
Gemma 4 26B A4B 57,7 GB 28,8 GB 14,4 GB - -
Gemma 4 31B 69,9 GB 34,9 GB 17,5 GB - -

Tabelle 1. Ungefährer GPU- oder TPU-Arbeitsspeicher, der zum Laden von Gemma 4-Modellen erforderlich ist, basierend auf der Anzahl der Parameter, der Quantisierungsstufe und einem Overhead von 20% für das Laden zusätzlicher Elemente. Mobile Versionen verwenden LiteRT-LM.

Wichtige Überlegungen für die Arbeitsspeicherplanung

  • Effiziente Architektur (E2B und E4B) : Das „E“ steht für „effektive“ Parameter. Die kleineren Modelle enthalten Per-Layer Embeddings (PLE), um die Parametereffizienz bei der Bereitstellung auf Geräten zu maximieren. Anstatt dem Modell weitere Ebenen hinzuzufügen, bietet PLE jeder Decoderebene eine eigene kleine Einbettung für jedes Token. Diese Einbettungstabellen sind groß, werden aber nur für schnelle Suchvorgänge verwendet. Daher ist der insgesamt zum Laden statischer Gewichte erforderliche Arbeitsspeicher höher als die effektive Anzahl der Parameter.
  • MoE-Architektur (26B A4B) : Das 26B-Modell ist ein Mixture of Experts-Modell. Obwohl während der Generierung nur 4 Milliarden Parameter pro Token aktiviert werden, müssen alle 26 Milliarden Parameter in den Arbeitsspeicher geladen werden, um schnelle Routing- und Inferenzgeschwindigkeiten aufrechtzuerhalten. Daher liegt der Mindestarbeitsspeicherbedarf viel näher an dem eines dichten 26B-Modells als an dem eines 4B-Modells.
  • Nur Basisgewichte:Die Schätzungen in der vorherigen Tabelle berücksichtigen nur den Arbeitsspeicher, der zum Laden der statischen Modellgewichte erforderlich ist. Der zusätzliche VRAM, der für unterstützende Software oder das Kontextfenster benötigt wird, ist nicht enthalten.
  • Kontextfenster (KV-Cache) : Der Arbeitsspeicherverbrauch steigt dynamisch basierend auf der Gesamtzahl der Tokens in Ihrem Prompt und der generierten Antwort. Größere Kontextfenster erfordern deutlich mehr VRAM zusätzlich zu den Basismodellgewichten.
  • Overhead für die Feinabstimmung:Die Arbeitsspeicheranforderungen für die Feinabstimmung von Gemma-Modellen sind drastisch höher als für die Standardinferenz. Der genaue Bedarf hängt stark vom Entwicklungsframework, der Batchgröße und davon ab, ob Sie eine Feinabstimmung mit voller Genauigkeit oder eine Methode für die parameter-effiziente Feinabstimmung (PEFT) wie Low-Rank Adaptation (LoRA) verwenden.

Quantisierungsbewusstes Training (Quantization-Aware Training, QAT)

Für Bereitstellungen, die maximale Effizienz bei minimalen Qualitätseinbußen erfordern, bietet Gemma offizielle Quantisierungsbewusstes Training (Quantization-Aware Training, QAT) -Modelle.

Im Gegensatz zur Standardquantisierung nach dem Training (Post-Training Quantization, PTQ), bei der ein vollständig trainiertes Modell komprimiert wird und die Qualität darunter leiden kann, wird bei QAT die Quantisierungssimulation in den Trainingsprozess selbst integriert. So kann das Modell lernen, den Genauigkeitsverlust auszugleichen, was zu kleineren Modellen führt, die fast genauso gut funktionieren wie ihre hochgenauen Baselines.

Schnelle Routing-Tabelle

Ziel-Bereitstellungs-Engine Suffix herunterladen Primärer Anwendungsfall
llama.cpp / LM Studio (lokal) {model-name}-qat-q4_0-gguf Lokale Bereitstellung ohne Einrichtung auf der CPU, Apple Silicon oder Consumer-GPUs.
vLLM / SGLang SERVER: {model-name}-qat-w4a16-ct
MOBILGERÄTE: {model-name}-qat-mobile-ct
Inferenz mit hohem Durchsatz unter Verwendung von 4-Bit-Gewichten mit 16-Bit-Aktivierungen.
Spekulative Decodierung MODELL: {model-name}-qat-q4_0-unquantized
ENTWURF: {model-name}-qat-q4_0-unquantized-assistant
Ausführen eines primären Modells zusammen mit dem entsprechenden MTP-Entwurfsmodell, um die Tokengenerierung drastisch zu beschleunigen. Das Modell muss quantisiert werden.
Andere Formate {model-name}-qat-q4_0-unquantized Nicht quantisierte Gewichte für die Konvertierung in andere Formate (z.B. MLX)
Mobile Bereitstellung (Transformers) {model-name}-qat-mobile-transformers Für mobile Anwendungsfälle optimierte Edge-Gewichte. Sie dienen als Referenz für andere Formate.

Offizielle QAT-Sammlungen auf Hugging Face

  • collections/google/gemma-4-qat-q4_0
    • Nicht quantisierte QAT-Checkpoints (-unquantized / -assistant) : Gewichte mit halber Genauigkeit, die direkt aus der QAT-Pipeline extrahiert wurden. Sie eignen sich ideal für die benutzerdefinierte Downstream-Kompilierung, Forschung oder die Ausführung der spekulativen Decodierung mit den Entwurfsmodellen des Assistenten. Verfügbar für Gemma 4 E2B, E4B, 12B, 26B A4B und 31B.
    • GGUF (-gguf) : Checkpoints, die für die sofortige Drop-in-Kompatibilität im gesamten lokalen LLM-Ökosystem verfügbar sind. Verfügbar für Gemma 4 E2B, E4B, 12B, 26B A4B und 31B.
    • Komprimierte Tensoren (-w4a16-ct) : Nativ im Standard compressed-tensors serialisiert für optimiertes Cloud-Serving mit hoher Parallelität. Verfügbar für Gemma 4 E2B, E4B, 12B und 31B.
  • collections/google/gemma-4-qat-mobile
    • Für Mobilgeräte optimiert (-mobile-transformers / -mobile-ct) : Basiert auf einem benutzerdefinierten wNa8o8-Schema, das speziell für die Hardwarebeschränkungen von Mobilgeräten entwickelt wurde. Es verwendet gezielte 2-Bit-Decodierungsebenen, optimierte KV-Caches und statische Aktivierungen, um die RAM-Einsparungen auf dem Gerät zu maximieren, ohne die Edge-Prozessoren zu überlasten. Verfügbar für Gemma 4 E2B und E4B.

Alle offiziellen Gemma 4-QAT-Checkpoints sind auch direkt über Kaggle zugänglich.

Frühere Gemma-Modelle

Sie können mit früheren Generationen von Gemma-Modellen arbeiten, die auch auf Kaggle und Hugging Face verfügbar sind. Weitere technische Details zu früheren Gemma-Modellen finden Sie auf den folgenden Modellkartenseiten:

Sind Sie bereit? Erste Schritte mit Gemma-Modellen