Gemma 4-Modelle – Übersicht

Gemma ist eine Reihe von Modellen für generative künstliche Intelligenz, die Sie für eine Vielzahl von Generierungsaufgaben verwenden können, darunter Question Answering, Zusammenfassung und Schlussfolgern. Gemma-Modelle werden mit offenen Gewichten bereitgestellt und ermöglichen eine verantwortungsvolle kommerzielle Nutzung. Sie können sie also in Ihren eigenen Projekten und Anwendungen abstimmen und bereitstellen.

Die Gemma 4-Modellfamilie umfasst vier verschiedene Architekturen, die auf bestimmte Hardwareanforderungen zugeschnitten sind:

  • Kleine Modelle:Modelle mit 2 Mrd. und 4 Mrd. effektiven Parametern, die für die Bereitstellung auf ultramobilen Geräten, Edge-Geräten und in Browsern (z. B. Pixel, Chrome) entwickelt wurden.
  • Dense:Ein leistungsstarkes dichtes Modell mit 31 Milliarden Parametern, das die Lücke zwischen Serverleistung und lokaler Ausführung schließt.
  • Mixture-of-Experts::Ein hocheffizientes MoE-Modell (Mixture of Experts) mit 26 Milliarden Parametern, das für hohen Durchsatz und fortschrittliches logisches Schlussfolgern entwickelt wurde.
  • Einheitlich:Ein kostenloses Modell mit 12 Milliarden Parametern für multimodale Aufgaben, bei dem Vision- und Audio-Encoder durch direkte lineare Projektionen der Eingabe ersetzt wurden.

Sie können Gemma 4-Modelle von Kaggle und Hugging Face herunterladen. Weitere technische Details zu Gemma 4 finden Sie auf der Modellkarte. Frühere Versionen von Gemma-Kernmodellen sind ebenfalls zum Download verfügbar. Weitere Informationen finden Sie unter Vorherige Gemma-Modelle.

Auf Kaggle herunterladen Auf Hugging Face herunterladen

Leistungsspektrum

  • Schlussfolgerung:Alle Modelle der Familie sind als leistungsstarke Schlussfolgerungsmodelle konzipiert und verfügen über konfigurierbare Denkmodi.
  • Erweiterte Multimodalitäten:Verarbeitet Text, Bilder mit variablem Seitenverhältnis und variabler Auflösung (alle Modelle), Videos und Audio (nativ in den Modellen E2B, E4B und 12B).
  • Größeres Kontextfenster:Kleine Modelle haben ein Kontextfenster mit 128.000 Tokens, während die mittleren Modelle 256.000 Tokens unterstützen.
  • Erweiterte Programmier- und Agentic-Funktionen:Das Modell erzielt deutliche Verbesserungen bei den Programmier-Benchmarks und bietet integrierte Unterstützung für Funktionsaufrufe, wodurch leistungsstarke autonome Agenten möglich werden.
  • Native Unterstützung von Systemprompts:Gemma 4 bietet integrierte Unterstützung für die Systemrolle, was strukturiertere und besser steuerbare Unterhaltungen ermöglicht.
  • Multi-Token Prediction:Alle Gemma 4-Modelle (E2B, E4B, 12B, 31B und 26B A4B) enthalten ein spezielles Draft-Modell für spekulatives Decodieren, das eine deutlich schnellere Inferenz ohne Qualitätsverlust ermöglicht.

Parametergrößen und Quantisierung

Gemma 4-Modelle sind in fünf Parametergrößen verfügbar: E2B, E4B, 12B, 31B und 26B A4B. Die Modelle können mit ihrer Standardgenauigkeit (16 Bit) oder mit einer geringeren Genauigkeit durch Quantisierung verwendet werden. Die verschiedenen Größen und Genauigkeiten stellen eine Reihe von Kompromissen für Ihre KI-Anwendung dar. Modelle mit mehr Parametern und Bitanzahl (höhere Präzision) sind in der Regel leistungsfähiger, aber auch teurer in Bezug auf Verarbeitungszyklen, Arbeitsspeicherkosten und Stromverbrauch. Modelle mit weniger Parametern und Bitanzahlen (geringere Genauigkeit) haben weniger Funktionen, sind aber möglicherweise für Ihre KI-Aufgabe ausreichend.

Speicheranforderungen für die Inferenz von Gemma 4

In der folgenden Tabelle sind die ungefähren GPU- oder TPU-Arbeitsspeicheranforderungen für die Ausführung von Inferenz mit den einzelnen Größen der Gemma 4-Modellversionen aufgeführt.

Parameter BF16 (16 Bit) SFP8 (8 Bit) Q4_0 (4 Bit) Mobilgeräte Mobilgeräte (nur Text)
Gemma 4 E2B 11,4 GB 5,7 GB 2,9 GB 1,1 GB 0,84 GB
Gemma 4 E4B 17,9 GB 8,9 GB 4,5 GB 2,5 GB 2,2 GB
Gemma 4 12B 26,7 GB 13,4 GB 6,7 GB - -
Gemma 4 26B A4B 57,7 GB 28,8 GB 14,4 GB - -
Gemma 4 31B 69,9 GB 34,9 GB 17,5 GB - -

Tabelle 1. Ungefährer GPU- oder TPU-Arbeitsspeicher, der zum Laden von Gemma 4-Modellen erforderlich ist, basierend auf der Anzahl der Parameter, dem Quantisierungsgrad und 20% Overhead zum Laden zusätzlicher Elemente. Mobile Versionen verwenden LiteRT-LM.

Wichtige Überlegungen zur Speicherplanung

  • Effiziente Architektur (E2B und E4B): Das „E“ steht für „effektive“ Parameter. Die kleineren Modelle enthalten Per-Layer Embeddings (PLE), um die Parametereffizienz bei der Bereitstellung auf Geräten zu maximieren. Anstatt dem Modell weitere Ebenen hinzuzufügen, erhält jede Decoderebene bei PLE ein eigenes kleines Embedding für jedes Token. Diese Einbettungstabellen sind groß, werden aber nur für schnelle Suchvorgänge verwendet. Daher ist der zum Laden statischer Gewichte erforderliche Gesamtspeicher höher als die effektive Anzahl der Parameter.
  • MoE-Architektur (26B A4B): Das 26B-Modell ist ein MoE-Modell (Mixture of Experts). Während der Generierung werden nur 4 Milliarden Parameter pro Token aktiviert. Alle 26 Milliarden Parameter müssen jedoch in den Arbeitsspeicher geladen werden, um schnelle Routing- und Inferenzgeschwindigkeiten zu gewährleisten. Daher ist der erforderliche Arbeitsspeicher für das Modell viel näher an dem eines dichten 26B-Modells als an dem eines 4B-Modells.
  • Nur Basisgewichte:Die Schätzungen in der vorherigen Tabelle berücksichtigen nur den Speicher, der zum Laden der statischen Modellgewichte erforderlich ist. Sie enthalten nicht den zusätzlichen VRAM, der für unterstützende Software oder das Kontextfenster benötigt wird.
  • Kontextfenster (KV-Cache): Der Speicherverbrauch steigt dynamisch basierend auf der Gesamtzahl der Tokens in Ihrem Prompt und der generierten Antwort. Größere Kontextfenster erfordern deutlich mehr VRAM zusätzlich zu den Gewichten des Basismodells.
  • Overhead für die Feinabstimmung:Der Speicherbedarf für die Feinabstimmung von Gemma-Modellen ist deutlich höher als für die Standardinferenz. Der genaue Speicherbedarf hängt stark vom Entwicklungsframework, der Batchgröße und davon ab, ob Sie die Feinabstimmung mit voller Präzision oder eine PEFT-Methode (Parameter-Efficient Fine-Tuning) wie Low-Rank Adaptation (LoRA) verwenden.

Quantization-Aware Training (QAT)

Für Bereitstellungen, die maximale Effizienz bei minimalen Qualitätseinbußen erfordern, bietet Gemma offizielle QAT-Modelle (Quantization-Aware Training).

Im Gegensatz zur standardmäßigen Quantisierung nach dem Training (Post-Training Quantization, PTQ), bei der ein vollständig trainiertes Modell komprimiert wird und die Qualität darunter leiden kann, wird bei der QAT die Quantisierungssimulation in den Trainingsprozess selbst integriert. So kann das Modell lernen, den Präzisionsverlust auszugleichen. Das Ergebnis sind kleinere Modelle, die fast genauso gut wie ihre hochpräzisen Baselines funktionieren.

Schnelle Routing-Tabelle

Ziel-Bereitstellungs-Engine Suffix für Download Primärer Anwendungsfall
llama.cpp / LM Studio (lokal) {model-name}-qat-q4_0-gguf Lokale Bereitstellung ohne Einrichtung auf CPUs, Apple Silicon oder Consumer-GPUs.
vLLM / SGLang SERVER: {model-name}-qat-w4a16-ct
MOBILE: {model-name}-qat-mobile-ct
Inferenz mit hohem Durchsatz unter Verwendung von 4‑Bit-Gewichten mit 16‑Bit-Aktivierungen.
Spekulative Decodierung MODELL: {model-name}-qat-q4_0-unquantized
VERFASSER: {model-name}-qat-q4_0-unquantized-assistant
Ein primäres Modell wird zusammen mit dem entsprechenden MTP-Entwurfsmodell ausgeführt, um die Tokengenerierung drastisch zu beschleunigen. Das Modell muss quantisiert sein.
Andere Formate {model-name}-qat-q4_0-unquantized Nicht quantisierte Gewichte für die Konvertierung in andere Formate (z.B. MLX)
Bereitstellung auf Mobilgeräten (Transformers) {model-name}-qat-mobile-transformers Für mobile Anwendungsfälle optimierte Kantengewichte. Sie dienen als Referenz für andere Formate.

Offizielle QAT-Sammlungen bei Hugging Face

  • collections/google/gemma-4-qat-q4-0
    • Unquantized QAT Checkpoints (-unquantized / -assistant): Halbpräzisionsgewichte, die direkt aus der QAT-Pipeline extrahiert werden. Sie eignen sich ideal für die benutzerdefinierte Downstream-Kompilierung, Forschung oder die Ausführung von spekulativer Dekodierung mit den Assistant-Draft-Modellen. Verfügbar für Gemma 4 E2B, E4B, 12B, 26B, A4B und 31B.
    • GGUF (-gguf): Checkpoints, die sofort im lokalen LLM-Ökosystem verwendet werden können. Verfügbar für Gemma 4 E2B, E4B, 12B, 26B, A4B und 31B.
    • Komprimierte Tensoren (-w4a16-ct): werden nativ im compressed-tensors-Standard für optimiertes Cloud-Serving mit hoher Parallelität serialisiert. Verfügbar für Gemma 4 E2B, E4B, 12B und 31B.
  • collections/google/gemma-4-qat-mobile
    • Für Mobilgeräte optimiert (-mobile-transformers / -mobile-ct): Basiert auf einem benutzerdefinierten wNa8o8-Schema, das speziell für die Einschränkungen von Mobilgerätehardware entwickelt wurde. Dabei werden gezielte 2-Bit-Decodierungsebenen, optimierte KV-Caches und statische Aktivierungen verwendet, um den On-Device-RAM-Verbrauch zu maximieren, ohne Edge-Prozessoren zu überlasten. Verfügbar für Gemma 4 E2B und E4B.

Alle offiziellen Gemma 4-QAT-Checkpoints sind auch direkt über Kaggle verfügbar.

Vorherige Gemma-Modelle

Sie können mit früheren Generationen von Gemma-Modellen arbeiten, die auch über Kaggle und Hugging Face verfügbar sind. Weitere technische Details zu früheren Gemma-Modellen finden Sie auf den folgenden Modellkartenseiten:

Sind Sie bereit? Erste Schritte mit Gemma-Modellen