Hugging Face |
GitHub |
Launch Blog |
Dokumentation
Lizenz: Apache 2.0 | Autoren: Google DeepMind
DiffusionGemma ist ein generatives Modell, das von Google DeepMind entwickelt wurde. DiffusionGemma basiert auf der Gemma 4-Architektur mit 26 Milliarden Parametern und einer A4B-MoE-Architektur (Mixture of Experts) und generiert Tokens mithilfe von diskreter Diffusion. Dieses Modell mit offenen Gewichten ist multimodal und kann Text-, Bild- und Videoeingaben verarbeiten, um Textausgaben zu generieren.
DiffusionGemma basiert auf einer MoE-Grundlage und wurde entwickelt, um die Generierungsgeschwindigkeit (Tokens pro Sekunde) zu verbessern und gleichzeitig auf verschiedenen Hardwareumgebungen bereitgestellt werden zu können. DiffusionGemma baut auf den architektonischen und funktionalen Verbesserungen von Gemma 4 auf und bietet mehrere Kernfunktionen:
- Diskrete Textdiffusion: Hier wird von der Token-für-Token-Autoregression zur blockautoregressiven Multi-Canvas-Stichprobenerhebung gewechselt. Text wird generiert, indem Blöcke von Tokens (ein „Canvas“) parallel iterativ entrauscht werden. Dadurch wird die Decodierungsgeschwindigkeit deutlich erhöht.
- Verarbeitung multimodaler Eingaben: Verarbeitet verschachtelte Text-, Bild- (mit Unterstützung für variables Seitenverhältnis und variable Auflösung) und Videoeingaben, um Textausgaben zu generieren.
- Encoder-Decoder-Architektur: Hier wird ein autoregressiver Encoder verwendet, um den Prompt-Kontext zu verarbeiten und im Cache zu speichern. Außerdem wird ein Decoder verwendet, der bidirektionale Attention auf die Generierungsoberfläche anwendet.
- Effizienz von Mixture-of-Experts (MoE): Das Modell nutzt ein spärliches MoE-Design (8 aktive Experten von insgesamt 128), um starke Reasoning-Funktionen zu bieten und gleichzeitig einen geringen Speicherbedarf für die lokale Ausführung zu haben.
- Denkmodus (Schlussfolgerung): Dieses Modell ist als leistungsstarkes Modell für Schlussfolgerungen konzipiert und verfügt über konfigurierbare Denkmodi.
- Optimiert für Inferenz mit kleiner Batchgröße: Speziell für die Generierung mit niedriger Latenz und hoher Geschwindigkeit auf einem einzelnen leistungsstarken Beschleuniger entwickelt.
- Native Unterstützung von Systemprompts: Wie bei Gemma 4 wird die Aktualisierung der Rolle
systemunterstützt, was strukturiertere und besser steuerbare Unterhaltungen ermöglicht.
Modellübersicht
DiffusionGemma wurde entwickelt, um die sequenziellen Engpässe von standardmäßigen kausalen Sprachmodellen zu reduzieren. Dabei wird eine Encoder-Decoder-Architektur verwendet, die speziell für die Inferenzgeschwindigkeit optimiert ist.
Der Encoder arbeitet in einer Vorfüllkapazität, verarbeitet den ursprünglichen Prompt und generiert den KV-Cache. Der Decoder verwendet dann bidirektionale Aufmerksamkeit, um einen Eingabeblock (ein „Canvas“) von Tokens zu verarbeiten und über Cross-Attention auf den zwischengespeicherten Kontext zuzugreifen.
Während der Inferenz nutzt DiffusionGemma das Multi-Canvas-Sampling. Anstatt jeweils ein Token zu generieren, wird ein vollständiger Block von Tokens mit einem Diffusions-Sampler iterativ entrauscht. Sobald ein Canvas vollständig entrauscht wurde, wird er vom Encoder verarbeitet und an den KV-Cache angehängt. Danach generiert das Modell den nächsten Canvas. Dieser blockautoregressive Ansatz ermöglicht die Textgenerierung mit höherer Geschwindigkeit.
DiffusionGemma
| Gesamtanzahl der Parameter | 25,2 Mrd. | | Aktive Parameter | 3,8 Mrd. | | Ebenen | 30 | | Gleitendes Fenster | 1.024 Tokens | | Kontextlänge | Bis zu 256.000 Tokens | | Canvas-Länge | 256 | | Vokabulargröße | 262.000 | | Anzahl der Experten | 8 aktiv / 128 insgesamt und 1 gemeinsam | | Unterstützte Modalitäten | Text, Bild | | Parameter des Vision-Encoders | ~550 Mio. |
Benchmark-Ergebnisse
Diese Modelle wurden anhand einer großen Sammlung verschiedener Datasets und Messwerte bewertet, um unterschiedliche Aspekte der Textgenerierung abzudecken. Die in der Tabelle markierten Ergebnisse der Evaluierung beziehen sich auf instruction-tuned Modelle mit dem empfohlenen EB-Sampler (Entropy Bound, siehe Best Practices unten).
| Benchmark | DiffusionGemma 26B A4B | Gemma 4 26B A4B |
|---|---|---|
| MMLU Pro | 77,6% | 82,6% |
| AIME 2026 no tools | 69,1% | 88,3% |
| LiveCodeBench v6 | 69,1% | 77,1% |
| Codeforces-ELO | 1429 | 1718 |
| GPQA Diamond | 73,2 % | 82,3% |
| Tau2 (Durchschnitt über 3) | 56,2% | 68,2% |
| HLE ohne Tools | 11,0% | 8,7 % |
| HLE mit Suche | 11,9 % | 17,2 % |
| BigBench Extra Hard | 47,6% | 64,8% |
| MMMLU | 81,5% | 86,3% |
| Hilfen bei eingeschränktem Sehvermögen | ||
| MMMU Pro | 54,3% | 73,8% |
| OmniDocBench 1.5 (durchschnittliche Bearbeitungsdistanz, niedriger ist besser) | 0.319 | 0,149 |
| MATH-Vision | 70,5% | 82,4% |
| MedXPertQA MM | 49,0% | 58,1% |
| Langer Kontext | ||
| MRCR v2, 8 Nadeln, 128.000 (durchschnittlich) | 32,0% | 44,1% |
Hauptfunktionen
DiffusionGemma kann eine Vielzahl von Aufgaben in den Bereichen Text und Vision bewältigen. Zu den wichtigsten Funktionen gehören:
- Schnelle Generierung: Die parallele Rauschunterdrückung von 256 Tokens über Diffusion Sampling ermöglicht eine niedrige Latenz, da 15–20 Tokens pro Forward Pass generiert werden. So können bei niedrigen Batchgrößen (H100, FP8) Generierungsgeschwindigkeiten von über 1.100 Tokens pro Sekunde erreicht werden.
- Adaptive Berechnung der Inferenzzeit: Einfachere Prompts und strukturierte Aufgaben wie Code erfordern weniger Denoising-Schritte. So sind dynamische Token-pro-Sekunde-Geschwindigkeiten basierend auf der Komplexität der Aufgabe möglich.
- Thinking: Integrierter Modus für logisches Denken, in dem das Modell vor der Beantwortung Schritt für Schritt überlegt.
- Langer Kontext: Kontextfenster mit bis zu 256.000 Tokens.
- Bildverständnis: Objekterkennung, Dokument-/PDF-Parsing, Bildschirm- und UI-Verständnis, Diagrammverständnis, OCR (einschließlich mehrsprachiger OCR), Handschrifterkennung und Zeigen. Bilder können mit variablen Seitenverhältnissen und Auflösungen verarbeitet werden.
- Video Understanding: Analysiert und beschreibt Videoinhalte durch die Verarbeitung von Bildsequenzen.
- Verschachtelte multimodale Eingabe: Sie können Bilder, Videos und Text in einem einzigen Prompt kombinieren, um kontextbezogene Schlussfolgerungen zu ziehen.
- Funktionsaufrufe: Native Unterstützung für die strukturierte Verwendung von Tools, die Agent-Workflows ermöglichen.
- Programmieren und logisches Denken: Kann Code generieren und vervollständigen und Schritt für Schritt logisch denken.
- Mehrsprachig: Unterstützung für mehr als 35 Sprachen, vortrainiert auf mehr als 140 Sprachen.
Best Practices
Mit diesen Konfigurationen und Best Practices können Sie die bestmögliche Leistung erzielen:
1. Einstellungen für Diffusion-Sampling
Verwenden Sie für alle Anwendungsfälle die folgende standardisierte Stichprobenkonfiguration:
- Methode:Diffusion Sampling mit Entropy-Bounded Denoising und Adaptive Stopping.
- Konfiguration der Stichprobenerhebung:
- Maximale Anzahl der Schritte zum Entrauschen = 48
- Temperaturprogramm (für die Logit-Formung): Linearer Abfall von 0,8 → 0,4
- Tokenauswahl: In jedem Schritt wählt der Sampler die Tokens mit der niedrigsten Entropie aus, sodass die Grenze für die gegenseitigen Informationen unter der Entropiegrenze = 0,1 bleibt.
- Token-Renoising: Der Sampler führt ein vollständiges Renoising der nicht ausgewählten Tokens durch.
- Adaptives Beenden:Die Stichprobenerhebung wird nur dann vorzeitig beendet, wenn beide der folgenden Bedingungen gleichzeitig erfüllt sind:
- Zuverlässige Vorhersagen: Die durchschnittliche Modellentropie für den Canvas liegt unter dem Entropieschwellenwert = 0,005.
- Stabile Vorhersagen: Die Tokenvorhersagen mit der höchsten Wahrscheinlichkeit bleiben über zwei aufeinanderfolgende Denoising-Schritte hinweg identisch.
2. Thinking-Modus konfigurieren
Ähnlich wie bei Gemma 4-Modellen verwenden wir die Standardrollen system, assistant und user. Verwenden Sie die folgenden Steuerungstokens, um den Denkprozess richtig zu verwalten:
- Trigger Thinking:Der Thinking-Modus wird aktiviert, indem das Token
<|think|>am Anfang des System-Prompts eingefügt wird. Wenn Sie die Funktion deaktivieren möchten, entfernen Sie das Token. Es kann jedoch sein, dass trotzdem ein leerer „thinking“-Channel ausgegeben wird. - Standardgenerierung:Wenn die Denkfunktion aktiviert ist, gibt das Modell seine interne Argumentation gefolgt von der endgültigen Antwort in dieser Struktur aus:
<|channel>thought\n[Interne Argumentation]<channel|>. - Deaktiviertes Thinking-Verhalten:Wenn der Thinking-Modus deaktiviert ist, generiert das Modell weiterhin die Tags, aber mit einem leeren Thought-Block:
<|channel>thought\n<channel|>[Final answer].
Viele Bibliotheken wie Transformers übernehmen die Komplexität der Chatvorlage für Sie.
3. Unterhaltungen über mehrere Themen
- Keine Thinking-Inhalte im Verlauf: Bei Multi-Turn-Unterhaltungen sollte die bisherige Modellausgabe nur die endgültige Antwort enthalten. Gedanken aus vorherigen Modell-Turns dürfen nicht vor dem Beginn des nächsten Nutzer-Turns hinzugefügt werden.
4. Reihenfolge der Modalitäten
- Für eine optimale Leistung bei multimodalen Eingaben sollten Sie Bildinhalte vor dem Text in Ihrem Prompt platzieren.
5. Variable Bildauflösung
Neben variablen Seitenverhältnissen unterstützt DiffusionGemma auch variable Bildauflösungen über ein konfigurierbares visuelles Token-Budget, das steuert, wie viele Tokens zur Darstellung eines Bildes verwendet werden. Ein höheres Token-Budget bewahrt mehr visuelle Details, erfordert aber zusätzliche Rechenleistung. Ein niedrigeres Budget ermöglicht eine schnellere Inferenz für Aufgaben, die kein detailliertes Verständnis erfordern.
- Die unterstützten Token-Budgets sind 70, 140, 280, 560 und 1120.
- Verwenden Sie niedrigere Budgets für die Klassifizierung, Untertitelung oder Videoanalyse, bei denen eine schnellere Inferenz und die Verarbeitung vieler Frames wichtiger sind als detaillierte Informationen.
- Verwenden Sie höhere Budgets für Aufgaben wie OCR, Dokument-Parsing oder das Lesen von kleinem Text.
6. Videolänge
Alle Modelle unterstützen Bildeingaben und können Videos als Frames verarbeiten. Videos können maximal 60 Sekunden lang sein, wenn die Bilder mit einer Rate von einem Frame pro Sekunde verarbeitet werden.
Modelldaten
Daten, die für das Modelltraining verwendet wurden, und wie die Daten verarbeitet wurden.
Trainings-Dataset
Unser Vortrainings-Dataset ist eine umfangreiche, vielfältige Sammlung von Daten aus einer Vielzahl von Bereichen und Modalitäten, darunter Webdokumente, Code, Bilder und Audioinhalte. Das Cutoff-Datum ist Januar 2025. Hier sind die wichtigsten Komponenten:
- Webdokumente:Eine vielfältige Sammlung von Webtexten sorgt dafür, dass das Modell mit einer breiten Palette von sprachlichen Stilen, Themen und Vokabeln vertraut ist. Das Trainings-Dataset umfasst Inhalte in über 140 Sprachen.
- Code:Wenn das Modell Code sieht, kann es die Syntax und Muster von Programmiersprachen lernen. Dadurch wird seine Fähigkeit verbessert, Code zu generieren und codebezogene Fragen zu verstehen.
- Mathematik:Das Training mit mathematischen Texten hilft dem Modell, logische Schlussfolgerungen und symbolische Darstellungen zu lernen und mathematische Anfragen zu beantworten.
- Bilder:Eine Vielzahl von Bildern ermöglicht es dem Modell, Aufgaben zur Bildanalyse und zum Extrahieren visueller Daten auszuführen.
Die Kombination dieser verschiedenen Datenquellen ist entscheidend für das Training eines leistungsstarken multimodalen Modells, das eine Vielzahl von verschiedenen Aufgaben und Datenformaten bewältigen kann.
Datenvorverarbeitung
Hier sind die wichtigsten Methoden zur Datenbereinigung und -filterung, die auf die Trainingsdaten angewendet werden:
- Filtern von Darstellungen des sexuellen Missbrauchs von Kindern:In mehreren Phasen der Datenaufbereitung wurde eine strenge Filterung von Darstellungen des sexuellen Missbrauchs von Kindern angewendet, um schädliche und illegale Inhalte auszuschließen.
- Filterung vertraulicher Daten:Um Gemma-Modelle sicher und zuverlässig zu machen, wurden automatisierte Verfahren eingesetzt, um bestimmte personenbezogene Daten und andere vertrauliche Daten aus den Trainingssets herauszufiltern.
- Zusätzliche Methoden:Filtern basierend auf Inhaltsqualität und Sicherheit gemäß unseren Richtlinien.
Ethik und Sicherheit
Da offene Modelle für die Unternehmensinfrastruktur immer wichtiger werden, sind Herkunft und Sicherheit von größter Bedeutung. DiffusionGemma wurde von Google DeepMind entwickelt und unterliegt denselben strengen Sicherheitsprüfungen wie unsere proprietären Gemini-Modelle.
Evaluierungsansatz
DiffusionGemma wurde in Zusammenarbeit mit internen Teams für Sicherheit und verantwortungsbewusste KI entwickelt. Es wurden verschiedene automatisierte und manuelle Bewertungen durchgeführt, um die Sicherheit des Modells zu verbessern. Diese Bewertungen entsprechen den KI-Grundsätzen von Google sowie den Sicherheitsrichtlinien, die darauf abzielen, dass unsere generativen KI-Modelle keine schädlichen Inhalte generieren, darunter:
- Inhalte, die mit Darstellungen des sexuellen Missbrauchs von Kindern und Ausbeutung in Zusammenhang stehen
- Gefährliche Inhalte (z.B. Inhalte, in denen Suizid befürwortet wird, oder Anleitungen für Aktivitäten, die im wirklichen Leben zu Schäden und Verletzungen führen könnten)
- Sexuell explizite Inhalte
- Hassrede (z.B. Entmenschlichung von Mitgliedern geschützter Gruppen)
- Belästigung (z.B. Anstiftung zu Gewalt gegen Menschen)
Ergebnisse der Auswertung
In allen Bereichen der Sicherheitstests haben wir im Vergleich zu früheren Generationen von Gemma-Modellen erhebliche Verbesserungen in allen Kategorien der Inhaltssicherheit festgestellt. Insgesamt übertrifft DiffusionGemma, wie die Gemma 4-Modelle, die Gemma 3- und 3n-Modelle deutlich in Bezug auf die Verbesserung der Sicherheit, während unberechtigte Ablehnungen niedrig gehalten werden. Alle Tests wurden bewusst ohne Sicherheitsfilter durchgeführt, um die Rohfunktionen und das grundlegende Verhalten des Modells zu bewerten. Sowohl bei Text-zu-Text- als auch bei Bild-zu-Text-Anfragen und bei allen Modellgrößen hat das Modell nur minimale Richtlinienverstöße produziert und im Vergleich zu früheren Gemma-Modellen deutliche Verbesserungen gezeigt.
Nutzung und Einschränkungen
Diese Modelle haben bestimmte Einschränkungen, die Nutzer kennen sollten.
Vorgesehene Nutzung
Multimodale Modelle, die in der Lage sind, Bilder, Sprache und/oder Audio zu verarbeiten, haben ein breites Anwendungsspektrum in verschiedenen Branchen und Bereichen. Die folgende Liste potenzieller Anwendungsbereiche ist nicht vollständig. Diese Liste soll Kontextinformationen zu den möglichen Anwendungsfällen liefern, die die Modellersteller im Rahmen des Trainings und der Entwicklung des Modells berücksichtigt haben.
- Erstellung von Inhalten und Kommunikation
- Textgenerierung:Generiert kreative Textformate wie Gedichte, Drehbücher, Code, Marketingtexte und E‑Mail-Entwürfe.
- Chatbots und konversationelle KI:Ermöglicht konversationelle Benutzeroberflächen für Kundenservice, virtuelle Assistenten oder interaktive Anwendungen.
- Textzusammenfassung:Erstellt prägnante Zusammenfassungen eines Textkorpus, von Forschungsarbeiten oder Berichten.
- Bilddaten extrahieren:Visuelle Daten werden extrahiert, interpretiert und für die Textkommunikation zusammengefasst.
- Forschung und Bildung
- Forschung zu Natural Language Processing (NLP) und VLMs:Dient als Grundlage für Forscher, um mit VLM- und NLP-Techniken zu experimentieren, Algorithmen zu entwickeln und zur Weiterentwicklung des Bereichs beizutragen.
- Sprachlerntools:Unterstützen interaktive Sprachlernfunktionen, z. B. durch Grammatikkorrektur oder Schreibübungen.
- Wissenserkundung:Unterstützt Forscher bei der Analyse großer Textmengen, indem Zusammenfassungen erstellt oder Fragen zu bestimmten Themen beantwortet werden.
Einschränkungen
- Trainingsdaten
- Die Qualität und Vielfalt der Trainingsdaten haben einen erheblichen Einfluss auf die Fähigkeiten des Modells. Verzerrungen oder Lücken in den Trainingsdaten können zu Einschränkungen bei den Antworten des Modells führen.
- Der Umfang des Trainingsdatasets bestimmt die Themenbereiche, die das Modell effektiv abdecken kann.
- Kontext und Komplexität der Aufgabe
- Das Modell eignet sich gut für Aufgaben, die mit klaren Prompts und Anweisungen formuliert werden können. Offene oder hochkomplexe Aufgaben können eine Herausforderung darstellen.
- Die Leistung des Modells kann durch die Menge des bereitgestellten Kontexts beeinflusst werden. Ein längerer Kontext führt in der Regel zu besseren Ergebnissen, bis zu einem gewissen Punkt.
- Mehrdeutigkeit und Nuancen in der Sprache
- Natürliche Sprache ist von Natur aus komplex. Das Modell hat möglicherweise Schwierigkeiten, subtile Nuancen, Sarkasmus oder bildliche Sprache zu erfassen.
- Sachliche Richtigkeit
- Das Modell generiert Antworten auf der Grundlage von Informationen, die es aus seinen Trainingsdatasets gelernt hat. Diese sind jedoch keine Wissensdatenbanken. Es können falsche oder veraltete Faktenbehauptungen generiert werden.
- Common Sense
- Das Modell basiert auf statistischen Mustern in der Sprache. Es kann sein, dass sie in bestimmten Situationen keinen gesunden Menschenverstand anwenden kann.
Ethische Aspekte und Risiken
Beim Erstellen eines offenen Vision-Language-Modells haben wir Folgendes sorgfältig berücksichtigt:
- Verzerrung und Fairness
- VLMs, die mit umfangreichen, realen Text- und Bilddaten trainiert werden, können soziokulturelle Verzerrungen widerspiegeln, die im Trainingsmaterial enthalten sind. DiffusionGemma wurde sorgfältig geprüft, die Eingabedaten wurden vorverarbeitet und es wurden Nachbearbeitungsevaluierungen durchgeführt, wie auf dieser Karte beschrieben, um das Risiko dieser Verzerrungen zu minimieren.
- Fehlinformationen und Missbrauch
- VLMs können missbraucht werden, um Text zu generieren, der falsch, irreführend oder schädlich ist.
- Richtlinien für die verantwortungsbewusste Nutzung des Modells finden Sie im Toolkit für verantwortungsbewusste generative KI.
- Transparenz und Rechenschaftspflicht
- Diese Modellkarte fasst Details zur Architektur, zu den Funktionen, Einschränkungen und Bewertungsverfahren des Modells zusammen.
- Ein verantwortungsvoll entwickeltes offenes Modell bietet die Möglichkeit, Innovationen zu teilen, indem VLM-Technologie für Entwickler und Forscher im gesamten KI-Ökosystem zugänglich gemacht wird.
Identifizierte Risiken und Risikominderungen:
- Generierung schädlicher Inhalte:Mechanismen und Richtlinien für die Sicherheit von Inhalten sind unerlässlich. Entwickler sollten Vorsicht walten lassen und geeignete Sicherheitsvorkehrungen für Inhalte auf Grundlage ihrer spezifischen Produktrichtlinien und Anwendungsfälle implementieren.
- Missbrauch für böswillige Zwecke:Technische Einschränkungen sowie Informationen für Entwickler und Endnutzer können dazu beitragen, böswillige Anwendungen von VLMs zu verhindern. Es werden Bildungsressourcen und Meldemechanismen für Nutzer bereitgestellt, um Missbrauch zu melden.
- Datenschutzverstöße:Modelle wurden mit Daten trainiert, die gefiltert wurden, um bestimmte personenbezogene Daten und andere vertrauliche Daten zu entfernen. Entwickler werden aufgefordert, Datenschutzbestimmungen mit datenschutzfreundlichen Techniken einzuhalten.
- Verfestigung von Vorurteilen: Es wird empfohlen, während des Modelltrainings, der Feinabstimmung und anderer Anwendungsfälle eine kontinuierliche Überwachung (mit Bewertungsmetriken, manueller Überprüfung) durchzuführen und Techniken zur Reduzierung von Vorurteilen zu untersuchen.
Vorteile
Zum Zeitpunkt der Veröffentlichung ist dies ein offenes Vision-Language-Modell mit geringer Latenz und hoher Leistung, das eine attraktive Option für Entwickler und Personen darstellt, die sich für die Erforschung von Diffusions-Sprachmodellen interessieren. Das Modell wurde von Grund auf für die verantwortungsbewusste Entwicklung von KI konzipiert und ist damit Modellen ähnlicher Größe überlegen.