DiffusionGemma-Modell – Übersicht

DiffusionGemma ist ein experimentelles offenes Modell, das die Textdiffusion untersucht, einen außergewöhnlich schnellen Ansatz zur Textgenerierung. DiffusionGemma basiert auf der Gemma 4-Architektur mit 26 Milliarden Parametern (4 Milliarden aktiv) und Mixture-of-Experts (MoE) und generiert Tokens mithilfe von diskreter Diffusion. Dieses Modell mit offenen Gewichten ist multimodal und kann Text-, Bild- und Videoeingaben verarbeiten, um Textausgaben zu generieren.

DiffusionGemma basiert auf einer MoE-Grundlage und wurde entwickelt, um die Generierungsgeschwindigkeit (Tokens pro Sekunde) zu verbessern und gleichzeitig auf verschiedenen Hardwareumgebungen bereitgestellt werden zu können. DiffusionGemma baut auf den architektonischen und funktionalen Verbesserungen von Gemma 4 auf und bietet mehrere Kernfunktionen:

  • Diskrete Textdiffusion:Hier wird nicht mehr auf die herkömmliche kausale Token-Generierung gesetzt, sondern auf die block-autoregressive Multi-Canvas-Stichprobenerhebung. Das Modell generiert Text, indem es Blöcke von Tokens (ein „Canvas“) iterativ parallel entrauscht, um die Decodierungsgeschwindigkeit erheblich zu steigern.
  • Multimodale Verarbeitung:Akzeptiert nativ Text-, Bild- (mit variabler Unterstützung für Seitenverhältnis und Auflösung) und Videoeingaben. Hinweis: Audioeingabe wird nicht unterstützt.
  • Encoder-Decoder-Architektur:Hier wird ein autoregressiver Encoder verwendet, um den Prompt-Kontext zu verarbeiten und im Cache zu speichern. Außerdem wird ein Denoising-Verfahren angewendet, bei dem bidirektionale Attention auf die Generierungsoberfläche angewendet wird.
  • Effizienz von Mixture-of-Experts (MoE):Das Modell nutzt ein spärliches MoE-Design, das auf der 26B-MoE-Variante (4B aktiv) basiert. Es bietet umfassende Reasoning-Funktionen bei minimalem Overhead. Bei der Quantisierung passt es in die VRAM-Grenzwerte von 18 GB von Consumer-GPUs und ist daher ideal für die lokale Ausführung.
  • Denkmodus:Integrierte konfigurierbare Kanäle für logisches Denken ermöglichen es dem Modell, schrittweise zu denken, bevor es eine endgültige Antwort ausgibt.

Kompromiss mit traditionellen Modellen

Herkömmliche Sprachmodelle sind zwar sehr effizient für groß angelegte Cloud-Bereitstellungen, da sie Tausende von Anfragen in einem Batch verarbeiten können. Wenn sie jedoch lokal für einen einzelnen Nutzer ausgeführt werden, wird die Hardware nicht optimal genutzt. DiffusionGemma löst dieses Problem, indem es einen ganzen 256-Token-Block gleichzeitig generiert und nicht ein Token nach dem anderen. So wird die Leistung der lokalen Hardware maximiert.

Dieser Ansatz ist jedoch ausschließlich für die lokale Nutzung durch Verbraucher mit geringer Parallelität vorgesehen. Da die parallele Decodierung bei Cloud-Arbeitslasten mit hohem QPS nur noch geringe Vorteile bietet, ist der Durchsatzvorteil bei kleinen bis mittleren Batchgrößen auf einem einzelnen Beschleuniger am größten.

Für optimale Latenz und Qualität empfehlen wir, die folgenden Standardparameter für die Einstellungen für das Diffusion-Sampling zu verwenden:

Parameter Empfohlener Wert Funktion Begründung
Maximale Anzahl der Schritte zum Entrauschen 48 Obergrenze für die Anzahl der Schritte zum Entrauschen pro Canvas. Eine sichere Grenze für die Anzahl der Schritte zum Entrauschen. Wenn die adaptive Beendigung aktiviert ist, wird die Rauschunterdrückung in weniger Schritten beendet, in der Regel in 12 bis 16 Schritten, je nach Aufgabe.
Temperaturprogramm Linear 0,8 –> 0,4 Temperaturskalierungsplan, der hoch beginnt und mit zunehmender Anzahl von Denoising-Schritten abnimmt. Eine hohe Temperatur (0,8) fördert die frühe Erkundung, eine niedrige Temperatur (0,4) fixiert die endgültigen Tokens.
Adaptives vorzeitiges Beenden Entropieschwellenwert: 0,005 Die Ausführung wird frühzeitig beendet, wenn
A) die durchschnittliche Modellentropie für den Canvas unter dem Grenzwert liegt und
B) zwei aufeinanderfolgende Denoiser-Vorhersagen identisch bleiben.
Einfachere Prompts und strukturierte Aufgaben wie Code erfordern weniger Denoising-Schritte, was dynamische Token pro Sekunde basierend auf der Komplexität der Aufgabe ermöglicht.
Tokenauswahl Entropie-Grenzwert: 0,1 In jedem Schritt wählt der Sampler die Tokens mit der niedrigsten Entropie aus, sodass die Grenze für die gegenseitigen Informationen unter der Entropiegrenze bleibt. Der Sampler führt für die nicht ausgewählten Tokens ein vollständiges Rauschen durch. So werden nur Tokens ausgewählt, bei denen sich das Modell relativ sicher ist, um den Arbeitsbereich zu optimieren. Andere Tokens werden in späteren Denoising-Schritten optimiert.

Auf Hugging Face herunterladen Auf Kaggle herunterladen In Vertex aufrufen

Sie haben Zugriff auf die experimentellen Modellgewichte, die unter der Apache 2.0-Lizenz veröffentlicht werden. So können Sie das Modell in Ihren eigenen Projekten und Anwendungen bereitstellen.

Weitere Informationen zur DiffusionGemma-Architektur DiffusionGemma ausprobieren

DiffusionGemma abstimmen DiffusionGemma bereitstellen