Scheda del modello DiffusionGemma

Hugging Face | GitHub | Blog di lancio | Documentazione
Licenza: Apache 2.0 | Autori: Google DeepMind

DiffusionGemma è un modello generativo creato da Google DeepMind. Basato sull'architettura Gemma 4 Mixture-of-Experts (MoE) 26B A4B, DiffusionGemma genera token utilizzando la diffusione discreta. Questo modello open-weights è multimodale e gestisce input di testo, immagini e video per generare output di testo.

Basato su una base MoE, DiffusionGemma è progettato per migliorare la velocità di generazione (token al secondo) rimanendo implementabile in vari ambienti hardware. DiffusionGemma si basa sui progressi architettonici e delle funzionalità di Gemma 4, introducendo diverse funzionalità di base:

  • Discrete Text Diffusion: passa dalla regressione automatica token per token al campionamento multicanvas autoregressivo a blocchi. Genera testo denoise iterativamente blocchi di token (un "canvas") in parallelo, aumentando significativamente la velocità di decodifica.
  • Elaborazione dell'input multimodale: elabora input di testo, immagini (con supporto di risoluzione e proporzioni variabili) e video alternati per generare output di testo.
  • Architettura encoder-decoder: utilizza un encoder autoregressivo per elaborare e memorizzare nella cache il contesto del prompt, abbinato a un decoder che applica l'attenzione bidirezionale sul canvas di generazione.
  • Efficienza Mixture-of-Experts (MoE): sfrutta un design MoE sparso (8 esperti attivi su 128 totali) per fornire solide capacità di ragionamento mantenendo un footprint della memoria ridotto adatto all'esecuzione locale.
  • Modalità di pensiero (ragionamento): progettata come un ragionatore altamente capace, con modalità di pensiero configurabili.
  • Ottimizzato per l'inferenza con dimensioni ridotte dei batch: progettato specificamente per la generazione a bassa latenza e ad alta velocità su un singolo acceleratore in grado di supportarla.
  • Supporto dei prompt di sistema nativi: come per Gemma 4, supporta l'aggiornamento del ruolo system, consentendo conversazioni più strutturate e controllabili.

Panoramica del modello

DiffusionGemma è progettato per ridurre i colli di bottiglia sequenziali dei modelli linguistici causali standard. Utilizza un'architettura encoder-decoder specificamente ottimizzata per la velocità di inferenza.

L'encoder funziona in modalità di precompilazione, elaborando il prompt iniziale e generando la cache KV. Il decoder utilizza quindi l'attenzione bidirezionale per elaborare un blocco di input (una "tela") di token, accedendo al contesto memorizzato nella cache tramite l'attenzione incrociata.

Durante l'inferenza, DiffusionGemma utilizza il campionamento multicanvas. Anziché generare un token alla volta, il modello esegue il denoising iterativo di un blocco completo di token utilizzando un campionatore di diffusione. Una volta che una tela è completamente ripulita dal rumore, viene elaborata dal codificatore e aggiunta alla cache KV, dopodiché il modello genera la tela successiva. Questo approccio autoregressivo a blocchi facilita la generazione di testo a velocità più elevate.

DiffusionGemma

| Parametri totali | 25,2 miliardi | | Parametri attivi | 3,8 miliardi | | Livelli | 30 | | Finestra scorrevole | 1024 token | | Lunghezza del contesto | Fino a 256.000 token | | Lunghezza del canvas | 256 | | Dimensioni del vocabolario | 262.000 | | Numero di esperti | 8 attivi / 128 totali e 1 condiviso | | Modalità supportate | Testo, immagine | | Parametri del codificatore di visione | Circa 550 milioni |

Risultati benchmark

Questi modelli sono stati valutati in base a una vasta raccolta di diversi set di dati e metriche per coprire diversi aspetti della generazione di testo. I risultati della valutazione contrassegnati nella tabella si riferiscono a modelli ottimizzati per le istruzioni, con il campionatore Entropy Bound (EB) consigliato (vedi le best practice di seguito).

Benchmark DiffusionGemma 26B A4B Gemma 4 26B A4B
MMLU Pro 77,6% 82,6%
AIME 2026 no tools 69,1% 88,3%
LiveCodeBench v6 69,1% 77,1%
ELO Codeforces 1429 1718
GPQA Diamond 73,2% 82,3%
Tau2 (media su 3) 56,2% 68,2%
HLE no tools 11,0% 8,7%
HLE con la ricerca 11,9% 17,2%
BigBench Extra Hard 47,6% 64,8%
MMMLU 81,5% 86,3%
Vista
MMMU Pro 54,3% 73,8%
OmniDocBench 1.5 (distanza di modifica media, più basso è il valore, migliore è) 0,319 0,149
MATH-Vision 70,5% 82,4%
MedXPertQA MM 49% 58,1%
Contesto lungo
MRCR v2 8 needle 128k (media) 32,0% 44,1%

Funzionalità principali

DiffusionGemma gestisce un'ampia gamma di attività di testo e visione. Le funzionalità principali includono:

  • Generazione ad alta velocità: la riduzione del rumore parallela di 256 token tramite il campionamento della diffusione consente di ottenere una bassa latenza generando 15-20 token per passata in avanti, sbloccando velocità di generazione per utente superiori a 1100 token al secondo in impostazioni di dimensioni del batch basse (H100, FP8).
  • Calcolo adattivo del tempo di inferenza: i prompt più semplici e le attività strutturate come il codice richiedono meno passaggi di riduzione del rumore, consentendo velocità dinamiche di token al secondo in base alla complessità dell'attività.
  • Ragionamento: modalità di ragionamento integrata che consente al modello di pensare passo dopo passo prima di rispondere.
  • Contesto lungo: finestre contestuali fino a 256.000 token.
  • Comprensione delle immagini: rilevamento di oggetti, analisi di documenti/PDF, comprensione di schermate e interfacce utente, comprensione di grafici, OCR (inclusa la modalità multilingue), riconoscimento della scrittura a mano e puntamento. Le immagini possono essere elaborate con proporzioni e risoluzioni variabili.
  • Comprensione dei video: analizza e descrive i contenuti video elaborando sequenze di frame.
  • Input multimodale intercalato: combina immagini, video e testo in un unico prompt per un ragionamento ricco di contesto.
  • Chiamata di funzione: supporto nativo per l'utilizzo strutturato degli strumenti, che consente flussi di lavoro basati su agenti.
  • Programmazione e ragionamento: in grado di generare, completare e ragionare in modo logico passo dopo passo.
  • Multilingue: supporto predefinito per oltre 35 lingue, preaddestramento su più di 140 lingue.

Best practice

Per un rendimento ottimale, utilizza queste configurazioni e best practice:

1. Impostazioni di campionamento della diffusione

Utilizza la seguente configurazione di campionamento standardizzata in tutti i casi d'uso:

  • Metodo: campionamento della diffusione con riduzione del rumore con limite di entropia e interruzione adattiva.
  • Configurazione del campionamento:
    • Numero massimo di passaggi per la riduzione del rumore = 48
    • Programmazione della temperatura (per la modellazione logit): decadimento lineare da 0,8 a 0,4
    • Selezione dei token: a ogni passaggio, il campionatore seleziona i token con entropia minima in modo che il limite di informazione reciproca rimanga al di sotto del limite di entropia = 0,1.
    • Riduzione del rumore dei token: il campionatore riduce completamente il rumore dei token non selezionati
  • Arresto adattivo:il campionamento termina in anticipo se e solo se sono soddisfatte contemporaneamente entrambe le seguenti condizioni:
    • Previsioni affidabili: l'entropia media del modello sulla tela è inferiore alla soglia di entropia = 0,005
    • Previsioni stabili: le previsioni dei token con la probabilità più alta rimangono identiche in due passaggi di riduzione del rumore consecutivi

2. Configurazione della modalità di pensiero

Come per i modelli Gemma 4, utilizziamo i ruoli standard system, assistant e user. Per gestire correttamente il processo di pensiero, utilizza i seguenti token di controllo:

  • Trigger Thinking:il pensiero viene attivato includendo il token <|think|> all'inizio del prompt di sistema. Per disattivare il pensiero, rimuovi il token (tieni presente che potrebbe comunque essere emesso un canale di pensiero vuoto).
  • Generazione standard:quando il pensiero è attivato, il modello restituisce il suo ragionamento interno seguito dalla risposta finale utilizzando questa struttura: <|channel>thought\n[Ragionamento interno]<channel|>.
  • Comportamento di pensiero disattivato:se il pensiero è disattivato, il modello genererà comunque i tag, ma con un blocco di pensiero vuoto: <|channel>thought\n<channel|>[Final answer].

Tieni presente che molte librerie, come i transformer, gestiscono le complessità del modello di chat per te.

3. Conversazioni a più turni

  • Nessun contenuto di ragionamento nella cronologia: nelle conversazioni multi-turno, l'output del modello storico deve includere solo la risposta finale. I pensieri dei turni precedenti del modello non devono essere aggiunti prima dell'inizio del turno successivo dell'utente.

4. Ordine delle modalità

  • Per ottenere prestazioni ottimali con gli input multimodali, posiziona i contenuti delle immagini prima del testo nel prompt.

5. Risoluzione variabile dell'immagine

Oltre ai formati variabili, DiffusionGemma supporta la risoluzione variabile delle immagini tramite un budget di token visivi configurabile, che controlla il numero di token utilizzati per rappresentare un'immagine. Un budget di token più elevato preserva più dettagli visivi a costo di un calcolo aggiuntivo, mentre un budget inferiore consente un'inferenza più rapida per le attività che non richiedono una comprensione granulare.

  • I budget di token supportati sono: 70, 140, 280, 560 e 1120.
    • Utilizza budget inferiori per la classificazione, la sottotitolazione codificata o la comprensione dei video, dove l'inferenza più rapida e l'elaborazione di molti frame superano i dettagli granulari.
    • Utilizza budget più elevati per attività come OCR, analisi dei documenti o lettura di testi di piccole dimensioni.

6. Durata del video

Tutti i modelli supportano gli input di immagini e possono elaborare i video come fotogrammi. Il video supporta un massimo di 60 secondi, supponendo che le immagini vengano elaborate a un fotogramma al secondo.

Dati del modello

Dati utilizzati per l'addestramento del modello e modalità di elaborazione.

Set di dati di addestramento

Il nostro set di dati di preaddestramento è una raccolta di dati su larga scala e diversificata che comprende un'ampia gamma di domini e modalità, tra cui documenti web, codice, immagini e audio, con una data di interruzione di gennaio 2025. Ecco i componenti chiave:

  • Documenti web:una raccolta diversificata di testi web garantisce che il modello sia esposto a un'ampia gamma di stili linguistici, argomenti e vocabolario. Il set di dati di addestramento include contenuti in oltre 140 lingue.
  • Codice:l'esposizione del modello al codice consente di apprendere la sintassi e i pattern dei linguaggi di programmazione, il che migliora la sua capacità di generare codice e comprendere le domande relative al codice.
  • Matematica:l'addestramento su testi matematici aiuta il modello a imparare il ragionamento logico, la rappresentazione simbolica e a rispondere a domande di matematica.
  • Immagini: un'ampia gamma di immagini consente al modello di eseguire attività di analisi delle immagini ed estrazione di dati visivi.

La combinazione di queste diverse origini dati è fondamentale per l'addestramento di un potente modello multimodale in grado di gestire un'ampia varietà di attività e formati di dati diversi.

Pre-elaborazione dei dati

Di seguito sono riportati i principali metodi di pulizia e filtraggio dei dati applicati ai dati di addestramento:

  • Filtraggio del materiale pedopornografico:è stato applicato un rigoroso filtraggio del materiale pedopornografico in più fasi del processo di preparazione dei dati per garantire l'esclusione di contenuti dannosi e illegali.
  • Filtro dei dati sensibili: per rendere i modelli preaddestrati Gemma sicuri e affidabili, sono state utilizzate tecniche automatizzate per filtrare determinati dati personali e altri dati sensibili dai set di addestramento.
  • Metodi aggiuntivi: filtraggio in base alla qualità e alla sicurezza dei contenuti in linea con le nostre norme.

Etica e sicurezza

Man mano che i modelli aperti diventano fondamentali per l'infrastruttura aziendale, la provenienza e la sicurezza diventano di primaria importanza. Sviluppato da Google DeepMind, DiffusionGemma è sottoposto alle stesse rigorose valutazioni di sicurezza dei nostri modelli Gemini proprietari.

Approccio di valutazione

DiffusionGemma è stato sviluppato in collaborazione con team interni di sicurezza e AI responsabile. È stata condotta una serie di valutazioni automatiche e umane per contribuire a migliorare la sicurezza del modello. Queste valutazioni sono in linea con i principi dell'AI di Google, nonché con le norme per la sicurezza, che mirano a impedire ai nostri modelli di AI generativa di generare contenuti dannosi, tra cui:

  • Contenuti relativi a materiale pedopornografico e sfruttamento
  • Contenuti pericolosi (ad es. promozione del suicidio o istruzioni per attività che potrebbero causare danni nel mondo reale)
  • Contenuti sessualmente espliciti
  • Incitamento all'odio (ad es. disumanizzazione dei membri di gruppi protetti)
  • Molestie (ad es. incitamento alla violenza contro le persone)

Risultati della valutazione

Per tutte le aree dei test di sicurezza, abbiamo riscontrato miglioramenti significativi in tutte le categorie di sicurezza dei contenuti rispetto alle generazioni precedenti di modelli Gemma. Nel complesso, DiffusionGemma, come i modelli Gemma 4, supera in modo significativo i modelli Gemma 3 e 3n nel miglioramento della sicurezza, mantenendo bassi i rifiuti ingiustificati. Tutti i test sono stati condotti intenzionalmente senza filtri di sicurezza per valutare le capacità e i comportamenti di base del modello. Per la conversione da testo a testo e da immagine a testo, e per tutte le dimensioni del modello, il modello ha prodotto violazioni minime delle norme e ha mostrato miglioramenti significativi rispetto ai modelli Gemma precedenti.

Utilizzo e limitazioni

Questi modelli presentano alcune limitazioni di cui gli utenti devono essere a conoscenza.

Utilizzo previsto

I modelli multimodali (in grado di elaborare visione, linguaggio e/o audio) hanno un'ampia gamma di applicazioni in vari settori e domini. Il seguente elenco di potenziali utilizzi non è esaustivo. Lo scopo di questo elenco è fornire informazioni contestuali sui possibili casi d'uso che i creatori del modello hanno preso in considerazione nell'ambito dell'addestramento e dello sviluppo del modello.

  • Creazione di contenuti e comunicazione
    • Generazione di testo:genera formati di testo creativi come poesie, script, codice, testi di marketing e bozze di email.
    • Chatbot e AI conversazionale:alimentano interfacce conversazionali per servizi clienti, assistenti virtuali o applicazioni interattive.
    • Riepilogo del testo:genera riepiloghi concisi di un corpus di testo, documenti di ricerca o report.
    • Estrazione dei dati delle immagini: estrae, interpreta e riepiloga i dati visivi per le comunicazioni di testo.
  • Ricerca e istruzione
    • Ricerca sull'elaborazione del linguaggio naturale (NLP) e sui modelli linguistici di grandi dimensioni (VLM):funge da base per i ricercatori per sperimentare tecniche di VLM e NLP, sviluppare algoritmi e contribuire al progresso del settore.
    • Strumenti per l'apprendimento delle lingue: supportano esperienze di apprendimento interattive, aiutano a correggere la grammatica o forniscono esercizi di scrittura.
    • Esplorazione delle conoscenze:aiuta i ricercatori a esplorare grandi quantità di testo generando riepiloghi o rispondendo a domande su argomenti specifici.

Limitazioni

  • Dati di addestramento
    • La qualità e la diversità dei dati di addestramento influiscono in modo significativo sulle capacità del modello. Bias o lacune nei dati di addestramento possono portare a limitazioni nelle risposte del modello.
    • L'ambito del set di dati di addestramento determina gli argomenti che il modello può gestire in modo efficace.
  • Contesto e complessità dell'attività
    • Il modello funziona bene per le attività che possono essere inquadrate con prompt e istruzioni chiare. Le attività aperte o molto complesse potrebbero essere difficili.
    • Il rendimento del modello può essere influenzato dalla quantità di contesto fornita (un contesto più lungo generalmente porta a risultati migliori, fino a un certo punto).
  • Ambiguità e sfumature del linguaggio
    • Il linguaggio naturale è intrinsecamente complesso. Il modello potrebbe avere difficoltà a cogliere sfumature sottili, sarcasmo o linguaggio figurato.
  • Accuratezza fattuale
    • Il modello genera risposte basate sulle informazioni apprese dai set di dati di addestramento, ma non sono knowledge base. Potrebbe generare affermazioni fattuali errate o obsolete.
  • Common Sense
    • Il modello si basa su pattern statistici nel linguaggio. Potrebbe non essere in grado di applicare il ragionamento di buon senso in determinate situazioni.

Considerazioni etiche e rischi

Nella creazione di un modello open source di visione e linguaggio, abbiamo preso in considerazione attentamente quanto segue:

  • Pregiudizi ed equità
    • I VLM addestrati su dati di testo e immagini reali su larga scala possono riflettere i pregiudizi socio-culturali incorporati nel materiale di addestramento. DiffusionGemma è stato sottoposto a un attento esame, al pre-elaborazione dei dati di input e a valutazioni post-addestramento, come riportato in questa scheda, per contribuire a mitigare il rischio di questi pregiudizi.
  • Disinformazione e uso improprio
    • I modelli VLM possono essere utilizzati in modo improprio per generare testi falsi, fuorvianti o dannosi.
    • Per un utilizzo responsabile del modello, consulta le linee guida nel toolkit per l'AI generativa responsabile.
  • Trasparenza e responsabilizzazione
    • Questa scheda del modello riassume i dettagli sull'architettura, sulle funzionalità, sui limiti e sui processi di valutazione del modello.
    • Un modello aperto sviluppato in modo responsabile offre l'opportunità di condividere l'innovazione rendendo la tecnologia VLM accessibile a sviluppatori e ricercatori in tutto l'ecosistema dell'AI.

Rischi identificati e mitigazioni:

  • Generazione di contenuti dannosi: sono essenziali meccanismi e linee guida per la sicurezza dei contenuti. Gli sviluppatori sono invitati a prestare attenzione e a implementare misure di salvaguardia della sicurezza dei contenuti appropriate in base alle loro specifiche norme sui prodotti e ai casi d'uso delle applicazioni.
  • Uso improprio per scopi dannosi:limitazioni tecniche e formazione di sviluppatori e utenti finali possono contribuire a mitigare le applicazioni dannose dei modelli linguistici di grandi dimensioni. Vengono forniti risorse didattiche e meccanismi di segnalazione per consentire agli utenti di segnalare abusi.
  • Violazioni della privacy:i modelli sono stati addestrati su dati filtrati per la rimozione di determinate informazioni personali e altri dati sensibili. Gli sviluppatori sono incoraggiati a rispettare le normative sulla privacy con tecniche che tutelano la privacy.
  • Perpetuazione dei bias: è consigliabile eseguire un monitoraggio continuo (utilizzando metriche di valutazione e revisione umana) e l'esplorazione di tecniche di riduzione dei bias durante l'addestramento, l'ottimizzazione e altri casi d'uso del modello.

Vantaggi

Al momento del rilascio, questo è un modello open vision-language a bassa latenza e ad alte prestazioni che offre un'opzione interessante per gli sviluppatori e per chi è interessato alla ricerca sui modelli linguistici di diffusione. Il modello è progettato da zero per lo sviluppo di AI responsabile rispetto a modelli di dimensioni simili.