DiffusionGemma è un modello aperto sperimentale che esplora la diffusione del testo, un approccio eccezionalmente rapido alla generazione di testo. Basato sull'architettura Gemma 4 Mixture-of-Experts (MoE) da 26 miliardi (4 miliardi attivi), DiffusionGemma genera token utilizzando la diffusione discreta. Questo modello open-weights è multimodale e gestisce input di testo, immagini e video per generare output di testo.
Basato su una base MoE, DiffusionGemma è progettato per migliorare la velocità di generazione (token al secondo) rimanendo implementabile in vari ambienti hardware. DiffusionGemma si basa sui progressi architettonici e delle funzionalità di Gemma 4, introducendo diverse funzionalità di base:
- Discrete Text Diffusion: si allontana dalla generazione tradizionale di token causali per passare al campionamento multicanvas autoregressivo a blocchi. Il modello genera testo rimuovendo iterativamente il rumore dai blocchi di token (una "tela") in parallelo per aumentare notevolmente la velocità di decodifica.
- Elaborazione multimodale:accetta in modo nativo testo, immagini (con supporto di proporzioni e risoluzione variabili) e input video. (Nota: l'input audio non è supportato).
- Architettura encoder-decoder:utilizza un encoder autoregressivo per elaborare e memorizzare nella cache il contesto del prompt, abbinato alla rimozione del rumore che applica l'attenzione bidirezionale sulla tela di generazione.
- Efficienza di Mixture-of-Experts (MoE):utilizza un design MoE sparso basato sulla variante MoE 26B (4B attiva), offrendo funzionalità di ragionamento approfondito con un overhead minimo. Quando viene quantizzato, rientra nei limiti di 18 GB di VRAM delle GPU consumer, ideale per l'esecuzione locale.
- Modalità di pensiero:i canali di ragionamento configurabili integrati consentono al modello di pensare passo dopo passo prima di emettere una risposta finale.
Compromesso con i modelli tradizionali
Sebbene i modelli linguistici tradizionali siano molto efficienti per i deployment cloud su larga scala perché possono raggruppare migliaia di richieste, eseguirli localmente per un singolo utente lascia l'hardware sottoutilizzato. DiffusionGemma risolve questo problema generando contemporaneamente un intero blocco di 256 token anziché un token alla volta, massimizzando le prestazioni dell'hardware locale.
Tuttavia, questo approccio è strettamente rivolto all'uso locale a bassa concorrenza rivolto ai consumatori, poiché la decodifica parallela offre rendimenti decrescenti con carichi di lavoro cloud QPS elevati. Il vantaggio di velocità effettiva è più forte con dimensioni dei batch basse o medie su un singolo acceleratore.
Configurazione di pubblicazione consigliata
Per una latenza e una qualità ottimali, ti consigliamo di eseguire il deployment con i seguenti parametri predefiniti per le impostazioni di campionamento della diffusione:
| Parametro | Valore consigliato | Funzione | Motivazione |
|---|---|---|---|
| Numero massimo di passaggi per la riduzione del rumore | 48 | Limite superiore al numero di passaggi per la riduzione del rumore per tela. | Un limite sicuro al numero di passaggi per la riduzione del rumore. La riduzione del rumore si interrompe in meno passaggi quando l'interruzione adattiva è abilitata, in genere 12-16 passaggi a seconda dell'attività. |
| Programmazione della temperatura | Lineare 0,8 -> 0,4 | Pianificazione della scalabilità della temperatura che inizia con un valore elevato e si riduce in funzione dei passaggi di riduzione del rumore. | Una temperatura elevata (0,8) incoraggia l'esplorazione iniziale, mentre una temperatura bassa (0,4) blocca i token finali. |
| Interruzione anticipata adattiva | Soglia di entropia: 0,005 | Interrompe l'esecuzione in anticipo se A) l'entropia media del modello sulla tela è inferiore alla soglia e B) se due previsioni consecutive del denoiser rimangono identiche. |
Prompt più semplici e attività strutturate come il codice richiedono meno passaggi di riduzione del rumore, consentendo velocità dinamiche di token al secondo in base alla complessità dell'attività. |
| Selezione del token | Limite di entropia: 0,1 | A ogni passaggio, il campionatore seleziona i token con entropia più bassa in modo che il limite di informazione reciproca rimanga al di sotto del limite di entropia. Il campionatore esegue il denoising completo dei token non selezionati. | Garantisce che vengano selezionati solo i token su cui il modello è relativamente certo per perfezionare il canvas, lasciando gli altri token da perfezionare nei passaggi di riduzione del rumore successivi. |
Scaricalo da Hugging Face Scaricalo da Kaggle Accedi su Vertex
Accedi ai pesi del modello sperimentale (rilasciati con licenza Apache 2.0), che ti consentono di eseguirne il deployment nei tuoi progetti e nelle tue applicazioni.
Scopri di più sull'architettura di DiffusionGemma Prova DiffusionGemma
Ottimizza DiffusionGemma Esegui il deployment di DiffusionGemma