Gemma 4 è stato rilasciato con input di testo, audio e immagini e una finestra contestuale lunga fino a 256.000 token. Scopri di più

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Panoramica del modello DiffusionGemma

DiffusionGemma è un modello aperto sperimentale che esplora la diffusione del testo, un approccio eccezionalmente rapido alla generazione di testo. Basato sull'architettura Gemma 4 Mixture-of-Experts (MoE) da 26 miliardi (4 miliardi attivi), DiffusionGemma genera token utilizzando la diffusione discreta. Questo modello open-weights è multimodale e gestisce input di testo, immagini e video per generare output di testo.

Basato su una base MoE, DiffusionGemma è progettato per migliorare la velocità di generazione (token al secondo) rimanendo implementabile in vari ambienti hardware. DiffusionGemma si basa sui progressi architettonici e delle funzionalità di Gemma 4, introducendo diverse funzionalità di base:

Discrete Text Diffusion: si allontana dalla generazione tradizionale di token causali per passare al campionamento multicanvas autoregressivo a blocchi. Il modello genera testo rimuovendo iterativamente il rumore dai blocchi di token (una "tela") in parallelo per aumentare notevolmente la velocità di decodifica.
Elaborazione multimodale:accetta in modo nativo testo, immagini (con supporto di proporzioni e risoluzione variabili) e input video. (Nota: l'input audio non è supportato).
Architettura encoder-decoder:utilizza un encoder autoregressivo per elaborare e memorizzare nella cache il contesto del prompt, abbinato alla rimozione del rumore che applica l'attenzione bidirezionale sulla tela di generazione.
Efficienza di Mixture-of-Experts (MoE):utilizza un design MoE sparso basato sulla variante MoE 26B (4B attiva), offrendo funzionalità di ragionamento approfondito con un overhead minimo. Quando viene quantizzato, rientra nei limiti di 18 GB di VRAM delle GPU consumer, ideale per l'esecuzione locale.
Modalità di pensiero:i canali di ragionamento configurabili integrati consentono al modello di pensare passo dopo passo prima di emettere una risposta finale.

Compromesso con i modelli tradizionali

Sebbene i modelli linguistici tradizionali siano molto efficienti per i deployment cloud su larga scala perché possono raggruppare migliaia di richieste, eseguirli localmente per un singolo utente lascia l'hardware sottoutilizzato. DiffusionGemma risolve questo problema generando contemporaneamente un intero blocco di 256 token anziché un token alla volta, massimizzando le prestazioni dell'hardware locale.

Tuttavia, questo approccio è strettamente rivolto all'uso locale a bassa concorrenza rivolto ai consumatori, poiché la decodifica parallela offre rendimenti decrescenti con carichi di lavoro cloud QPS elevati. Il vantaggio di velocità effettiva è più forte con dimensioni dei batch basse o medie su un singolo acceleratore.

Configurazione di pubblicazione consigliata

Per una latenza e una qualità ottimali, ti consigliamo di eseguire il deployment con i seguenti parametri predefiniti per le impostazioni di campionamento della diffusione:

Parametro	Valore consigliato	Funzione	Motivazione
Numero massimo di passaggi per la riduzione del rumore	48	Limite superiore al numero di passaggi per la riduzione del rumore per tela.	Un limite sicuro al numero di passaggi per la riduzione del rumore. La riduzione del rumore si interrompe in meno passaggi quando l'interruzione adattiva è abilitata, in genere 12-16 passaggi a seconda dell'attività.
Programmazione della temperatura	Lineare 0,8 -> 0,4	Pianificazione della scalabilità della temperatura che inizia con un valore elevato e si riduce in funzione dei passaggi di riduzione del rumore.	Una temperatura elevata (0,8) incoraggia l'esplorazione iniziale, mentre una temperatura bassa (0,4) blocca i token finali.
Interruzione anticipata adattiva	Soglia di entropia: 0,005	Interrompe l'esecuzione in anticipo se A) l'entropia media del modello sulla tela è inferiore alla soglia e B) se due previsioni consecutive del denoiser rimangono identiche.	Prompt più semplici e attività strutturate come il codice richiedono meno passaggi di riduzione del rumore, consentendo velocità dinamiche di token al secondo in base alla complessità dell'attività.
Selezione del token	Limite di entropia: 0,1	A ogni passaggio, il campionatore seleziona i token con entropia più bassa in modo che il limite di informazione reciproca rimanga al di sotto del limite di entropia. Il campionatore esegue il denoising completo dei token non selezionati.	Garantisce che vengano selezionati solo i token su cui il modello è relativamente certo per perfezionare il canvas, lasciando gli altri token da perfezionare nei passaggi di riduzione del rumore successivi.

Scaricalo da Hugging Face Scaricalo da Kaggle Accedi su Vertex

Accedi ai pesi del modello sperimentale (rilasciati con licenza Apache 2.0), che ti consentono di eseguirne il deployment nei tuoi progetti e nelle tue applicazioni.

Scopri di più sull'architettura di DiffusionGemma Prova DiffusionGemma

Ottimizza DiffusionGemma Esegui il deployment di DiffusionGemma