Scheda del modello Gemma 4

Banner Gemma 4

Hugging Face | GitHub | Blog di lancio | Documentazione
Licenza: Apache 2.0 | Autori: Google DeepMind

Gemma è una famiglia di modelli aperti creati da Google DeepMind. I modelli Gemma 4 sono multimodali, gestiscono input di testo e immagini (con audio supportato sui modelli di piccole dimensioni) e generano output di testo. Questa release include modelli open-weights in entrambe le varianti pre-addestrate e ottimizzate per le istruzioni. Gemma 4 ha una finestra contestuale di un massimo di 256.000 token e mantiene il supporto multilingue in oltre 140 lingue.

Caratterizzato da architetture Dense e Mixture-of-Experts (MoE), Gemma 4 è adatto ad attività come la generazione di testo, la programmazione e il ragionamento. I modelli sono disponibili in quattro dimensioni distinte: E2B, E4B, 26B A4B e 31B. Le loro diverse dimensioni consentono di utilizzarli in ambienti che vanno dagli smartphone di fascia alta ai laptop e ai server, democratizzando l'accesso all'AI all'avanguardia.

Gemma 4 introduce funzionalità e progressi architetturali chiave:

  • Ragionamento: tutti i modelli della famiglia sono progettati per essere ragionatori altamente capaci, con modalità di pensiero configurabili.

  • Multimodalità estese: elabora testo, immagini con supporto di risoluzione e proporzioni variabili (tutti i modelli), video e audio (funzionalità integrata nei modelli E2B ed E4B).

  • Architetture diverse ed efficienti: offre varianti dense e Mixture-of-Experts (MoE) di dimensioni diverse per un deployment scalabile.

  • Ottimizzati per il dispositivo: i modelli più piccoli sono progettati specificamente per un'esecuzione locale efficiente su laptop e dispositivi mobili.

  • Finestra contestuale più ampia: i modelli piccoli hanno una finestra contestuale di 128.000, mentre i modelli medi supportano 256.000.

  • Funzionalità di codifica e agenti avanzate: ottiene miglioramenti notevoli nei benchmark di codifica insieme al supporto nativo per la chiamata di funzioni, alimentando agenti autonomi altamente capaci.

  • Supporto dei prompt di sistema nativi: Gemma 4 introduce il supporto nativo per il ruolo system, consentendo conversazioni più strutturate e controllabili.

Panoramica dei modelli

I modelli Gemma 4 sono progettati per offrire prestazioni di livello avanzato in ogni dimensione, con l'obiettivo di scenari di deployment che vanno dai dispositivi mobili e periferici (E2B, E4B) alle GPU e alle workstation consumer (26B A4B, 31B). Sono adatti a ragionamento, workflow agentici, programmazione e comprensione multimodale.

I modelli utilizzano un meccanismo di attenzione ibrido che alterna l'attenzione della finestra scorrevole locale con l'attenzione globale completa, garantendo che l'ultimo livello sia sempre globale. Questo design ibrido offre la velocità di elaborazione e l'ingombro di memoria ridotto di un modello leggero senza sacrificare la consapevolezza profonda necessaria per attività complesse e con un contesto lungo. Per ottimizzare la memoria per contesti lunghi, i livelli globali sono caratterizzati da chiavi e valori unificati e applicano Proportional RoPE (p-RoPE).

Modelli densi

Proprietà E2B E4B 31B Dense
Parametri totali 2,3 miliardi di parametri effettivi (5,1 miliardi con gli incorporamenti) 4,5 miliardi effettivi (8 miliardi con incorporamenti) 30,7 MLD
Livelli 35 42 60
Finestra scorrevole 512 token 512 token 1024 token
Lunghezza del contesto 128.000 token 128.000 token 256.000 token
Dimensioni del vocabolario 262.000 262.000 262.000
Modalità supportate Testo, immagine, audio Testo, immagine, audio Testo, immagine
Parametri dell'encoder Vision Circa 150 milioni Circa 150 milioni ~550 milioni
Parametri del codificatore audio ~300 milioni ~300 milioni Nessun audio

La "E" in E2B ed E4B indica i parametri "efficaci". I modelli più piccoli incorporano gli incorporamenti per livello (PLE) per massimizzare l'efficienza dei parametri nelle implementazioni sul dispositivo. Anziché aggiungere altri livelli o parametri al modello, PLE assegna a ogni livello del decodificatore un piccolo embedding per ogni token. Queste tabelle di incorporamento sono grandi, ma vengono utilizzate solo per ricerche rapide, motivo per cui il conteggio effettivo dei parametri è molto inferiore al totale.

Modello Mixture of Experts (MoE)

Proprietà 26B A4B MoE
Parametri totali 25,2 Mld
Parametri attivi 3,8 MLD
Livelli 30
Finestra scorrevole 1024 token
Lunghezza del contesto 256.000 token
Dimensioni del vocabolario 262.000
Conteggio esperti 8 attivi / 128 totali e 1 condiviso
Modalità supportate Testo, immagine
Parametri dell'encoder Vision ~550 milioni

La "A" in 26B A4B sta per "parametri attivi" in contrasto con il numero totale di parametri contenuti nel modello. Attivando solo un sottoinsieme di 4 miliardi di parametri durante l'inferenza, il modello Mixture-of-Experts viene eseguito molto più velocemente di quanto potrebbe suggerire il totale di 26 miliardi. Ciò lo rende una scelta eccellente per l'inferenza veloce rispetto al modello denso da 31 miliardi di parametri, poiché viene eseguito quasi alla stessa velocità di un modello da 4 miliardi di parametri.

Risultati benchmark

Questi modelli sono stati valutati in base a una vasta raccolta di diversi set di dati e metriche per coprire diversi aspetti della generazione di testo. I risultati della valutazione contrassegnati nella tabella si riferiscono ai modelli ottimizzati per le istruzioni.

Gemma 4 31B Gemma 4 26B A4B Gemma 4 E4B Gemma 4 E2B Gemma 3 27B (no think)
MMLU Pro 85,2% 82,6% 69,4% 60,0% 67,6%
AIME 2026 no tools 89,2% 88,3% 42,5% 37,5% 20,8%
LiveCodeBench v6 80,0% 77,1% 52,0% 44,0% 29,1%
ELO Codeforces 2150 1718 940 633 110
GPQA Diamond 84,3% 82,3% 58,6% 43,4% 42,4%
Tau2 (media su 3) 76,9% 68,2% 42,2% 24,5% 16,2%
HLE no tools 19,5% 8,7% - - -
HLE con la ricerca 26,5% 17,2% - - -
BigBench Extra Hard 74,4% 64,8% 33,1% 21,9% 19,3%
MMMLU 88,4% 86,3% 76,6% 67,4% 70,7%
Vista
MMMU Pro 76,9% 73,8% 52,6% 44,2% 49,7%
OmniDocBench 1.5 (distanza di modifica media, minore è il valore, migliore è il risultato) 0,131 0,149 0,181 0,290 0,365
MATH-Vision 85,6% 82,4% 59,5% 52,4% 46,0%
MedXPertQA MM 61,3% 58,1% 28,7% 23,5% -
Audio
CoVoST - - 35,54 33,47 -
FLEURS (valore inferiore è migliore) - - 0,08 0,09 -
Contesto lungo
MRCR v2 8 needle 128k (media) 66,4% 44,1% 25,4% 19,1% 13,5%

Funzionalità principali

I modelli Gemma 4 gestiscono un'ampia gamma di attività relative a testo, visione e audio. Le funzionalità principali includono:

  • Pensiero: modalità di ragionamento integrata che consente al modello di pensare passo dopo passo prima di rispondere.
  • Contesto lungo: finestre contestuali fino a 128.000 token (E2B/E4B) e 256.000 token (26B A4B/31B).
  • Comprensione delle immagini: rilevamento degli oggetti, analisi di documenti/PDF, comprensione di schermate e interfacce utente, comprensione di grafici, OCR (inclusa la modalità multilingue), riconoscimento della scrittura a mano e puntamento. Le immagini possono essere elaborate con proporzioni e risoluzioni variabili.
  • Comprensione dei video: analizza i video elaborando sequenze di frame.
  • Input multimodale intercalato: combina liberamente testo e immagini in qualsiasi ordine all'interno di un singolo prompt.
  • Chiamata di funzione: supporto nativo per l'utilizzo strutturato degli strumenti, che consente flussi di lavoro basati su agenti.
  • Programmazione: generazione, completamento e correzione del codice.
  • Multilingue: supporto predefinito per oltre 35 lingue, preaddestramento su più di 140 lingue.
  • Audio (solo E2B ed E4B) – Riconoscimento vocale automatico (ASR) e traduzione da voce a testo tradotto in più lingue.

Per iniziare

Puoi utilizzare tutti i modelli Gemma 4 con l'ultima versione di Transformers. Per iniziare, installa le dipendenze necessarie nel tuo ambiente:

pip install -U transformers torch accelerate

Una volta installato tutto, puoi procedere a caricare il modello con il codice riportato di seguito:

import torch
from transformers import AutoProcessor, AutoModelForCausalLM

MODEL_ID = "google/gemma-4-E2B-it"

# Load model
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    dtype=torch.bfloat16,
    device_map="auto"
)

Una volta caricato il modello, puoi iniziare a generare l'output:

# Prompt
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Write a short joke about saving RAM."},
]

# Process input
text = processor.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False
)
inputs = processor(text=text, return_tensors="pt").to(model.device)
input_len = inputs["input_ids"].shape[-1]

# Generate output
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)

# Parse thinking
processor.parse_response(response)

Per attivare il ragionamento, imposta enable_thinking=True e la funzione parse_response si occuperà di analizzare l'output del pensiero.

Best practice

Per un rendimento ottimale, utilizza queste configurazioni e best practice:

1. Parametri di campionamento

Utilizza la seguente configurazione di campionamento standardizzata in tutti i casi d'uso:

  • temperature=1.0
  • top_p=0.95
  • top_k=64

2. Configurazione della modalità di pensiero

Rispetto a Gemma 3, i modelli utilizzano ruoli standard system, assistant e user. Per gestire correttamente il processo di pensiero, utilizza i seguenti token di controllo:

  • Attivatore di pensiero:il pensiero viene attivato includendo il token <|think|> all'inizio del prompt di sistema. Per disattivare la funzionalità di pensiero, rimuovi il token.
  • Generazione standard:quando il pensiero è attivato, il modello restituisce il suo ragionamento interno seguito dalla risposta finale utilizzando questa struttura: <|channel>thought\n[Ragionamento interno]<channel|>
  • Comportamento di pensiero disattivato:per tutti i modelli, ad eccezione delle varianti E2B ed E4B, se il pensiero è disattivato, il modello genererà comunque i tag, ma con un blocco di pensiero vuoto: <|channel>thought\n<channel|>[Final answer]

Tieni presente che molte librerie come Transformers e llama.cpp gestiscono le complessità del modello di chat per te.

3. Conversazioni multi-turno

  • Nessun contenuto di ragionamento nella cronologia: nelle conversazioni multi-turno, l'output storico del modello deve includere solo la risposta finale. I pensieri del modello precedente non devono essere aggiunti prima dell'inizio del turno dell'utente successivo.

4. Ordine delle modalità

  • Per un rendimento ottimale con gli input multimodali, inserisci contenuti audio e/o immagini prima del testo nel prompt.

5. Risoluzione variabile dell'immagine

Oltre alle proporzioni variabili, Gemma 4 supporta la risoluzione variabile delle immagini tramite un budget di token visivi configurabile, che controlla il numero di token utilizzati per rappresentare un'immagine. Un budget di token più elevato preserva maggiori dettagli visivi a costo di un calcolo aggiuntivo, mentre un budget inferiore consente un'inferenza più rapida per le attività che non richiedono una comprensione granulare.

  • I budget di token supportati sono: 70, 140, 280, 560 e 1120.
    • Utilizza budget inferiori per la classificazione, la sottotitolazione codificata o la comprensione dei video, dove l'inferenza più rapida e l'elaborazione di molti frame superano i dettagli granulari.
    • Utilizza budget più elevati per attività come l'OCR, l'analisi dei documenti o la lettura di testi di piccole dimensioni.

6. Audio

Utilizza le seguenti strutture di prompt per l'elaborazione audio:

  • Riconoscimento vocale automatico (ASR)
Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
*   Only output the transcription, with no newlines.
*   When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.
  • Traduzione automatica del parlato (AST)
Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

7. Durata audio e video

Tutti i modelli supportano gli input di immagini e possono elaborare i video come fotogrammi, mentre i modelli E2B ed E4B supportano anche gli input audio. L'audio supporta una durata massima di 30 secondi. Il video supporta un massimo di 60 secondi, supponendo che le immagini vengano elaborate a un frame al secondo.

Dati del modello

Dati utilizzati per l'addestramento del modello e modalità di elaborazione.

Set di dati di addestramento

Il nostro set di dati di pre-training è una raccolta di dati su larga scala e diversificata che comprende un'ampia gamma di domini e modalità, tra cui documenti web, codice, immagini e audio, con una data di interruzione di gennaio 2025. Ecco i componenti chiave:

  • Documenti web: una raccolta diversificata di testi web garantisce che il modello sia esposto a un'ampia gamma di stili linguistici, argomenti e vocabolario. Il set di dati di addestramento include contenuti in oltre 140 lingue.
  • Codice: l'esposizione del modello al codice consente di apprendere la sintassi e i pattern dei linguaggi di programmazione, il che migliora la sua capacità di generare codice e comprendere le domande relative al codice.
  • Matematica: l'addestramento su testi matematici aiuta il modello a imparare il ragionamento logico, la rappresentazione simbolica e a rispondere a domande di matematica.
  • Immagini: un'ampia gamma di immagini consente al modello di eseguire attività di analisi delle immagini ed estrazione di dati visivi.

La combinazione di queste diverse origini dati è fondamentale per l'addestramento di un potente modello multimodale in grado di gestire un'ampia varietà di attività e formati di dati diversi.

Pre-elaborazione dei dati

Di seguito sono riportati i principali metodi di pulizia e filtraggio dei dati applicati ai dati di addestramento:

  • Filtro del materiale pedopornografico: è stato applicato un rigoroso filtro del materiale pedopornografico in più fasi del processo di preparazione dei dati per garantire l'esclusione di contenuti dannosi e illegali.
  • Filtro dei dati sensibili: per rendere i modelli preaddestrati Gemma sicuri e affidabili, sono state utilizzate tecniche automatizzate per filtrare determinati dati personali e altri dati sensibili dai set di addestramento.
  • Metodi aggiuntivi: filtraggio in base alla qualità e alla sicurezza dei contenuti in linea con le nostre norme.

Etica e sicurezza

Man mano che i modelli aperti diventano fondamentali per l'infrastruttura aziendale, la provenienza e la sicurezza diventano di primaria importanza. Sviluppato da Google DeepMind, Gemma 4 è sottoposto alle stesse rigorose valutazioni di sicurezza dei nostri modelli Gemini proprietari.

Approccio di valutazione

I modelli Gemma 4 sono stati sviluppati in collaborazione con team interni di sicurezza e AI responsabile. Per contribuire a migliorare la sicurezza del modello, sono state condotte una serie di valutazioni automatiche e umane. Queste valutazioni sono in linea con i principi di Google per l'AI, nonché con le norme di sicurezza, che mirano a impedire ai nostri modelli di AI generativa di generare contenuti dannosi, tra cui:

  • Contenuti relativi a materiale pedopornografico e sfruttamento di minori
  • Contenuti pericolosi (ad es. promozione del suicidio o istruzioni per attività che potrebbero causare danni nel mondo reale)
  • Contenuti sessualmente espliciti
  • Incitamento all'odio (ad es. disumanizzazione dei membri di gruppi protetti)
  • Molestie (ad es. incitamento alla violenza contro le persone)

Risultati della valutazione

Per tutte le aree dei test di sicurezza, abbiamo riscontrato miglioramenti significativi in tutte le categorie di sicurezza dei contenuti rispetto ai modelli Gemma precedenti. Nel complesso, i modelli Gemma 4 superano significativamente i modelli Gemma 3 e 3n nel miglioramento della sicurezza, mantenendo bassi i rifiuti ingiustificati. Tutti i test sono stati condotti senza filtri di sicurezza per valutare le funzionalità e i comportamenti del modello. Per la conversione da testo a testo e da immagine a testo e per tutte le dimensioni dei modelli, il modello ha prodotto violazioni minime delle norme e ha mostrato miglioramenti significativi rispetto alle prestazioni dei modelli Gemma precedenti.

Utilizzo e limitazioni

Questi modelli presentano alcune limitazioni di cui gli utenti devono essere a conoscenza.

Utilizzo previsto

I modelli multimodali (in grado di elaborare visione artificiale, linguaggio e/o audio) hanno un'ampia gamma di applicazioni in vari settori e domini. Il seguente elenco di potenziali utilizzi non è esaustivo. Lo scopo di questo elenco è fornire informazioni contestuali sui possibili casi d'uso che i creatori del modello hanno preso in considerazione nell'ambito dell'addestramento e dello sviluppo del modello.

  • Creazione di contenuti e comunicazione
    • Generazione di testo: questi modelli possono essere utilizzati per generare formati di testo creativi come poesie, script, codice, testi di marketing e bozze di email.
    • Chatbot e AI conversazionale: potenziano le interfacce conversazionali per il servizio clienti, gli assistenti virtuali o le applicazioni interattive.
    • Riepilogo del testo: genera riepiloghi concisi di un corpus di testo, documenti di ricerca o report.
    • Estrazione dei dati delle immagini: questi modelli possono essere utilizzati per estrarre, interpretare e riassumere i dati visivi per le comunicazioni di testo.
    • Elaborazione e interazione audio: i modelli più piccoli (E2B ed E4B) possono analizzare e interpretare gli input audio, consentendo interazioni e trascrizioni basate sulla voce.
  • Ricerca e istruzione
    • Ricerca sull'elaborazione del linguaggio naturale (NLP) e sui modelli VLM: questi modelli possono servire da base per i ricercatori per sperimentare tecniche VLM e NLP, sviluppare algoritmi e contribuire al progresso del settore.
    • Strumenti per l'apprendimento delle lingue: supportano esperienze di apprendimento interattive, aiutano a correggere la grammatica o forniscono esercizi di scrittura.
      • Esplorazione delle conoscenze: aiuta i ricercatori a esplorare grandi quantità di testo generando riassunti o rispondendo a domande su argomenti specifici.

Limitazioni

  • Dati di addestramento
    • La qualità e la diversità dei dati di addestramento influiscono in modo significativo sulle funzionalità del modello. Bias o lacune nei dati di addestramento possono portare a limitazioni nelle risposte del modello.
    • L'ambito del set di dati di addestramento determina le aree tematiche che il modello può gestire in modo efficace.
  • Contesto e complessità dell'attività
    • I modelli funzionano bene con attività che possono essere inquadrate con prompt e istruzioni chiari. Le attività aperte o molto complesse potrebbero essere difficili.
    • Il rendimento di un modello può essere influenzato dalla quantità di contesto fornita (un contesto più lungo in genere porta a risultati migliori, fino a un certo punto).
  • Ambiguità e sfumature del linguaggio
    • Il linguaggio naturale è intrinsecamente complesso. I modelli potrebbero avere difficoltà a comprendere sfumature sottili, sarcasmo o linguaggio figurato.
  • Accuratezza fattuale
    • I modelli generano risposte basate sulle informazioni apprese dai set di dati di addestramento, ma non sono knowledge base. Potrebbe generare affermazioni fattuali errate o obsolete.
  • Common Sense
    • I modelli si basano su pattern statistici nel linguaggio. Potrebbero non essere in grado di applicare il ragionamento di buon senso in determinate situazioni.

Considerazioni etiche e rischi

Lo sviluppo di modelli vision-language (VLM) solleva diverse preoccupazioni etiche. Nella creazione di un modello aperto, abbiamo considerato attentamente quanto segue:

  • Pregiudizi ed equità
    • I VLM addestrati su dati di testo e immagini reali e su larga scala possono riflettere i bias socio-culturali incorporati nel materiale di addestramento. I modelli Gemma 4 sono stati sottoposti a un attento esame, al pretrattamento dei dati di input e a valutazioni post-addestramento, come riportato in questa scheda, per contribuire a mitigare il rischio di questi bias.
  • Disinformazione e uso improprio
    • I modelli VLM possono essere utilizzati in modo improprio per generare testi falsi, fuorvianti o dannosi.
    • Per un utilizzo responsabile del modello, consulta le linee guida nel toolkit per l'AI generativa responsabile.
  • Trasparenza e responsabilizzazione
    • Questa scheda del modello riassume i dettagli sull'architettura, sulle funzionalità, sulle limitazioni e sui processi di valutazione dei modelli.
    • Un modello aperto sviluppato in modo responsabile offre l'opportunità di condividere l'innovazione rendendo la tecnologia VLM accessibile a sviluppatori e ricercatori in tutto l'ecosistema dell'AI.

Rischi identificati e mitigazioni:

  • Generazione di contenuti dannosi: sono essenziali meccanismi e linee guida per la sicurezza dei contenuti. Gli sviluppatori sono invitati a prestare attenzione e a implementare misure di salvaguardia della sicurezza dei contenuti appropriate in base alle loro norme specifiche sui prodotti e ai casi d'uso delle applicazioni.
  • Uso improprio per scopi dannosi: limitazioni tecniche e formazione di sviluppatori e utenti finali possono contribuire a mitigare le applicazioni dannose dei modelli linguistici di grandi dimensioni. Vengono fornite risorse didattiche e meccanismi di segnalazione che consentono agli utenti di segnalare abusi.
  • Violazioni della privacy: i modelli sono stati addestrati su dati filtrati per la rimozione di determinate informazioni personali e altri dati sensibili. Gli sviluppatori sono incoraggiati a rispettare le normative sulla privacy con tecniche che tutelano la privacy.
  • Perpetuazione dei bias: è consigliabile eseguire un monitoraggio continuo (utilizzando metriche di valutazione, revisione umana) e l'esplorazione di tecniche di riduzione dei bias durante l'addestramento, l'ottimizzazione e altri casi d'uso del modello.

Vantaggi

Al momento del rilascio, questa famiglia di modelli fornisce implementazioni di modelli open vision-language ad alte prestazioni progettate da zero per lo sviluppo di AI responsabile rispetto a modelli di dimensioni simili.