Scheda del modello Gemma 3

Pagina del modello: Gemma

Risorse e documentazione tecnica:

Termini e condizioni d'uso: Termini

Autori: Google DeepMind

Informazioni sul modello

Descrizione di riepilogo e breve definizione di input e output.

Descrizione

Gemma è una famiglia di modelli aperti leggeri e all'avanguardia di Google, creata sulla base della stessa ricerca e tecnologia utilizzata per creare i modelli Gemini. I modelli Gemma 3 sono multimodali, gestiscono input di testo e immagini e generano output di testo, con pesi aperti sia per le varianti preaddestrate sia per quelle ottimizzate in base alle istruzioni. Gemma 3 ha una grande finestra di contesto di 128 KB, supporto multilingue in oltre 140 lingue ed è disponibile in più dimensioni rispetto alle versioni precedenti. I modelli Gemma 3 sono adatti a una serie di attività di generazione di testo e comprensione delle immagini, tra cui risposta alle domande, compendio e ragionamento. Le loro dimensioni relativamente ridotte consentono di distribuirli in ambienti con risorse limitate, come laptop, computer o la tua infrastruttura cloud, democratizzando l'accesso ai modelli di IA all'avanguardia e contribuendo a promuovere l'innovazione per tutti.

Input e output

  • Input:

    • Stringa di testo, ad esempio una domanda, un prompt o un documento da riassumere
    • Immagini, normalizzate alla risoluzione 896 x 896 e codificate in 256 token ciascuna
    • Contesto di input totale di 128.000 token per le dimensioni 4 B, 12 B e 27 B e 32.000 token per la dimensione 1 B
  • Output:

    • Testo generato in risposta all'input, ad esempio una risposta a una domanda, l'analisi dei contenuti delle immagini o il riassunto di un documento
    • Contesto di output totale fino a 128.000 token per le dimensioni 4 B, 12 B e 27 B e 32.000 token per la dimensione 1 B per richiesta, sottraendo i token di input della richiesta

Citazione

@article{gemma_2025,
    title={Gemma 3},
    url={https://arxiv.org/abs/2503.19786},
    publisher={Google DeepMind},
    author={Gemma Team},
    year={2025}
}

Dati del modello

Dati utilizzati per l'addestramento del modello e modalità di elaborazione dei dati.

Set di dati di addestramento

Questi modelli sono stati addestrati su un set di dati di testo che include un'ampia gamma di origini. Il modello da 27 miliardi è stato addestrato con 14 trilioni di token, il modello da 12 miliardi è stato addestrato con 12 trilioni di token, il modello da 4 miliardi è stato addestrato con 4 trilioni di token e il modello da 1 miliardo con 2 trilioni di token. La data di interruzione della conoscenza per i dati di addestramento era agosto 2024. Ecco i componenti chiave:

  • Documenti web: una raccolta diversificata di testo web garantisce che il modello sia exposto a una vasta gamma di stili linguistici, argomenti e vocabolario. Il set di dati di addestramento include contenuti in oltre 140 lingue.
  • Codice: l'esposizione del modello al codice lo aiuta ad apprendere la sintassi e i pattern dei linguaggi di programmazione, migliorando la sua capacità di generare codice e comprendere le domande relative al codice.
  • Matematica: l'addestramento su testo matematico aiuta il modello a imparare il ragionamento logico, la rappresentazione simbolica e a rispondere a query matematiche.
  • Immagini: un'ampia gamma di immagini consente al modello di eseguire attività di analisi delle immagini e di estrazione di dati visivi.

La combinazione di queste diverse origini dati è fondamentale per l'addestramento di un potente modello multimodale in grado di gestire un'ampia gamma di attività e formati di dati diversi.

Pre-elaborazione dei dati

Di seguito sono riportati i metodi principali di pulizia e filtri dei dati applicati ai dati di addestramento:

  • Filtro del materiale pedopornografico: è stato applicato un filtro rigoroso del materiale pedopornografico in più fasi del processo di preparazione dei dati per garantire l'esclusione di contenuti dannosi e illegali.
  • Filtro dei dati sensibili: nell'ambito della creazione di modelli preaddestrati di Gemma sicuri e affidabili, sono state utilizzate tecniche automatiche per filtrare determinate informazioni personali e altri dati sensibili dai set di addestramento.
  • Metodi aggiuntivi: filtri in base alla qualità e alla sicurezza dei contenuti in linea con le nostre norme.

Informazioni sull'implementazione

Dettagli sugli elementi interni del modello.

Hardware

Gemma è stata addestrata utilizzando hardware Tensor Processing Unit (TPU) (TPUv4p, TPUv5p e TPUv5e). L'addestramento dei modelli linguistici visivi (VLMS) richiede una potenza di calcolo significativa. Le TPU, progettate specificamente per le operazioni sulle matrici comuni nel machine learning, offrono diversi vantaggi in questo dominio:

  • Prestazioni: le TPU sono progettate specificamente per gestire i calcoli massicci coinvolti nell'addestramento dei VLM. Possono accelerare notevolmente l'addestramento rispetto alle CPU.
  • Memoria: le TPU sono spesso dotate di grandi quantità di memoria ad alta larghezza di banda, consentendo la gestione di modelli e dimensioni dei batch di grandi dimensioni durante l'addestramento. Ciò può portare a una migliore qualità del modello.
  • Scalabilità: i pod TPU (grandi cluster di TPU) forniscono una soluzione scalabile per gestire la crescente complessità dei modelli di base di grandi dimensioni. Puoi distribuire l'addestramento su più dispositivi TPU per un'elaborazione più rapida ed efficiente.
  • Convenienza: in molti scenari, le TPU possono fornire una soluzione più conveniente per l'addestramento di modelli di grandi dimensioni rispetto all'infrastruttura basata su CPU, in particolare se si considerano il tempo e le risorse risparmiati grazie all'addestramento più rapido.
  • Questi vantaggi sono in linea con gli impegni di Google per un'attività sostenibile.

Software

L'addestramento è stato eseguito utilizzando JAX e ML Pathways.

JAX consente ai ricercatori di sfruttare l'hardware di ultima generazione, tra cui le TPU, per un addestramento più rapido ed efficiente di modelli di grandi dimensioni. ML Pathways è l'ultimo impegno di Google per creare sistemi di intelligenza artificiale in grado di generalizzare su più attività. Questo è particolarmente adatto per i modelli di base, inclusi i modelli linguistici di grandi dimensioni come questi.

Insieme, JAX e ML Pathways vengono utilizzati come descritto nel documento sulla famiglia di modelli Gemini; "il modello di programmazione "singolo controller" di Jax e Pathways consente a un singolo processo Python di orchestrare l'intera esecuzione dell'addestramento, semplificando notevolmente il flusso di lavoro di sviluppo".

Valutazione

Metriche e risultati della valutazione del modello.

Risultati del benchmark

Questi modelli sono stati valutati in base a una vasta raccolta di set di dati e metriche diversi per coprire diversi aspetti della generazione di testo. I risultati della valutazione contrassegnati con IT si riferiscono ai modelli ottimizzati per le istruzioni. I risultati della valutazione contrassegnati con PT si riferiscono ai modelli preaddestrati.

Ragionamento e attendibilità

Benchmark n-shot Gemma 3 IT 1B Gemma 3 IT 4B Gemma 3 IT 12B Gemma 3 IT 27B
GPQA Diamante Zero-shot 19,2 30,8 40,9 42,4
SimpleQA Zero-shot 2.2 4.0 6,3 10,0
FACTS Grounding - 36,4 70,1 75,8 74,9
BIG-Bench Hard Zero-shot 39,1 72,2 85,7 87,6
BIG-Bench Extra Hard Zero-shot 7.2 11.0 16.3 19,3
IFEval Zero-shot 80,2 90,2 88,9 90,4
Benchmark n-shot Gemma 3 PT 1B Gemma 3 PT 4B Gemma 3 PT 12B Gemma 3 PT 27B
HellaSwag 10 scatti 62,3 77,2 84,2 85,6
BoolQ Zero-shot 63,2 72,3 78,8 82,4
PIQA Zero-shot 73,8 79,6 81,8 83,3
SocialIQA Zero-shot 48,9 51,9 53,4 54,9
TriviaQA 5 scatti 39,8 65,8 78,2 85,5
Domande naturali 5 scatti 9,48 20,0 31,4 36,1
ARC-c 25 scatti 38,4 56,2 68,9 70,6
ARC-e Zero-shot 73,0 82,4 88,3 89,0
WinoGrande 5 scatti 58,2 64,7 74,3 78,8
BIG-Bench Hard few-shot 28,4 50,9 72,6 77,7
DROP 1 foto 42,4 60,1 72,2 77,2

STEM e programmazione

Benchmark n-shot Gemma 3 IT 1B Gemma 3 IT 4B Gemma 3 IT 12B Gemma 3 IT 27B
MMLU (Pro) Zero-shot 14,7 43,6 60,6 67,5
LiveCodeBench Zero-shot 1.9 12,6 24,6 29,7
Bird-SQL (dev) - 6,4 36,3 47,9 54,4
Matematica Zero-shot 48.0 75,6 83,8 89,0
HiddenMath Zero-shot 15,8 43.0 54,5 60,3
MBPP 3 scatti 35.2 63,2 73,0 74,4
HumanEval Zero-shot 41,5 71,3 85,4 87,8
Natural2Code Zero-shot 56,0 70,3 80,7 84,5
GSM8K Zero-shot 62,8 89,2 94,4 95,9
Benchmark n-shot Gemma 3 PT 4B Gemma 3 PT 12B Gemma 3 PT 27B
MMLU 5 scatti 59,6 74,5 78,6
MMLU (Pro COT) 5 scatti 29,2 45,3 52,2
AGIEval 3-5-shot 42.1 57,4 66,2
MATEMATICA 4 scatti 24,2 43,3 50,0
GSM8K 8 scatti 38,4 71,0 82,6
GPQA 5 scatti 15,0 25,4 24,3
MBPP 3 scatti 46,0 60,4 65,6
HumanEval Zero-shot 36,0 45,7 48,8

Supporto multilingue

Benchmark n-shot Gemma 3 IT 1B Gemma 3 IT 4B Gemma 3 IT 12B Gemma 3 IT 27B
Global-MMLU-Lite Zero-shot 34,2 54,5 69,5 75,1
ECLeKTic Zero-shot 1.4 4,6 10.3 16,7
WMT24++ Zero-shot 35,9 46,8 51,6 53,4
Benchmark Gemma 3 PT 1B Gemma 3 PT 4B Gemma 3 PT 12B Gemma 3 PT 27B
MGSM 2,04 34,7 64,3 74,3
Global-MMLU-Lite 24,9 57,0 69,4 75,7
WMT24++ (ChrF) 36,7 48,4 53,9 55,7
FloRes 29,5 39,2 46,0 48,8
XQuAD (tutti) 43,9 68,0 74,5 76,8
ECLeKTic 4,69 11.0 17,2 24,4
IndicGenBench 41,4 57,2 61,7 63,4

Multimodale

Benchmark Gemma 3 IT 4B Gemma 3 IT 12B Gemma 3 IT 27B
MMMU (val) 48,8 59,6 64,9
DocVQA 75,8 87,1 86,6
InfoVQA 50,0 64,9 70,6
TextVQA 57,8 67,7 65.1
AI2D 74,8 84,2 84,5
ChartQA 68,8 75,7 78.0
VQAv2 (val) 62,4 71,6 71,0
MathVista (testmini) 50,0 62,9 67,6
Benchmark Gemma 3 PT 4B Gemma 3 PT 12B Gemma 3 PT 27B
COCOcap 102 111 116
DocVQA (val) 72,8 82,3 85,6
InfoVQA (val) 44,1 54,8 59,4
MMMU (pt) 39,2 50,3 56,1
TextVQA (val) 58,9 66,5 68,6
RealWorldQA 45,5 52,2 53,9
ReMI 27,3 38,5 44,8
AI2D 63,2 75,2 79,0
ChartQA 63,6 74,7 76,3
VQAv2 63,9 71,2 72,9
BLINK 38,0 35,9 39,6
OKVQA 51,0 58,7 60,2
TallyQA 42,5 51,8 54,3
VQA SpatialSense 50,9 60,0 59,4
CountBenchQA 26.1 17,8 68,0

Etica e sicurezza

Approccio e risultati della valutazione dell'etica e della sicurezza.

Approccio di valutazione

I nostri metodi di valutazione includono valutazioni strutturate e test di red team interni delle norme relative ai contenuti pertinenti. L'attività di red-teaming è stata condotta da diversi team, ognuno con obiettivi e metriche di valutazione umana diversi. Questi modelli sono stati valutati in base a una serie di categorie diverse pertinenti a etica e sicurezza, tra cui:

  • Sicurezza dei minori: valutazione di prompt di conversione di testo in testo e di conversione di immagini in testo che coprono le norme sulla sicurezza dei minori, inclusi l'abuso sessuale e lo sfruttamento dei minori.
  • Sicurezza dei contenuti:valutazione di prompt di conversione di testo in testo e di conversione di immagini in testo che coprono le norme di sicurezza, tra cui molestie, violenza e immagini crude e incitamento all'odio.
  • Danni causati da rappresentazioni: valutazione di prompt di conversione di testo in testo e di conversione di immagini in testo che riguardano le norme sulla sicurezza, inclusi pregiudizi, stereotipi e associazioni o imprecisioni dannose.

Oltre alle valutazioni a livello di sviluppo, effettuiamo "valutazioni di garanzia", ovvero le nostre valutazioni interne "indipendenti" per la presa di decisioni relative alla governance della responsabilità. Vengono condotti separatamente dal team di sviluppo del modello per supportare il processo decisionale relativo al rilascio. I risultati di alto livello vengono comunicati al team di modelli, ma i set di prompt vengono trattenuti per evitare l'overfitting e preservare la capacità dei risultati di informare il processo decisionale. I risultati della valutazione dell'affidabilità vengono segnalati al nostro Consiglio per la responsabilità e la sicurezza nell'ambito della revisione del rilascio.

Risultati della valutazione

Per tutte le aree di test di sicurezza, abbiamo riscontrato notevoli miglioramenti nelle categorie di sicurezza dei bambini, sicurezza dei contenuti e danni causati dalla rappresentazione rispetto ai modelli Gemma precedenti. Tutti i test sono stati condotti senza filtri di sicurezza per valutare le funzionalità e i comportamenti del modello. Sia per le conversioni da testo a testo che da immagine a testo e per tutte le dimensioni del modello, il modello ha prodotto violazioni minime delle norme e ha mostrato miglioramenti significativi rispetto alle prestazioni dei modelli Gemma precedenti in termini di deduzioni infondate. Una limitazione delle nostre valutazioni è che includevano solo prompt in lingua inglese.

Utilizzo e limitazioni

Questi modelli presentano alcune limitazioni di cui gli utenti devono essere a conoscenza.

Utilizzo previsto

I modelli VLM (vision-language) aperti hanno un'ampia gamma di applicazioni in vari settori e domini. Il seguente elenco di potenziali utilizzi non è esaustivo. Lo scopo di questo elenco è fornire informazioni contestuali sui possibili casi d'uso che i creator dei modelli hanno preso in considerazione durante l'addestramento e lo sviluppo dei modelli.

  • Comunicazione e creazione di contenuti
    • Generazione di testo: questi modelli possono essere utilizzati per generare formati di testo creativo come poesie, script, codice, testi di marketing e bozze di email.
    • Chatbot e IA conversazionale: potenzia le interfacce conversazionali per l'assistenza clienti, gli assistenti virtuali o le applicazioni interattive.
    • Riepilogo di testi: genera riepiloghi concisi di un corpus di testi, di articoli di ricerca o di report.
    • Estrazione di dati dalle immagini: questi modelli possono essere utilizzati per estrarre, interpretare e riepilogare i dati visivi per le comunicazioni di testo.
  • Ricerca e istruzione
    • Elaborazione del linguaggio naturale (NLP) e ricerca sui VLM: questi modelli possono servire da base per consentire ai ricercatori di sperimentare tecniche di VLM e NLP, sviluppare algoritmi e contribuire allo sviluppo del settore.
    • Strumenti per l'apprendimento delle lingue: supportano esperienze di apprendimento delle lingue interattive, aiutano a correggere la grammatica o forniscono esercizi di scrittura.
    • Esplorazione della conoscenza: aiuta i ricercatori a esplorare grandi testi generando riepiloghi o rispondendo a domande su argomenti specifici.

Limitazioni

  • Dati di addestramento
    • La qualità e la diversità dei dati di addestramento influiscono in modo significativo sulle funzionalità del modello. Bias o lacune nei dati di addestramento possono comportare limitazioni nelle risposte del modello.
    • L'ambito del set di dati di addestramento determina le aree di argomento che il modello può gestire in modo efficace.
  • Contesto e complessità delle attività
    • I modelli sono più bravi a svolgere attività che possono essere definite con prompt e istruzioni chiari. Le attività aperte o molto complesse potrebbero essere difficili.
    • Le prestazioni di un modello possono essere influenzate dalla quantità di contesto fornito (in genere, un contesto più lungo genera output migliori, fino a un certo punto).
  • Ambiguità e sfumature del linguaggio
    • Il linguaggio naturale è intrinsecamente complesso. I modelli potrebbero avere difficoltà a cogliere sfumature sottili, sarcasmo o linguaggio figurato.
  • Accuratezza fattuale
    • I modelli generano risposte in base alle informazioni apprese dai set di dati di addestramento, ma non sono knowledge base. Potrebbero generare affermazioni fattuali errate o obsolete.
  • Common Sense
    • I modelli si basano su schemi statistici nel linguaggio. Potrebbero mancare della capacità di applicare il ragionamento di buon senso in determinate situazioni.

Considerazioni etiche e rischi

Lo sviluppo di modelli linguistici visivi (VLM) solleva diversi problemi etici. Nel creare un modello aperto, abbiamo preso in considerazione attentamente quanto segue:

  • Bias ed equità
    • I VLM addestrati su dati di testo e immagini reali di grandi dimensioni possono riflettere i bias socio-culturali incorporati nel materiale di addestramento. Questi modelli sono stati sottoposti a un'attenta verifica, alla pre-elaborazione dei dati di input descritta e alle valutazioni posteriori riportate in questa scheda.
  • Disinformazione e uso improprio
    • I VLM possono essere utilizzati in modo improprio per generare testo falso, fuorviante o dannoso.
    • Per l'utilizzo responsabile del modello sono disponibili linee guida, consulta il Responsible Generative AI Toolkit.
  • Trasparenza e responsabilità:
    • Questa scheda del modello riassume i dettagli sull'architettura, sulle funzionalità, sulle limitazioni e sui processi di valutazione dei modelli.
    • Un modello aperto sviluppato in modo responsabile offre l'opportunità di condividere l'innovazione rendendo la tecnologia VLM accessibile a sviluppatori e ricercatori dell'ecosistema dell'IA.

Rischi identificati e mitigazioni:

  • Perpetuazione dei bias: è consigliabile eseguire un monitoraggio continuo (utilizzando metriche di valutazione, revisione umana) e l'esplorazione di tecniche di rimozione dei bias durante l'addestramento del modello, l'ottimizzazione e altri casi d'uso.
  • Genesi di contenuti dannosi: sono essenziali meccanismi e linee guida per la sicurezza dei contenuti. Gli sviluppatori sono invitati a prestare attenzione e a implementare misure di salvaguardia della sicurezza dei contenuti appropriate in base alle norme specifiche dei prodotti e ai casi d'uso delle applicazioni.
  • Uso improprio a scopo dannoso: le limitazioni tecniche e la formazione di sviluppatori e utenti finali possono contribuire a mitigare le applicazioni dannose dei VLM. Sono fornite risorse didattiche e meccanismi di segnalazione per consentire agli utenti di segnalare gli abusi. Gli usi vietati dei modelli Gemma sono descritti nelle Norme relative all'uso vietato di Gemma.
  • Violazioni della privacy: i modelli sono stati addestrati su dati filtrati per la rimozione di determinate informazioni personali e di altri dati sensibili. Gli sviluppatori sono invitati a rispettare le normative sulla privacy con tecniche incentrate sulla tutela della privacy.

Vantaggi

Al momento del rilascio, questa famiglia di modelli offre implementazioni di modelli linguistici di visione aperti ad alte prestazioni progettati da zero per lo sviluppo di un'IA responsabile rispetto ai modelli di dimensioni simili.

Utilizzando le metriche di valutazione del benchmark descritte in questo documento, questi modelli hanno dimostrato di offrire prestazioni superiori rispetto ad altre alternative di modelli aperti di dimensioni simili.