Pagina del modello: Gemma
Risorse e documentazione tecnica:
- Report tecnico di Gemma 3
- Responsible Generative AI Toolkit
- Gemma su Kaggle
- Gemma su Vertex Model Garden
Termini e condizioni d'uso: Termini
Autori: Google DeepMind
Informazioni sul modello
Descrizione di riepilogo e breve definizione di input e output.
Descrizione
Gemma è una famiglia di modelli aperti leggeri e all'avanguardia di Google, creata sulla base della stessa ricerca e tecnologia utilizzata per creare i modelli Gemini. I modelli Gemma 3 sono multimodali, gestiscono input di testo e immagini e generano output di testo, con pesi aperti sia per le varianti preaddestrate sia per quelle ottimizzate in base alle istruzioni. Gemma 3 ha una grande finestra di contesto di 128 KB, supporto multilingue in oltre 140 lingue ed è disponibile in più dimensioni rispetto alle versioni precedenti. I modelli Gemma 3 sono adatti a una serie di attività di generazione di testo e comprensione delle immagini, tra cui risposta alle domande, compendio e ragionamento. Le loro dimensioni relativamente ridotte consentono di distribuirli in ambienti con risorse limitate, come laptop, computer o la tua infrastruttura cloud, democratizzando l'accesso ai modelli di IA all'avanguardia e contribuendo a promuovere l'innovazione per tutti.
Input e output
Input:
- Stringa di testo, ad esempio una domanda, un prompt o un documento da riassumere
- Immagini, normalizzate alla risoluzione 896 x 896 e codificate in 256 token ciascuna
- Contesto di input totale di 128.000 token per le dimensioni 4 B, 12 B e 27 B e 32.000 token per la dimensione 1 B
Output:
- Testo generato in risposta all'input, ad esempio una risposta a una domanda, l'analisi dei contenuti delle immagini o il riassunto di un documento
- Contesto di output totale fino a 128.000 token per le dimensioni 4 B, 12 B e 27 B e 32.000 token per la dimensione 1 B per richiesta, sottraendo i token di input della richiesta
Citazione
@article{gemma_2025,
title={Gemma 3},
url={https://arxiv.org/abs/2503.19786},
publisher={Google DeepMind},
author={Gemma Team},
year={2025}
}
Dati del modello
Dati utilizzati per l'addestramento del modello e modalità di elaborazione dei dati.
Set di dati di addestramento
Questi modelli sono stati addestrati su un set di dati di testo che include un'ampia gamma di origini. Il modello da 27 miliardi è stato addestrato con 14 trilioni di token, il modello da 12 miliardi è stato addestrato con 12 trilioni di token, il modello da 4 miliardi è stato addestrato con 4 trilioni di token e il modello da 1 miliardo con 2 trilioni di token. La data di interruzione della conoscenza per i dati di addestramento era agosto 2024. Ecco i componenti chiave:
- Documenti web: una raccolta diversificata di testo web garantisce che il modello sia exposto a una vasta gamma di stili linguistici, argomenti e vocabolario. Il set di dati di addestramento include contenuti in oltre 140 lingue.
- Codice: l'esposizione del modello al codice lo aiuta ad apprendere la sintassi e i pattern dei linguaggi di programmazione, migliorando la sua capacità di generare codice e comprendere le domande relative al codice.
- Matematica: l'addestramento su testo matematico aiuta il modello a imparare il ragionamento logico, la rappresentazione simbolica e a rispondere a query matematiche.
- Immagini: un'ampia gamma di immagini consente al modello di eseguire attività di analisi delle immagini e di estrazione di dati visivi.
La combinazione di queste diverse origini dati è fondamentale per l'addestramento di un potente modello multimodale in grado di gestire un'ampia gamma di attività e formati di dati diversi.
Pre-elaborazione dei dati
Di seguito sono riportati i metodi principali di pulizia e filtri dei dati applicati ai dati di addestramento:
- Filtro del materiale pedopornografico: è stato applicato un filtro rigoroso del materiale pedopornografico in più fasi del processo di preparazione dei dati per garantire l'esclusione di contenuti dannosi e illegali.
- Filtro dei dati sensibili: nell'ambito della creazione di modelli preaddestrati di Gemma sicuri e affidabili, sono state utilizzate tecniche automatiche per filtrare determinate informazioni personali e altri dati sensibili dai set di addestramento.
- Metodi aggiuntivi: filtri in base alla qualità e alla sicurezza dei contenuti in linea con le nostre norme.
Informazioni sull'implementazione
Dettagli sugli elementi interni del modello.
Hardware
Gemma è stata addestrata utilizzando hardware Tensor Processing Unit (TPU) (TPUv4p, TPUv5p e TPUv5e). L'addestramento dei modelli linguistici visivi (VLMS) richiede una potenza di calcolo significativa. Le TPU, progettate specificamente per le operazioni sulle matrici comuni nel machine learning, offrono diversi vantaggi in questo dominio:
- Prestazioni: le TPU sono progettate specificamente per gestire i calcoli massicci coinvolti nell'addestramento dei VLM. Possono accelerare notevolmente l'addestramento rispetto alle CPU.
- Memoria: le TPU sono spesso dotate di grandi quantità di memoria ad alta larghezza di banda, consentendo la gestione di modelli e dimensioni dei batch di grandi dimensioni durante l'addestramento. Ciò può portare a una migliore qualità del modello.
- Scalabilità: i pod TPU (grandi cluster di TPU) forniscono una soluzione scalabile per gestire la crescente complessità dei modelli di base di grandi dimensioni. Puoi distribuire l'addestramento su più dispositivi TPU per un'elaborazione più rapida ed efficiente.
- Convenienza: in molti scenari, le TPU possono fornire una soluzione più conveniente per l'addestramento di modelli di grandi dimensioni rispetto all'infrastruttura basata su CPU, in particolare se si considerano il tempo e le risorse risparmiati grazie all'addestramento più rapido.
- Questi vantaggi sono in linea con gli impegni di Google per un'attività sostenibile.
Software
L'addestramento è stato eseguito utilizzando JAX e ML Pathways.
JAX consente ai ricercatori di sfruttare l'hardware di ultima generazione, tra cui le TPU, per un addestramento più rapido ed efficiente di modelli di grandi dimensioni. ML Pathways è l'ultimo impegno di Google per creare sistemi di intelligenza artificiale in grado di generalizzare su più attività. Questo è particolarmente adatto per i modelli di base, inclusi i modelli linguistici di grandi dimensioni come questi.
Insieme, JAX e ML Pathways vengono utilizzati come descritto nel documento sulla famiglia di modelli Gemini; "il modello di programmazione "singolo controller" di Jax e Pathways consente a un singolo processo Python di orchestrare l'intera esecuzione dell'addestramento, semplificando notevolmente il flusso di lavoro di sviluppo".
Valutazione
Metriche e risultati della valutazione del modello.
Risultati del benchmark
Questi modelli sono stati valutati in base a una vasta raccolta di set di dati e metriche diversi per coprire diversi aspetti della generazione di testo. I risultati della valutazione contrassegnati con IT si riferiscono ai modelli ottimizzati per le istruzioni. I risultati della valutazione contrassegnati con PT si riferiscono ai modelli preaddestrati.
Ragionamento e attendibilità
Benchmark | n-shot | Gemma 3 IT 1B | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
---|---|---|---|---|---|
GPQA Diamante | Zero-shot | 19,2 | 30,8 | 40,9 | 42,4 |
SimpleQA | Zero-shot | 2.2 | 4.0 | 6,3 | 10,0 |
FACTS Grounding | - | 36,4 | 70,1 | 75,8 | 74,9 |
BIG-Bench Hard | Zero-shot | 39,1 | 72,2 | 85,7 | 87,6 |
BIG-Bench Extra Hard | Zero-shot | 7.2 | 11.0 | 16.3 | 19,3 |
IFEval | Zero-shot | 80,2 | 90,2 | 88,9 | 90,4 |
Benchmark | n-shot | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|---|
HellaSwag | 10 scatti | 62,3 | 77,2 | 84,2 | 85,6 |
BoolQ | Zero-shot | 63,2 | 72,3 | 78,8 | 82,4 |
PIQA | Zero-shot | 73,8 | 79,6 | 81,8 | 83,3 |
SocialIQA | Zero-shot | 48,9 | 51,9 | 53,4 | 54,9 |
TriviaQA | 5 scatti | 39,8 | 65,8 | 78,2 | 85,5 |
Domande naturali | 5 scatti | 9,48 | 20,0 | 31,4 | 36,1 |
ARC-c | 25 scatti | 38,4 | 56,2 | 68,9 | 70,6 |
ARC-e | Zero-shot | 73,0 | 82,4 | 88,3 | 89,0 |
WinoGrande | 5 scatti | 58,2 | 64,7 | 74,3 | 78,8 |
BIG-Bench Hard | few-shot | 28,4 | 50,9 | 72,6 | 77,7 |
DROP | 1 foto | 42,4 | 60,1 | 72,2 | 77,2 |
STEM e programmazione
Benchmark | n-shot | Gemma 3 IT 1B | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
---|---|---|---|---|---|
MMLU (Pro) | Zero-shot | 14,7 | 43,6 | 60,6 | 67,5 |
LiveCodeBench | Zero-shot | 1.9 | 12,6 | 24,6 | 29,7 |
Bird-SQL (dev) | - | 6,4 | 36,3 | 47,9 | 54,4 |
Matematica | Zero-shot | 48.0 | 75,6 | 83,8 | 89,0 |
HiddenMath | Zero-shot | 15,8 | 43.0 | 54,5 | 60,3 |
MBPP | 3 scatti | 35.2 | 63,2 | 73,0 | 74,4 |
HumanEval | Zero-shot | 41,5 | 71,3 | 85,4 | 87,8 |
Natural2Code | Zero-shot | 56,0 | 70,3 | 80,7 | 84,5 |
GSM8K | Zero-shot | 62,8 | 89,2 | 94,4 | 95,9 |
Benchmark | n-shot | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
MMLU | 5 scatti | 59,6 | 74,5 | 78,6 |
MMLU (Pro COT) | 5 scatti | 29,2 | 45,3 | 52,2 |
AGIEval | 3-5-shot | 42.1 | 57,4 | 66,2 |
MATEMATICA | 4 scatti | 24,2 | 43,3 | 50,0 |
GSM8K | 8 scatti | 38,4 | 71,0 | 82,6 |
GPQA | 5 scatti | 15,0 | 25,4 | 24,3 |
MBPP | 3 scatti | 46,0 | 60,4 | 65,6 |
HumanEval | Zero-shot | 36,0 | 45,7 | 48,8 |
Supporto multilingue
Benchmark | n-shot | Gemma 3 IT 1B | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
---|---|---|---|---|---|
Global-MMLU-Lite | Zero-shot | 34,2 | 54,5 | 69,5 | 75,1 |
ECLeKTic | Zero-shot | 1.4 | 4,6 | 10.3 | 16,7 |
WMT24++ | Zero-shot | 35,9 | 46,8 | 51,6 | 53,4 |
Benchmark | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
MGSM | 2,04 | 34,7 | 64,3 | 74,3 |
Global-MMLU-Lite | 24,9 | 57,0 | 69,4 | 75,7 |
WMT24++ (ChrF) | 36,7 | 48,4 | 53,9 | 55,7 |
FloRes | 29,5 | 39,2 | 46,0 | 48,8 |
XQuAD (tutti) | 43,9 | 68,0 | 74,5 | 76,8 |
ECLeKTic | 4,69 | 11.0 | 17,2 | 24,4 |
IndicGenBench | 41,4 | 57,2 | 61,7 | 63,4 |
Multimodale
Benchmark | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
---|---|---|---|
MMMU (val) | 48,8 | 59,6 | 64,9 |
DocVQA | 75,8 | 87,1 | 86,6 |
InfoVQA | 50,0 | 64,9 | 70,6 |
TextVQA | 57,8 | 67,7 | 65.1 |
AI2D | 74,8 | 84,2 | 84,5 |
ChartQA | 68,8 | 75,7 | 78.0 |
VQAv2 (val) | 62,4 | 71,6 | 71,0 |
MathVista (testmini) | 50,0 | 62,9 | 67,6 |
Benchmark | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|
COCOcap | 102 | 111 | 116 |
DocVQA (val) | 72,8 | 82,3 | 85,6 |
InfoVQA (val) | 44,1 | 54,8 | 59,4 |
MMMU (pt) | 39,2 | 50,3 | 56,1 |
TextVQA (val) | 58,9 | 66,5 | 68,6 |
RealWorldQA | 45,5 | 52,2 | 53,9 |
ReMI | 27,3 | 38,5 | 44,8 |
AI2D | 63,2 | 75,2 | 79,0 |
ChartQA | 63,6 | 74,7 | 76,3 |
VQAv2 | 63,9 | 71,2 | 72,9 |
BLINK | 38,0 | 35,9 | 39,6 |
OKVQA | 51,0 | 58,7 | 60,2 |
TallyQA | 42,5 | 51,8 | 54,3 |
VQA SpatialSense | 50,9 | 60,0 | 59,4 |
CountBenchQA | 26.1 | 17,8 | 68,0 |
Etica e sicurezza
Approccio e risultati della valutazione dell'etica e della sicurezza.
Approccio di valutazione
I nostri metodi di valutazione includono valutazioni strutturate e test di red team interni delle norme relative ai contenuti pertinenti. L'attività di red-teaming è stata condotta da diversi team, ognuno con obiettivi e metriche di valutazione umana diversi. Questi modelli sono stati valutati in base a una serie di categorie diverse pertinenti a etica e sicurezza, tra cui:
- Sicurezza dei minori: valutazione di prompt di conversione di testo in testo e di conversione di immagini in testo che coprono le norme sulla sicurezza dei minori, inclusi l'abuso sessuale e lo sfruttamento dei minori.
- Sicurezza dei contenuti:valutazione di prompt di conversione di testo in testo e di conversione di immagini in testo che coprono le norme di sicurezza, tra cui molestie, violenza e immagini crude e incitamento all'odio.
- Danni causati da rappresentazioni: valutazione di prompt di conversione di testo in testo e di conversione di immagini in testo che riguardano le norme sulla sicurezza, inclusi pregiudizi, stereotipi e associazioni o imprecisioni dannose.
Oltre alle valutazioni a livello di sviluppo, effettuiamo "valutazioni di garanzia", ovvero le nostre valutazioni interne "indipendenti" per la presa di decisioni relative alla governance della responsabilità. Vengono condotti separatamente dal team di sviluppo del modello per supportare il processo decisionale relativo al rilascio. I risultati di alto livello vengono comunicati al team di modelli, ma i set di prompt vengono trattenuti per evitare l'overfitting e preservare la capacità dei risultati di informare il processo decisionale. I risultati della valutazione dell'affidabilità vengono segnalati al nostro Consiglio per la responsabilità e la sicurezza nell'ambito della revisione del rilascio.
Risultati della valutazione
Per tutte le aree di test di sicurezza, abbiamo riscontrato notevoli miglioramenti nelle categorie di sicurezza dei bambini, sicurezza dei contenuti e danni causati dalla rappresentazione rispetto ai modelli Gemma precedenti. Tutti i test sono stati condotti senza filtri di sicurezza per valutare le funzionalità e i comportamenti del modello. Sia per le conversioni da testo a testo che da immagine a testo e per tutte le dimensioni del modello, il modello ha prodotto violazioni minime delle norme e ha mostrato miglioramenti significativi rispetto alle prestazioni dei modelli Gemma precedenti in termini di deduzioni infondate. Una limitazione delle nostre valutazioni è che includevano solo prompt in lingua inglese.
Utilizzo e limitazioni
Questi modelli presentano alcune limitazioni di cui gli utenti devono essere a conoscenza.
Utilizzo previsto
I modelli VLM (vision-language) aperti hanno un'ampia gamma di applicazioni in vari settori e domini. Il seguente elenco di potenziali utilizzi non è esaustivo. Lo scopo di questo elenco è fornire informazioni contestuali sui possibili casi d'uso che i creator dei modelli hanno preso in considerazione durante l'addestramento e lo sviluppo dei modelli.
- Comunicazione e creazione di contenuti
- Generazione di testo: questi modelli possono essere utilizzati per generare formati di testo creativo come poesie, script, codice, testi di marketing e bozze di email.
- Chatbot e IA conversazionale: potenzia le interfacce conversazionali per l'assistenza clienti, gli assistenti virtuali o le applicazioni interattive.
- Riepilogo di testi: genera riepiloghi concisi di un corpus di testi, di articoli di ricerca o di report.
- Estrazione di dati dalle immagini: questi modelli possono essere utilizzati per estrarre, interpretare e riepilogare i dati visivi per le comunicazioni di testo.
- Ricerca e istruzione
- Elaborazione del linguaggio naturale (NLP) e ricerca sui VLM: questi modelli possono servire da base per consentire ai ricercatori di sperimentare tecniche di VLM e NLP, sviluppare algoritmi e contribuire allo sviluppo del settore.
- Strumenti per l'apprendimento delle lingue: supportano esperienze di apprendimento delle lingue interattive, aiutano a correggere la grammatica o forniscono esercizi di scrittura.
- Esplorazione della conoscenza: aiuta i ricercatori a esplorare grandi testi generando riepiloghi o rispondendo a domande su argomenti specifici.
Limitazioni
- Dati di addestramento
- La qualità e la diversità dei dati di addestramento influiscono in modo significativo sulle funzionalità del modello. Bias o lacune nei dati di addestramento possono comportare limitazioni nelle risposte del modello.
- L'ambito del set di dati di addestramento determina le aree di argomento che il modello può gestire in modo efficace.
- Contesto e complessità delle attività
- I modelli sono più bravi a svolgere attività che possono essere definite con prompt e istruzioni chiari. Le attività aperte o molto complesse potrebbero essere difficili.
- Le prestazioni di un modello possono essere influenzate dalla quantità di contesto fornito (in genere, un contesto più lungo genera output migliori, fino a un certo punto).
- Ambiguità e sfumature del linguaggio
- Il linguaggio naturale è intrinsecamente complesso. I modelli potrebbero avere difficoltà a cogliere sfumature sottili, sarcasmo o linguaggio figurato.
- Accuratezza fattuale
- I modelli generano risposte in base alle informazioni apprese dai set di dati di addestramento, ma non sono knowledge base. Potrebbero generare affermazioni fattuali errate o obsolete.
- Common Sense
- I modelli si basano su schemi statistici nel linguaggio. Potrebbero mancare della capacità di applicare il ragionamento di buon senso in determinate situazioni.
Considerazioni etiche e rischi
Lo sviluppo di modelli linguistici visivi (VLM) solleva diversi problemi etici. Nel creare un modello aperto, abbiamo preso in considerazione attentamente quanto segue:
- Bias ed equità
- I VLM addestrati su dati di testo e immagini reali di grandi dimensioni possono riflettere i bias socio-culturali incorporati nel materiale di addestramento. Questi modelli sono stati sottoposti a un'attenta verifica, alla pre-elaborazione dei dati di input descritta e alle valutazioni posteriori riportate in questa scheda.
- Disinformazione e uso improprio
- I VLM possono essere utilizzati in modo improprio per generare testo falso, fuorviante o dannoso.
- Per l'utilizzo responsabile del modello sono disponibili linee guida, consulta il Responsible Generative AI Toolkit.
- Trasparenza e responsabilità:
- Questa scheda del modello riassume i dettagli sull'architettura, sulle funzionalità, sulle limitazioni e sui processi di valutazione dei modelli.
- Un modello aperto sviluppato in modo responsabile offre l'opportunità di condividere l'innovazione rendendo la tecnologia VLM accessibile a sviluppatori e ricercatori dell'ecosistema dell'IA.
Rischi identificati e mitigazioni:
- Perpetuazione dei bias: è consigliabile eseguire un monitoraggio continuo (utilizzando metriche di valutazione, revisione umana) e l'esplorazione di tecniche di rimozione dei bias durante l'addestramento del modello, l'ottimizzazione e altri casi d'uso.
- Genesi di contenuti dannosi: sono essenziali meccanismi e linee guida per la sicurezza dei contenuti. Gli sviluppatori sono invitati a prestare attenzione e a implementare misure di salvaguardia della sicurezza dei contenuti appropriate in base alle norme specifiche dei prodotti e ai casi d'uso delle applicazioni.
- Uso improprio a scopo dannoso: le limitazioni tecniche e la formazione di sviluppatori e utenti finali possono contribuire a mitigare le applicazioni dannose dei VLM. Sono fornite risorse didattiche e meccanismi di segnalazione per consentire agli utenti di segnalare gli abusi. Gli usi vietati dei modelli Gemma sono descritti nelle Norme relative all'uso vietato di Gemma.
- Violazioni della privacy: i modelli sono stati addestrati su dati filtrati per la rimozione di determinate informazioni personali e di altri dati sensibili. Gli sviluppatori sono invitati a rispettare le normative sulla privacy con tecniche incentrate sulla tutela della privacy.
Vantaggi
Al momento del rilascio, questa famiglia di modelli offre implementazioni di modelli linguistici di visione aperti ad alte prestazioni progettati da zero per lo sviluppo di un'IA responsabile rispetto ai modelli di dimensioni simili.
Utilizzando le metriche di valutazione del benchmark descritte in questo documento, questi modelli hanno dimostrato di offrire prestazioni superiori rispetto ad altre alternative di modelli aperti di dimensioni simili.