Scheda del modello Gemma 2

Pagina del modello: Gemma

Risorse e documentazione tecnica:

Termini e condizioni d'uso: Termini

Autori: Google

Informazioni sul modello

Descrizione di riepilogo e breve definizione di input e output.

Descrizione

Gemma è una famiglia di modelli aperti leggeri e all'avanguardia di Google, creata sulla base della stessa ricerca e tecnologia utilizzata per creare i modelli Gemini. Si tratta di modelli linguistici di grandi dimensioni solo per il riconoscimento testo-testo, disponibili in inglese, con pesi aperti sia per le varianti preaddestrate sia per quelle ottimizzate in base alle istruzioni. I modelli Gemma sono particolarmente adatti per una serie di attività di generazione di testo, tra cui risposta alle domande, riassunto e ragionamento. Le loro dimensioni relativamente ridotte consentono di implementarli in ambienti con risorse limitate, come laptop, computer o la tua infrastruttura cloud, democratizzando l'accesso ai modelli di IA all'avanguardia e contribuendo a promuovere l'innovazione per tutti.

Input e output

  • Input: stringa di testo, ad esempio una domanda, un prompt o un documento da riassumere.
  • Output: testo in lingua inglese generato in risposta all'input, ad esempio una risposta a una domanda o un riepilogo di un documento.

Citazione

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

Dati del modello

Dati utilizzati per l'addestramento del modello e modalità di elaborazione dei dati.

Set di dati di addestramento

Questi modelli sono stati addestrati su un set di dati di testo che include un'ampia gamma di origini. Il modello da 27 miliardi è stato addestrato con 13 trilioni di token, il modello da 9 miliardi è stato addestrato con 8 trilioni di token e il modello da 2 miliardi è stato addestrato con 2 trilioni di token. Ecco i componenti chiave:

  • Documenti web: una raccolta diversificata di testo web garantisce che il modello sia esposto a un'ampia gamma di stili linguistici, argomenti e vocabolario. Contenuti principalmente in lingua inglese.
  • Codice: l'esposizione del modello al codice lo aiuta ad apprendere la sintassi e i pattern dei linguaggi di programmazione, migliorando la sua capacità di generare codice o comprendere le domande relative al codice.
  • Matematica: l'addestramento su testo matematico aiuta il modello a imparare il ragionamento logico, la rappresentazione simbolica e a rispondere a query matematiche.

La combinazione di queste diverse origini dati è fondamentale per l'addestramento di un potente modello linguistico in grado di gestire un'ampia gamma di attività e formati di testo diversi.

Pre-elaborazione dei dati

Di seguito sono riportati i metodi principali di pulizia e filtri dei dati applicati ai dati di addestramento:

  • Filtro del materiale pedopornografico: è stato applicato un filtro rigoroso per il materiale pedopornografico in più fasi del processo di preparazione dei dati per garantire l'esclusione di contenuti dannosi e illegali.
  • Filtro dei dati sensibili: nell'ambito della creazione di modelli preaddestrati di Gemma sicuri e affidabili, sono state utilizzate tecniche automatiche per filtrare determinate informazioni personali e altri dati sensibili dai set di addestramento.
  • Metodi aggiuntivi: filtri in base alla qualità e alla sicurezza dei contenuti in linea con le nostre norme.

Informazioni sull'implementazione

Dettagli sugli elementi interni del modello.

Hardware

Gemma è stata addestrata utilizzando l'hardware (TPUv5p) della più recente generazione di Tensor Processing Unit (TPU).

L'addestramento di modelli linguistici di grandi dimensioni richiede una potenza di calcolo significativa. Le TPU, progettate specificamente per le operazioni sulle matrici comuni nel machine learning, offrono diversi vantaggi in questo dominio:

  • Prestazioni: le TPU sono progettate specificamente per gestire i calcoli massicci coinvolti nell'addestramento degli LLM. Possono accelerare notevolmente l'addestramento rispetto alle CPU.
  • Memoria: le TPU sono spesso dotate di grandi quantità di memoria ad alta larghezza di banda, che consente di gestire modelli e dimensioni dei batch di grandi dimensioni durante l'addestramento. Ciò può contribuire a migliorare la qualità del modello.
  • Scalabilità: i pod TPU (grandi cluster di TPU) forniscono una soluzione scalabile per gestire la crescente complessità dei modelli di base di grandi dimensioni. Puoi distribuire la formazione su più dispositivi TPU per un'elaborazione più rapida ed efficiente.
  • Economicità: in molti scenari, le TPU possono fornire una soluzione più economica per l'addestramento di modelli di grandi dimensioni rispetto all'infrastruttura basata su CPU, soprattutto se si considerano il tempo e le risorse risparmiati grazie all'addestramento più rapido.
  • Questi vantaggi sono in linea con gli impegni di Google per un'attività sostenibile.

Software

L'addestramento è stato eseguito utilizzando JAX e ML Pathways.

JAX consente ai ricercatori di sfruttare l'hardware di ultima generazione, tra cui le TPU, per un addestramento più rapido ed efficiente di modelli di grandi dimensioni.

ML Pathways è l'ultimo impegno di Google per creare sistemi di intelligenza artificiale in grado di generalizzare su più attività. Questo approccio è particolarmente adatto per i modelli di base, inclusi i modelli linguistici di grandi dimensioni come questi.

Insieme, JAX e ML Pathways vengono utilizzati come descritto nel documento sulla famiglia di modelli Gemini; "il modello di programmazione "singolo controller" di Jax e Pathways consente a un singolo processo Python di orchestrare l'intera esecuzione dell'addestramento, semplificando notevolmente il flusso di lavoro di sviluppo".

Valutazione

Metriche e risultati della valutazione del modello.

Risultati del benchmark

Questi modelli sono stati valutati in base a una vasta raccolta di set di dati e metriche diversi per coprire diversi aspetti della generazione di testo:

Benchmark Metrica Gemma 2 PT 2B Gemma 2 PT 9B Gemma 2 PT 27B
MMLU 5 foto, 1 migliore 51,3 71,3 75,2
HellaSwag 10 scatti 73,0 81,9 86,4
PIQA Zero-shot 77,8 81,7 83,2
SocialIQA Zero-shot 51,9 53,4 53,7
BoolQ Zero-shot 72,5 84,2 84,8
WinoGrande punteggio parziale 70,9 80,6 83,7
ARC-e Zero-shot 80,1 88,0 88,6
ARC-c 25 scatti 55,4 68,4 71,4
TriviaQA 5 scatti 59,4 76,6 83,7
Domande naturali 5 scatti 16,7 29,2 34,5
HumanEval pass@1 17,7 40,2 51,8
MBPP 3 scatti 29,6 52,4 62,6
GSM8K 5 scatti, maj@1 23,9 68,6 74,0
MATH 4 scatti 15,0 36,6 42,3
AGIEval 3-5-shot 30,6 52,8 55.1
DROP 3 foto, F1 52,0 69,4 72,2
BIG-Bench 3 scatti, CoT 41,9 68,2 74,9

Etica e sicurezza

Approccio e risultati della valutazione dell'etica e della sicurezza.

Approccio di valutazione

I nostri metodi di valutazione includono valutazioni strutturate e test di red team interni delle norme relative ai contenuti pertinenti. L'attività di red teaming è stata condotta da diversi team, ognuno con obiettivi e metriche di valutazione umana diversi. Questi modelli sono stati valutati in base a una serie di categorie diverse pertinenti a etica e sicurezza, tra cui:

  • Sicurezza dei contenuti di testo a testo: valutazione umana dei prompt che riguardano le norme di sicurezza, inclusi abuso e sfruttamento sessuale di minori, molestie, violenza e spargimenti di sangue, nonché incitamento all'odio.
  • Danni di rappresentazione da testo a testo: benchmark rispetto a set di dati accademici pertinenti come WinoBias e BBQ Dataset.
  • Memorizzazione: valutazione automatica della memorizzazione dei dati di addestramento, incluso il rischio di esposizione di informazioni che consentono l'identificazione personale.
  • Danni su larga scala: test per "funzionalità pericolose", come rischi chimici, biologici, radiologici e nucleari (CBRN).

Risultati della valutazione

I risultati delle valutazioni relative a etica e sicurezza rientrano nelle soglie accettabili per rispettare le norme interne per categorie quali sicurezza dei bambini, sicurezza dei contenuti, danni rappresentazionali, memorizzazione, danni su larga scala. Oltre a valutazioni interne rigorose, qui vengono mostrati i risultati di benchmark di sicurezza ben noti come BBQ, BOLD, Winogender, Winobias, RealToxicity e TruthfulQA.

Gemma 2.0

Benchmark Metrica Gemma 2 IT 2B Gemma 2 IT 9B Gemma 2 IT 27B
RealToxicity media 8.16 8,25 8,84
CrowS-Pairs top-1 37,67 37,47 36,67
BBQ Ambig 1 scatto, primo 83,20 88,58 85,99
BBQ Disambig top-1 69,31 82,67 86,94
Winogender top-1 52,91 79,17 77,22
TruthfulQA 43,72 50,27 51,60
Winobias 1_2 59,28 78,09 81,94
Winobias 2_2 88,57 95,32 97,22
Toxigen 48,32 39,30 38,42

Valutazioni delle capacità pericolose

Approccio di valutazione

Abbiamo valutato una serie di funzionalità pericolose:

  • Cybersicurezza offensiva: per valutare il potenziale di utilizzo improprio del modello in contesti di cybersicurezza, abbiamo utilizzato sia le piattaforme Capture-the-Flag (CTF) disponibili pubblicamente, come InterCode-CTF e Hack the Box, sia le sfide CTF sviluppate internamente. Queste valutazioni misurano la capacità del modello di sfruttare le vulnerabilità e ottenere l'accesso non autorizzato in ambienti simulati.
  • Autoproliferazione:abbiamo valutato la capacità di autoproliferazione del modello progettando attività che richiedono l'acquisizione di risorse, l'esecuzione di codice e l'interazione con sistemi remoti. Queste valutazioni misurano la capacità del modello di replicarsi e diffondersi in modo indipendente.
  • Persuasione: per valutare la capacità del modello di persuasione e inganno, abbiamo condotto studi sulla persuasione umana. Questi studi hanno coinvolto scenari che misurano la capacità del modello di creare un rapporto, influenzare le convinzioni e suscitare azioni specifiche da parte dei partecipanti umani.

Risultati della valutazione

Tutte le valutazioni sono descritte in dettaglio in Evaluating Frontier Models for Dangerous Capabilities e brevemente nel Gemma 2 technical report.

Valutazione Capacità Gemma 2 IT 27B
InterCode-CTF Cybersicurezza offensiva 34/76 sfide
CTF interno Cybersicurezza offensiva 13 sfide
Hack the Box Cybersicurezza offensiva 0/13 sfide
Preavviso di autoproliferazione Autoproliferazione Sfide 1/10
Campagna di charme Persuasione Percentuale di partecipanti che sono d'accordo: 81% interessante, 75% parlerebbe di nuovo, 80% ha stabilito un contatto personale
Clic sui link Persuasione 34% dei partecipanti
Trova informazioni Persuasione 9% dei partecipanti
Esegui codice Persuasione 11% dei partecipanti
Il denaro parla Persuasione Donazione media di 3,72 £
Web of Lies Persuasione 18% di spostamento medio verso la credenza corretta, 1% di spostamento medio verso la credenza sbagliata

Utilizzo e limitazioni

Questi modelli presentano alcune limitazioni di cui gli utenti devono essere a conoscenza.

Utilizzo previsto

I modelli linguistici di grandi dimensioni (LLM) aperti hanno un'ampia gamma di applicazioni in vari settori e domini. Il seguente elenco di potenziali utilizzi non è completo. Lo scopo di questo elenco è fornire informazioni contestuali sui possibili casi d'uso che gli autori del modello hanno preso in considerazione durante l'addestramento e lo sviluppo del modello.

  • Comunicazione e creazione di contenuti
    • Generazione di testo: questi modelli possono essere utilizzati per generare formati di testo creativi come poesie, script, codice, testi di marketing e bozze di email.
    • Chatbot e IA conversazionale: potenzia le interfacce conversazionali per l'assistenza clienti, gli assistenti virtuali o le applicazioni interattive.
    • Riepilogo del testo: genera riepiloghi concisi di un corpus di testo, di articoli di ricerca o di report.
  • Ricerca e istruzione
    • Ricerca sull'elaborazione del linguaggio naturale (NLP): questi modelli possono essere utilizzati come base per sperimentare tecniche di NLP, sviluppare algoritmi e contribuire allo sviluppo del settore.
    • Strumenti per l'apprendimento delle lingue: supportano esperienze di apprendimento delle lingue interattive, aiutano a correggere la grammatica o forniscono esercizi di scrittura.
    • Esplorazione della conoscenza: aiuta i ricercatori a esplorare grandi quantità di testo generando riepiloghi o rispondendo a domande su argomenti specifici.

Limitazioni

  • Dati di addestramento
    • La qualità e la diversità dei dati di addestramento influiscono in modo significativo sulle funzionalità del modello. Bias o lacune nei dati di addestramento possono portare a limitare le risposte del modello.
    • L'ambito del set di dati di addestramento determina le aree tematiche che il modello può gestire in modo efficace.
  • Contesto e complessità delle attività
    • Gli LLM sono più efficaci per le attività che possono essere definite con prompt e istruzioni chiari. Le attività aperte o molto complesse potrebbero essere difficili.
    • Le prestazioni di un modello possono essere influenzate dalla quantità di contesto fornita (un contesto più lungo in genere genera output migliori, fino a un certo punto).
  • Ambiguità e sfumature del linguaggio
    • Il linguaggio naturale è intrinsecamente complesso. Gli LLM potrebbero avere difficoltà a cogliere sfumature sottili, sarcasmo o linguaggio figurato.
  • Accuratezza fattuale
    • Gli LLM generano risposte in base alle informazioni apprese dai set di dati di addestramento, ma non sono knowledge base. Potrebbero generare affermazioni fattuali errate o obsolete.
  • Common Sense
    • Gli LLM si basano su pattern statistici nel linguaggio. Potrebbero non avere la capacità di applicare il ragionamento di buon senso in determinate situazioni.

Considerazioni etiche e rischi

Lo sviluppo di modelli linguistici di grandi dimensioni (LLM) solleva diversi problemi etici. Nel creare un modello aperto, abbiamo preso in considerazione attentamente quanto segue:

  • Bias ed equità
    • Gli LLM addestrati su dati di testo reali su larga scala possono riflettere i bias socio-culturali incorporati nel materiale di addestramento. Questi modelli sono stati sottoposti a un'attenta revisione, al pretrattamento dei dati di input descritto e alle valutazioni successive riportate in questa scheda.
  • Disinformazione e uso improprio
    • Gli LLM possono essere utilizzati in modo improprio per generare testo falso, fuorviante o dannoso.
    • Per l'utilizzo responsabile del modello sono fornite linee guida, consulta il Responsible Generative AI Toolkit.
  • Trasparenza e responsabilità:
    • Questa scheda del modello riassume i dettagli sull'architettura, sulle funzionalità, sulle limitazioni e sui processi di valutazione dei modelli.
    • Un modello aperto sviluppato in modo responsabile offre l'opportunità di condividere l'innovazione rendendo la tecnologia LLM accessibile a sviluppatori e ricercatori nell'ecosistema dell'IA.

Rischi identificati e mitigazioni:

  • Perpetuazione dei bias: è consigliabile eseguire un monitoraggio continuo (utilizzando metriche di valutazione, revisione umana) e l'esplorazione di tecniche di rimozione dei bias durante l'addestramento del modello, l'ottimizzazione e altri casi d'uso.
  • Generazione di contenuti dannosi: meccanismi e linee guida per la sicurezza dei contenuti sono essenziali. Gli sviluppatori sono invitati a prestare attenzione e a implementare misure di salvaguardia della sicurezza dei contenuti appropriate in base alle norme specifiche dei prodotti e ai casi d'uso delle applicazioni.
  • Uso improprio a scopo dannoso: le limitazioni tecniche e la formazione di sviluppatori e utenti finali possono contribuire a mitigare le applicazioni dannose degli LLM. Sono fornite risorse didattiche e meccanismi di segnalazione per consentire agli utenti di segnalare gli abusi. Gli usi vietati dei modelli Gemma sono descritti nelle Norme relative all'uso vietato di Gemma.
  • Violazioni della privacy: i modelli sono stati addestrati su dati filtrati per la rimozione di PII (informazioni che consentono l'identificazione personale). Gli sviluppatori sono invitati a rispettare le normative sulla privacy con tecniche che tutelano la privacy.

Vantaggi

Al momento del rilascio, questa famiglia di modelli fornisce implementazioni di modelli linguistici di grandi dimensioni aperti ad alte prestazioni, progettati da zero per lo sviluppo di AI responsabile, rispetto ai modelli di dimensioni simili.

Utilizzando le metriche di valutazione del benchmark descritte in questo documento, questi modelli hanno dimostrato di offrire prestazioni superiori rispetto ad altre alternative di modelli aperti di dimensioni simili.