Scheda del modello Gemma 2

Model Page: Gemma

Risorse e documentazione tecnica:

Termini e condizioni d'uso: Termini

Autori: Google

Informazioni sul modello

Descrizione di riepilogo e breve definizione di input e output.

Descrizione

Gemma è una famiglia di modelli aperti di Google, leggeri e all'avanguardia, basati sulla stessa ricerca e tecnologia utilizzate per creare i modelli Gemini. Si tratta di modelli linguistici di grandi dimensioni (LLM), solo da decoder, disponibili in inglese, con pesi aperti sia per le varianti preaddestrate che per quelle ottimizzate per le istruzioni. I modelli Gemma sono adatti per varie attività di generazione di testi, tra cui risposta alle domande, riassunto e ragionamento. Le dimensioni relativamente ridotte consentono di eseguirne il deployment in ambienti con risorse limitate, come un laptop, un computer desktop o la tua infrastruttura cloud, democratizzando l'accesso a modelli di IA all'avanguardia e contribuendo a promuovere l'innovazione per tutti.

Input e output

  • Input: stringa di testo, ad esempio una domanda, un prompt o un documento da riassumere.
  • Output: testo generato in lingua inglese in risposta all'input, ad esempio una risposta a una domanda o un riepilogo di un documento.

Citazione

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

Dati del modello

Dati utilizzati per l'addestramento del modello e come sono stati elaborati.

Set di dati di addestramento

Questi modelli sono stati addestrati su un set di dati di dati di testo che include un'ampia varietà di origini. Il modello da 27 miliardi è stato addestrato con 13 bilioni di token e il modello da 9 miliardi con 8 trilioni di token. Di seguito sono riportati i componenti principali:

  • Documenti web: una raccolta diversificata di testo web garantisce che il modello sia esposto a un'ampia gamma di stili linguistici, argomenti e vocabolari. Contenuti principalmente in lingua inglese.
  • Codice: esporre il modello a codice lo aiuta ad apprendere la sintassi e i pattern dei linguaggi di programmazione, migliorando la sua capacità di generare codice o comprendere le domande relative al codice.
  • Matematica: l'addestramento su testi matematici aiuta il modello ad apprendere il ragionamento logico, la rappresentazione simbolica e a rispondere a query matematiche.

La combinazione di queste diverse origini dati è fondamentale per addestrare un modello linguistico potente in grado di gestire un'ampia varietà di attività e formati di testo diversi.

Pre-elaborazione dei dati

Ecco i principali metodi di pulizia e filtro dei dati applicati ai dati di addestramento:

  • Filtro pedopornografico: il rigoroso filtro di materiale pedopornografico è stato applicato in più fasi del processo di preparazione dei dati per garantire l'esclusione di contenuti dannosi e illegali.
  • Filtro dei dati sensibili: nell'ambito della sicurezza e dell'affidabilità dei modelli preaddestrati di Gemma, sono state utilizzate tecniche automatizzate per filtrare determinate informazioni personali e altri dati sensibili dai set di addestramento.
  • Metodi aggiuntivi: filtri basati sulla qualità e sulla sicurezza dei contenuti in linea con le nostre norme.

Informazioni sull'implementazione

Dettagli sui componenti interni del modello.

Hardware

L'addestramento di Gemma è stato eseguito utilizzando l'hardware Tensor Processing Unit (TPU) di ultima generazione (TPUv5p).

L'addestramento di modelli linguistici di grandi dimensioni (LLM) richiede una notevole potenza di calcolo. Le TPU, progettate specificamente per le operazioni su matrici comuni nel machine learning, offrono diversi vantaggi in questo dominio:

  • Prestazioni: le TPU sono progettate specificamente per gestire gli enormi calcoli necessari all'addestramento degli LLM. Possono accelerare notevolmente l'addestramento rispetto alle CPU.
  • Memoria: le TPU spesso dispongono di grandi quantità di memoria a elevata larghezza di banda, che consente la gestione di modelli di grandi dimensioni e dimensioni del batch durante l'addestramento. Ciò può portare a una migliore qualità del modello.
  • Scalabilità: i pod TPU (cluster di TPU di grandi dimensioni) forniscono una soluzione scalabile per gestire la crescente complessità dei modelli di base di grandi dimensioni. Puoi distribuire l'addestramento su più dispositivi TPU per un'elaborazione più rapida ed efficiente.
  • Convenienza: in molti scenari, le TPU possono fornire una soluzione più conveniente per l'addestramento di modelli di grandi dimensioni rispetto all'infrastruttura basata su CPU, soprattutto se si considera il tempo e le risorse risparmiati grazie all'addestramento più rapido.
  • Questi vantaggi sono in linea con gli impegni di Google a operare in modo sostenibile.

Software

L'addestramento è stato eseguito utilizzando JAX e ML Pathways.

JAX consente ai ricercatori di sfruttare l'ultima generazione di hardware, incluse le TPU, per un addestramento più rapido ed efficiente di modelli di grandi dimensioni.

ML Pathways è l'ultima iniziativa di Google per creare sistemi artificialmente intelligenti in grado di generalizzare in più attività. È particolarmente adatto per i modelli di base, inclusi i modelli linguistici di grandi dimensioni (LLM) come questi.

Insieme, JAX e ML Pathways vengono utilizzati come descritto nell'articolo sulla famiglia di modelli Gemini; "il modello di programmazione "a controller singolo" di Jax e Pathways consente a un singolo processo Python di orchestrare l'intera sessione di addestramento, semplificando notevolmente il flusso di lavoro di sviluppo."

Valutazione

Metriche e risultati di valutazione del modello.

Risultati benchmark

Questi modelli sono stati valutati rispetto a un'ampia raccolta di set di dati e metriche diversi per coprire diversi aspetti della generazione del testo:

Benchmark Metrica Gemma PT 9B Gemma PT 27B
MMLU 5-colpi, top-1 71,3 75,2
HellaSwag 10 tiri 81,9 86,4
PIQA Tiro 0 81,7 83,2
SocialIQA Tiro 0 53,4 53,7
BoolQ Tiro 0 84,2 84,8
WinoGrande punteggio parziale 80,6 83,7
ARC-e Tiro 0 88,0 88,6
ARC-c 25 colpi 68,4 71,4
TriviaQA 5 tiri 76,6 83,7
Domande naturali 5 tiri 29,2 34,50
HumanEval pass@1 40,2 51,8
MBPP 3 foto 52,4 62,6
GSM8K 5-colpi, maj@1 68,6 74,0
MATH 4-colpi 36,6 42,3
AGIEval 3-5-colpi 52,8 55,1
BIG-Bench 3 foto, lettino per bambini 68,2 74,9

Etica e sicurezza

Approccio e risultati della valutazione dell’etica e della sicurezza.

Approccio di valutazione

I nostri metodi di valutazione includono valutazioni strutturate e test interni del red team delle norme relative ai contenuti pertinenti. Il red teaming è stato condotto da una serie di team diversi, ognuno con obiettivi e metriche di valutazione umane diversi. Questi modelli sono stati valutati in base a diverse categorie rilevanti per l'etica e la sicurezza, tra cui:

  • Sicurezza dei contenuti da testo a testo: valutazione da parte di persone fisiche sui prompt relativi alle norme sulla sicurezza, inclusi sfruttamento e abusi sessuali su minori, molestie, violenza e spargimenti di sangue e incitamento all'odio.
  • Danni rappresentativi da testo a testo: confronta con set di dati accademici pertinenti come WinoBias e Set di dati BarbQ.
  • Memorizzazione: valutazione automatica della memorizzazione dei dati di addestramento, incluso il rischio di esposizione delle informazioni che consentono l'identificazione personale.
  • Danno su larga scala: testa la ricerca di "funzionalità pericolose", come rischi chimici, biologici, radiologici e nucleari (CBRN).

Risultati valutazione

I risultati delle valutazioni in materia di etica e sicurezza rientrano nelle soglie accettabili per il rispetto delle norme interne per categorie quali sicurezza dei minori, sicurezza dei contenuti, danni rappresentativi, memorizzazione e danni su larga scala. In aggiunta a solide valutazioni interne, qui vengono mostrati i risultati di famosi benchmark di sicurezza come BBQ, BOLD, Winogender, Winobias, RealToxicity e TruthfulQA.

Gemma 2.0

Benchmark Metrica Gemma 2 IT 9B Gemma 2 IT 27B
RealToxicity media 8,25 8,84
Coppie di corvi top-1 37,47 36,67
Barbecue Ambig 1-scatto, top-1 88,58 85,99
Disegni barbecue top-1 82,67 86,94
Winogender top-1 79,17 77,22
TruthfulQA 50,27 51,60
Winobia 1_2 78,09 81,94
Winobia 2_2 95,32 97,22
Tossigeno 39,30 38,42

Utilizzo e limitazioni

Questi modelli presentano alcune limitazioni di cui gli utenti devono essere a conoscenza.

Uso previsto

I modelli linguistici di grandi dimensioni (LLM) aperti hanno una vasta gamma di applicazioni in vari settori e domini. Il seguente elenco di potenziali utilizzi non è esaustivo. Lo scopo di questo elenco è fornire informazioni contestuali sui possibili casi d'uso che i creatori dei modelli hanno considerato nell'ambito dell'addestramento e dello sviluppo dei modelli.

  • Creazione e comunicazione di contenuti
    • Generazione del testo: questi modelli possono essere utilizzati per generare formati di testo delle creatività, come poesie, script, codice, testi di marketing e bozze di email.
    • Chatbot e IA conversazionale: potenzia interfacce di conversazione per assistenza clienti, assistenti virtuali o applicazioni interattive.
    • Riassunto del testo: genera riassunti concisi di un corpus di testo, articoli di ricerca o report.
  • Ricerca e istruzione
    • Ricerca sull'elaborazione del linguaggio naturale (NLP): questi modelli possono servire ai ricercatori per sperimentare le tecniche di NLP, sviluppare algoritmi e contribuire al progresso del settore.
    • Strumenti per l'apprendimento delle lingue: supporta esperienze di apprendimento delle lingue interattive, facilitando la correzione della grammatica o sulla scrittura.
    • Esplorazione delle conoscenze: aiuta i ricercatori a esplorare grandi volumi di testo generando riepiloghi o rispondendo a domande su argomenti specifici.

Limitazioni

  • Dati di addestramento
    • La qualità e la diversità dei dati di addestramento influiscono in modo significativo sulle capacità del modello. I bias o le lacune nei dati di addestramento possono portare a limitazioni nelle risposte del modello.
    • L'ambito del set di dati di addestramento determina le aree degli argomenti che il modello può gestire in modo efficace.
  • Contesto e complessità delle attività
    • Gli LLM sono migliori nelle attività che possono essere racchiuse con istruzioni e prompt chiari. Le attività aperte o molto complesse potrebbero essere complesse.
    • Le prestazioni di un modello possono essere influenzate dalla quantità di contesto fornito (un contesto più lungo in genere porta a output migliori, fino a un certo punto).
  • Ambiguità e sfumature del linguaggio
    • Il linguaggio naturale è intrinsecamente complesso. Gli LLM potrebbero avere difficoltà a cogliere le sfumature, il sarcasmo o il linguaggio figurativo.
  • Accuratezza oggettiva
    • Gli LLM generano risposte basate su informazioni apprese dai set di dati di addestramento, ma non sono knowledge base. Potrebbero generare affermazioni fattuali errate o obsolete.
  • Senso comune
    • gli LLM si basano su pattern statistici nel linguaggio. Potrebbero non essere in grado di applicare il ragionamento di buon senso in determinate situazioni.

Considerazioni etiche e rischi

Lo sviluppo di modelli linguistici di grandi dimensioni (LLM) solleva diverse preoccupazioni etiche. Durante la creazione di un modello aperto, abbiamo considerato attentamente i seguenti aspetti:

  • Pregiudizi ed equità
    • Gli LLM addestrati su dati di testo reali su larga scala possono rispecchiare pregiudizi socio-culturali incorporati nel materiale di formazione. Questi modelli sono stati sottoposti a un attento esame, sono state descritte la pre-elaborazione dei dati di input e valutazioni a posteriori riportate in questa scheda.
  • Disinformazione e uso improprio
    • Gli LLM possono essere utilizzati in modo improprio per generare testo falso, fuorviante o dannoso.
    • Vengono fornite linee guida per l'utilizzo responsabile con il modello. Consulta il Toolkit per l'IA generativa responsabile.
  • Trasparenza e responsabilità:
    • Questa scheda del modello riassume i dettagli sull'architettura, le funzionalità, i limiti e i processi di valutazione dei modelli.
    • Un modello aperto sviluppato in modo responsabile offre l'opportunità di condividere l'innovazione rendendo la tecnologia LLM accessibile a sviluppatori e ricercatori nell'intero ecosistema IA.

Rischi identificati e mitigazioni:

  • Perpetuazione dei bias: si consiglia di eseguire il monitoraggio continuo (utilizzando le metriche di valutazione, la revisione da parte di persone fisiche) e l'esplorazione delle tecniche di de-biaing durante l'addestramento del modello, l'ottimizzazione e altri casi d'uso.
  • Generazione di contenuti dannosi: i meccanismi e le linee guida per la sicurezza dei contenuti sono essenziali. Gli sviluppatori sono invitati a procedere con cautela e implementare misure di sicurezza appropriate per la sicurezza dei contenuti in base alle norme specifiche dei prodotti e ai casi d'uso delle applicazioni.
  • Uso improprio per scopi dannosi: le limitazioni tecniche e la formazione per sviluppatori e utenti finali possono contribuire a mitigare l'utilizzo di applicazioni dannose degli LLM. Vengono fornite risorse didattiche e meccanismi di segnalazione per consentire agli utenti di segnalare l'uso improprio. Gli usi vietati dei modelli Gemma sono descritti nelle Norme relative all'uso vietato di Gemma.
  • Violazioni della privacy: i modelli sono stati addestrati su dati filtrati per la rimozione di PII (informazioni che consentono l'identificazione personale). Gli sviluppatori sono invitati a rispettare le normative sulla privacy con tecniche incentrate sulla tutela della privacy.

Vantaggi

Al momento del rilascio, questa famiglia di modelli fornisce implementazioni di modelli linguistici di grandi dimensioni aperto ad alte prestazioni, progettate da zero per lo sviluppo di un'IA responsabile rispetto a modelli di dimensioni simili.

Utilizzando le metriche di valutazione dei benchmark descritte in questo documento, questi modelli hanno dimostrato di fornire prestazioni superiori rispetto ad altre alternative di modelli aperti di dimensioni comparabili.