Scheda modello Gemma

Pagina del modello: Gemma

Risorse e documentazione tecnica:

Termini e condizioni d'uso: Termini

Autori: Google

Informazioni sul modello

Descrizione riepilogativa e breve definizione di input e output.

Descrizione

Gemma è una famiglia di modelli aperti di Google leggeri e all'avanguardia, basati sulla stessa ricerca e tecnologia impiegata per creare i modelli Gemini. Si tratta di modelli linguistici di grandi dimensioni da testo a testo, solo decoder, disponibili in inglese, con pesi aperti, varianti preaddestrate e varianti ottimizzate per le istruzioni. I modelli Gemma sono particolarmente adatti per una varietà di attività di generazione di testo, tra cui la risposta alle domande, il riepilogo e il ragionamento. Le loro dimensioni relativamente ridotte ne consentono il deployment in ambienti con risorse limitate come un laptop, un computer desktop o la tua infrastruttura cloud, democratizzando l'accesso a modelli di IA all'avanguardia e contribuendo a promuovere l'innovazione per tutti.

Ingressi e uscite

  • Input: stringa di testo, ad esempio una domanda, un prompt o un documento da riassumere.
  • Output: testo generato in lingua inglese in risposta all'input, ad esempio una risposta a una domanda o un riepilogo di un documento.

Citazione

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
    year={2024}
}

Dati del modello

Dati utilizzati per l'addestramento del modello e come sono stati elaborati i dati.

Set di dati di addestramento

Questi modelli sono stati addestrati su un set di dati di dati di testo che include un'ampia varietà di origini, per un totale di 6 trilioni di token. Di seguito sono riportati i componenti principali:

  • Documenti web: una raccolta diversificata di testo web garantisce che il modello sia esposto a un'ampia gamma di stili linguistici, argomenti e vocabolari. Principalmente contenuti in lingua inglese.
  • Codice: l'esposizione del modello al codice consente di apprendere la sintassi e i pattern dei linguaggi di programmazione, migliorando così la sua capacità di generare codice o di comprendere domande relative al codice.
  • Matematica: l'addestramento su testo matematico aiuta il modello ad apprendere il ragionamento logico e la rappresentazione simbolica e ad affrontare query matematiche.

La combinazione di queste diverse origini dati è fondamentale per addestrare un modello linguistico efficace in grado di gestire un'ampia varietà di attività e formati di testo diversi.

Pre-elaborazione dei dati

Ecco i principali metodi di pulizia e filtro dei dati applicati ai dati di addestramento:

  • Filtro di materiale pedopornografico: è stato applicato il filtro rigoroso di materiale pedopornografico in più fasi del processo di preparazione dei dati per garantire l'esclusione di contenuti dannosi e illegali.
  • Filtro dei dati sensibili: nell'ambito della sicurezza e dell'affidabilità dei modelli preaddestrati di Gemma, sono state utilizzate tecniche automatizzate per filtrare alcune informazioni personali e altri dati sensibili dai set di addestramento.
  • Metodi aggiuntivi: filtri in base alla qualità e alla sicurezza dei contenuti in linea con le nostre norme.

Informazioni sull'implementazione

Dettagli sugli elementi interni del modello.

Hardware

Gemma è stata addestrata utilizzando l'hardware di ultima generazione Tensor Processing Unit (TPU) (TPUv5e).

L'addestramento di modelli linguistici di grandi dimensioni (LLM) richiede una potenza di calcolo significativa. Le TPU, progettate specificamente per le operazioni matriciali comuni nel machine learning, offrono diversi vantaggi in questo dominio:

  • Prestazioni: le TPU sono progettate specificatamente per gestire gli enormi calcoli relativi all'addestramento degli LLM. Possono accelerare notevolmente l'addestramento rispetto alle CPU.
  • Memoria: le TPU spesso hanno grandi quantità di memoria a larghezza di banda elevata, che consentono la gestione di modelli di grandi dimensioni e di dimensioni batch durante l'addestramento. Ciò può portare a una migliore qualità del modello.
  • Scalabilità: i pod TPU (grandi cluster di TPU) forniscono una soluzione scalabile per gestire la crescente complessità dei modelli di base di grandi dimensioni. Puoi distribuire l'addestramento su più dispositivi TPU per un'elaborazione più rapida ed efficiente.
  • Convenienza: in molti scenari, le TPU possono fornire una soluzione più conveniente per l'addestramento di modelli di grandi dimensioni rispetto all'infrastruttura basata su CPU, soprattutto se si considera il tempo e le risorse risparmiati grazie a un addestramento più veloce.
  • Questi vantaggi sono in linea con l'impegno di Google a operare in modo sostenibile.

Software

L'addestramento è stato effettuato utilizzando JAX e ML Pathways.

JAX consente ai ricercatori di sfruttare l'hardware di ultima generazione, incluse le TPU, per un addestramento più rapido ed efficiente di modelli di grandi dimensioni.

ML Pathways è il più recente sforzo di Google per creare sistemi intelligenti in grado di generalizzare per più attività. Ciò è particolarmente adatto per i modelli di base, inclusi i modelli linguistici di grandi dimensioni (LLM) come questi.

Insieme, JAX e ML Pathways vengono utilizzati come descritto nell'articolo sulla famiglia di modelli Gemini. "Il modello di programmazione "singolo controller" di Jax e Pathways consente a un singolo processo Python di orchestrare l'intera esecuzione di addestramento, semplificando drasticamente il flusso di lavoro di sviluppo."

Valutazione

Modello di metriche e risultati di valutazione.

Risultati benchmark

Questi modelli sono stati valutati su una vasta raccolta di diversi set di dati e metriche per coprire diversi aspetti della generazione del testo:

Benchmark Metrica Gemma PT 2B Gemma PT 7B
MMLU 5 scatti, primo 1 42,3 64,3
HellaSwag Tiro 0 71,4 81,2
PIQA Tiro 0 77,3 81,2
SocialIQA Tiro 0 49,7 51,8
BoolQ Tiro 0 69,4 83,2
WinoGrande punteggio parziale 65,4 72,3
CommonsenseQA Tiri a 7 tiri 65,3 71,3
OpenBookQA 47,8 52,8
ARC-e 73,2 81,5
ARC-c 42,1 53,2
TriviaQA 5 scatti 53,2 63,4
Domande naturali 5 scatti 12,5 23,0
HumanEval tessera@1 22.0 32,3
MBPP 3 scatti 29,2 44,4
GSM8K marco@1 17,7 46,4
MATH 4 scatti 11,8 24,3
AGIEval 24,2 41,7
Grande panca 35,2 55,1
Media 44,9 56,4

Etica e sicurezza

Approccio e risultati alla valutazione dell'etica e della sicurezza.

Approccio di valutazione

I nostri metodi di valutazione includono valutazioni strutturate e test interni di red team delle norme relative ai contenuti pertinenti. Il red team è stato condotto da una serie di team diversi, ciascuno con obiettivi e metriche di valutazione diverse da parte di persone fisiche. Questi modelli sono stati valutati in base a una serie di categorie diverse relative all'etica e alla sicurezza, tra cui:

  • Sicurezza dei contenuti da testo a testo: valutazione umana di prompt riguardanti le norme sulla sicurezza, inclusi sfruttamento e abusi sessuali su minori, molestie, violenza e spargimenti di sangue e incitamento all'odio.
  • Text-to-Text Representational Harms: confronta con set di dati accademici pertinenti come WinoBias e BBQ Dataset.
  • Memorizzazione: valutazione automatica della memorizzazione dei dati di addestramento, compreso il rischio di esposizione di informazioni che consentono l'identificazione personale.
  • Danni su larga scala: test per "capacità pericolose", ad esempio i rischi chimici, biologici, radiologici e nucleari (CBRN).

Risultati valutazione

I risultati delle valutazioni etiche e di sicurezza rientrano in soglie accettabili per il rispetto delle norme interne per categorie quali sicurezza dei minori, sicurezza dei contenuti, danni rappresentativi, memorizzazione e danni su larga scala. Oltre a solide valutazioni interne, qui vengono mostrati i risultati di noti benchmark di sicurezza come BBQ, BOLD, Winogender, Winobias, RealToxicity e TruthfulQA.

Gemma 1.0

Benchmark Metrica Gemma 1.0 IT 2B Gemma 1.0 IT 7B
RealToxicity media 6,86 7,90
GRASSETTO 45,57 49,08
Coppie di corvi top-1 45,82 51,33
Barbecue Ambig 1 colpo, primo 1 62,58 92,54
Disambigazione barbecue top-1 54,62 71,99
Winogender top-1 51,25 54,17
TruthfulQA 44,84 31,81
Winobias 1_2 56,12 59,09
Winobias 2_2 91,10 92,23
Tossigeni 29,77 39,59

Gemma 1.1

Benchmark Metrica Gemma 1.1 IT 2B Gemma 1.1 IT 7B
RealToxicity media 7,03 8,04
GRASSETTO 47,76
Coppie di corvi top-1 45,89 49,67
Barbecue Ambig 1 colpo, primo 1 58,97 86,06
Disambigazione barbecue top-1 53,90 85,08
Winogender top-1 50,14 57,64
TruthfulQA 44,24 45,34
Winobias 1_2 55,93 59,22
Winobias 2_2 89,46 89,2
Tossigeni 29,64 38,75

Utilizzo e limitazioni

Questi modelli hanno alcune limitazioni di cui gli utenti devono essere consapevoli.

Utilizzo previsto

I modelli linguistici di grandi dimensioni (LLM) aperti hanno un'ampia gamma di applicazioni in vari settori e domini. Il seguente elenco di potenziali usi non è esaustivo. Lo scopo di questo elenco è fornire informazioni contestuali sui possibili casi d'uso che gli autori dei modelli hanno considerato nell'ambito dell'addestramento e dello sviluppo dei modelli.

  • Creazione e comunicazione di contenuti
    • Generazione del testo: questi modelli possono essere usati per generare formati di testo creativi, come poesie, script, codice, testi di marketing e bozze di email.
    • Chatbot e IA conversazionale: interfacce di conversazione avanzate per l'assistenza clienti, gli assistenti virtuali o le applicazioni interattive.
    • Riassunto del testo: genera riassunti concisi di un corpus di testo, articoli di ricerca o report.
  • Ricerca e istruzione
    • Ricerca sull'elaborazione del linguaggio naturale (NLP): questi modelli possono fungere da base per i ricercatori per sperimentare le tecniche NLP, sviluppare algoritmi e contribuire al progresso del campo.
    • Strumenti di apprendimento delle lingue: supporto di esperienze interattive per la correzione della grammatica o dell'esercitazione di scrittura.
    • Esplorazione delle conoscenze: aiuta i ricercatori a esplorare grandi corpi di testo generando riepiloghi o rispondendo a domande su argomenti specifici.

Limitazioni

  • Dati di addestramento
    • La qualità e la diversità dei dati di addestramento influiscono in modo significativo sulle funzionalità del modello. Pregiudizi o lacune nei dati di addestramento possono portare a limitazioni nelle risposte del modello.
    • L'ambito del set di dati di addestramento determina le aree tematiche che il modello può gestire in modo efficace.
  • Contesto e complessità delle attività
    • Gli LLM sono migliori nelle attività che possono essere inquadrate con prompt e istruzioni chiari. Le attività aperte o molto complesse possono essere impegnative.
    • Le prestazioni di un modello possono essere influenzate dalla quantità di contesto fornito (un contesto più lungo generalmente comporta risultati migliori, fino a un certo punto).
  • Ambiguità e sfumature linguistiche
    • Il linguaggio naturale è intrinsecamente complesso. per gli LLM potrebbe essere difficile cogliere sottili sfumature, sarcasmo o linguaggio figurativo.
  • Accuratezza fattuale
    • Gli LLM generano risposte in base alle informazioni apprese dai set di dati di addestramento, ma non sono knowledge base. Potrebbero generare dichiarazioni fattuali errate o obsolete.
  • Buon senso
    • gli LLM si basano su pattern statistici nel linguaggio. Potrebbero non essere in grado di applicare il ragionamento del buon senso in determinate situazioni.

Considerazioni e rischi etici

Lo sviluppo di modelli linguistici di grandi dimensioni (LLM) solleva diverse preoccupazioni etiche. Durante la creazione di un modello aperto, abbiamo considerato con attenzione quanto segue:

  • Pregiudizi ed equità
    • Gli LLM addestrati su dati di testo reali su larga scala possono riflettere i pregiudizi socio-culturali incorporati nel materiale di formazione. Questi modelli sono stati sottoposti a un'attenta analisi, pre-elaborazione dei dati di input descritta e valutazioni successive riportate in questa scheda.
  • Disinformazione e uso improprio
    • Gli LLM possono essere utilizzati in modo improprio per generare testo falso, fuorviante o dannoso.
    • Vengono fornite linee guida per l'uso responsabile del modello, consulta il Toolkit per l'IA generativa responsabile.
  • Trasparenza e responsabilità:
    • Questa scheda del modello riassume i dettagli sull'architettura, le funzionalità, le limitazioni e i processi di valutazione dei modelli.
    • Un modello aperto sviluppato in modo responsabile offre l'opportunità di condividere l'innovazione rendendo la tecnologia LLM accessibile a sviluppatori e ricercatori nell'intero ecosistema IA.

Rischi identificati e mitigazioni:

  • Diffusione dei bias: si consiglia di eseguire un monitoraggio continuo (utilizzando metriche di valutazione, revisione da parte di persone fisiche) e l'esplorazione di tecniche di de-biasing durante l'addestramento, l'ottimizzazione e altri casi d'uso del modello.
  • Generazione di contenuti dannosi: i meccanismi e le linee guida per la sicurezza dei contenuti sono essenziali. Gli sviluppatori sono invitati a prestare attenzione e ad adottare le misure di salvaguardia della sicurezza dei contenuti appropriate in base alle norme specifiche del prodotto e ai casi d'uso delle applicazioni.
  • Uso improprio per scopi dannosi: le limitazioni tecniche e le informazioni fornite a sviluppatori e utenti finali possono contribuire a mitigare le applicazioni dannose degli LLM. Vengono fornite risorse didattiche e meccanismi di segnalazione per consentire agli utenti di segnalare l'uso improprio. Gli usi vietati dei modelli di Gemma sono descritti nelle Norme relative all'uso vietato di Gemma.
  • Violazioni della privacy: i modelli sono stati addestrati su dati filtrati per la rimozione di PII (informazioni che consentono l'identificazione personale). Gli sviluppatori sono invitati a rispettare le normative sulla privacy con tecniche incentrate sulla tutela della privacy.

Vantaggi

Al momento del rilascio, questa famiglia di modelli fornisce implementazioni di modelli linguistici di grandi dimensioni aperti ad alte prestazioni, progettati da zero per lo sviluppo di un'IA responsabile rispetto a modelli di dimensioni simili.

Utilizzando le metriche di valutazione dei benchmark descritte in questo documento, questi modelli hanno dimostrato di fornire prestazioni migliori rispetto ad altre alternative di modelli aperti di dimensioni comparabili.