Scheda del modello Gemma

Model Page: Gemma

Risorse e documentazione tecnica:

Termini e condizioni d'uso: Termini

Autori: Google

Informazioni sul modello

Descrizione di riepilogo e breve definizione di input e output.

Descrizione

Gemma è una famiglia di modelli aperti leggeri e all'avanguardia di Google, basate sulla stessa ricerca e tecnologia utilizzate per creare i modelli Gemini. sono modelli linguistici di grandi dimensioni (da testo a testo) solo decoder, disponibili in inglese, con pesi aperti, varianti preaddestrate e varianti ottimizzate per le istruzioni. Gemma sono adatti a una varietà di attività di generazione di testo, tra cui: la risposta a domande, il riassunto e il ragionamento. Le dimensioni sono relativamente piccole consente di eseguirne il deployment in ambienti con risorse limitate, un laptop, un computer desktop o la tua infrastruttura cloud, democratizzando l'accesso di IA all'avanguardia e che contribuiscono a promuovere l'innovazione per tutti.

Input e output

  • Input: stringa di testo, ad esempio una domanda, un prompt o un documento da riassunte.
  • Output:testo generato in lingua inglese in risposta all'input, ad esempio come risposta a una domanda o come riepilogo di un documento.

Citazione

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
    year={2024}
}

Dati del modello

Dati utilizzati per l'addestramento del modello e come sono stati elaborati.

Set di dati di addestramento

Questi modelli sono stati addestrati su un set di dati di dati di testo che include un'ampia di origini, per un totale di 6 trilioni di token. Di seguito sono riportati i componenti principali:

  • Documenti web: una raccolta diversificata di testo web garantisce che il modello sia esposto a una vasta gamma di stili linguistici, argomenti e vocabolari. Principalmente Contenuti in lingua inglese.
  • Codice: esporre il modello a codice è utile per apprendere la sintassi e i pattern di linguaggi di programmazione, che ne migliorano la capacità di generare codice a capire le domande correlate al codice.
  • Matematica: l'addestramento sul testo matematico aiuta il modello ad apprendere in modo logico ragionamenti, rappresentazioni simboliche e per rispondere a query matematiche.

La combinazione di queste diverse origini dati è fondamentale per addestrare un modello linguistico di grandi dimensioni in grado di gestire un'ampia varietà di attività formati.

Pre-elaborazione dei dati

Ecco i principali metodi di pulizia e filtro dei dati applicati all'addestramento dati:

  • Filtro pedopornografico: il filtro rigoroso di materiale pedopornografico è stato applicati in più fasi nel processo di preparazione dei dati per garantire l'esclusione di contenuti dannosi o illegali.
  • Filtro dei dati sensibili: nell'ambito della sicurezza dei modelli preaddestrati Gemma sono state usate tecniche automatizzate e affidabili per filtrare determinati e altri dati sensibili provenienti dai set di addestramento.
  • Metodi aggiuntivi: filtri basati sulla qualità e sulla sicurezza dei contenuti in linea con nostre norme.

Informazioni sull'implementazione

Dettagli sui componenti interni del modello.

Hardware

Gemma è stata addestrata utilizzando l'ultima generazione Hardware Tensor Processing Unit (TPU) (TPUv5e).

L'addestramento di modelli linguistici di grandi dimensioni (LLM) richiede una notevole potenza di calcolo. TPU progettati specificamente per le operazioni delle matrici comuni nel machine learning, offrono diversi vantaggi in questo dominio:

  • Prestazioni: le TPU sono progettate specificamente per gestire calcoli complessi coinvolti nell'addestramento degli LLM. Possono velocizzare notevolmente l'addestramento rispetto CPU.
  • Memoria: le TPU spesso dispongono di grandi quantità di memoria a elevata larghezza di banda, consentendo per la gestione di modelli di grandi dimensioni e dimensioni del batch durante l'addestramento. Questo può a migliorare la qualità del modello.
  • Scalabilità: i pod TPU (cluster di grandi dimensioni di TPU) forniscono una soluzione scalabile per per gestire la crescente complessità dei modelli di base di grandi dimensioni. Puoi distribuire l'addestramento su più dispositivi TPU per un'elaborazione più rapida ed efficiente.
  • Convenienza: in molti scenari, le TPU possono fornire una di addestramento per l'addestramento di modelli di grandi dimensioni rispetto all'infrastruttura basata su CPU, soprattutto se si considerano il tempo e le risorse risparmiate grazie alla maggiore addestramento.
  • Questi vantaggi sono allineati L'impegno di Google a operare in modo sostenibile.

Software

L'addestramento è stato eseguito utilizzando JAX e ML Pathways.

JAX consente ai ricercatori di sfruttare l'ultima generazione di hardware, incluse le TPU, per un addestramento più rapido ed efficiente di modelli di grandi dimensioni.

ML Pathways è l'ultima iniziativa di Google per creare sistemi artificialmente intelligenti in grado di generalizzare in più attività. È particolarmente adatto per modelli di base, tra cui gli LLM come questi.

Insieme, JAX e ML Pathways vengono utilizzati come descritto articolo sulla famiglia di modelli Gemini; "il singolo controller" di programmazione di Jax e Pathways consente a un singolo Python processo di orchestrazione dell'intera sessione di addestramento, semplificando notevolmente un flusso di lavoro di sviluppo."

Valutazione

Metriche e risultati di valutazione del modello.

Risultati benchmark

Questi modelli sono stati valutati rispetto a un'ampia raccolta di set di dati diversi per coprire diversi aspetti della generazione del testo:

Benchmark Metrica Gemma PT 2B Gemma PT 7B
MMLU 5-colpi, top-1 42,3 64,3
HellaSwag Tiro 0 71,4 81,2
PIQA Tiro 0 77,3 81,2
SocialIQA Tiro 0 49,7 51,8
BoolQ Tiro 0 69,4 83,2
WinoGrande punteggio parziale 65,4 72,3
CommonsenseQA 7 tiri 65,3 71,3
OpenBookQA 47,8 52,8
ARC-e 73,2 81,5
ARC-c 42,1 53,2
TriviaQA 5 tiri 53,2 63,4
Domande naturali 5 tiri 12,5 23,0
HumanEval pass@1 22.0 32,3
MBPP 3 foto 29,2 44,4
GSM8K mag@1 17,7 46,4
MATH 4-colpi 11,8 24,3
AGIEval 24,2 41,7
BIG-Bench 35,2 55,1
Media 44,9 56,40

Etica e sicurezza

Approccio e risultati della valutazione dell’etica e della sicurezza.

Approccio di valutazione

I nostri metodi di valutazione includono valutazioni strutturate e il red teaming interno il test delle norme relative ai contenuti pertinenti. Il red teaming è stato condotto da team diversi, ciascuno con obiettivi e metriche di valutazione umana diversi. Questi sono stati valutati sulla base di varie categorie pertinenti sicurezza e etica, tra cui:

  • Sicurezza dei contenuti da testo a testo: valutazione da parte di persone fisiche su prompt che riguardano la sicurezza Norme relative a sfruttamento e abusi sessuali su minori, molestie, violenza e spargimenti di sangue e incitamento all'odio.
  • Danni rappresentativi da testo a testo: confronto con i dati accademici pertinenti come WinoBias e Set di dati BarbQ.
  • Memorizzazione: valutazione automatizzata della memorizzazione dei dati di addestramento, tra cui il rischio di compromissione delle informazioni personali.
  • Danno su larga scala: test per rilevare "funzionalità pericolose" come chimico, i rischi biologici, radiologici e nucleari (CBRN).

Risultati valutazione

I risultati delle valutazioni etiche e di sicurezza rientrano in soglie accettabili Per rispettare i criteri interni per categorie come i minori sicurezza, sicurezza dei contenuti, danni rappresentativi, memorizzazione, danni su larga scala. In aggiunta a solide valutazioni interne, i risultati delle testate benchmark come BBQ, BOLD, Winogender, Winobias, RealToxicity e TruthfulQA vengono mostrate qui.

Gemma 1.0

Benchmark Metrica Gemma 1.0 IT 2B Gemma 1.0 IT 7B
RealToxicity media 6,86 7,90
BOLD 45,57 49,08
Coppie di corvi top-1 45,82 51,33
Barbecue Ambig 1-scatto, top-1 62,58 92,54
Disegni barbecue top-1 54,62 71,99
Winogender top-1 51,25 54,17
TruthfulQA 44,84 31,81
Winobia 1_2 56,12 59,09
Winobia 2_2 91,10 92,23
Toxigen 29,77 39,59

Gemma 1.1

Benchmark Metrica Gemma 1.1 IT 2B Gemma 1.1 IT 7B
RealToxicity media 7,03 8,04
BOLD 47,76
Coppie di corvi top-1 45,89 49,67
Barbecue Ambig 1-scatto, top-1 58,97 86,06
Disegni barbecue top-1 53,90 85,08
Winogender top-1 50,14 57,64
TruthfulQA 44,24 45,34
Winobia 1_2 55,93 59,22
Winobia 2_2 89,46 89,2
Toxigen 29,64 38,75

Utilizzo e limitazioni

Questi modelli presentano alcune limitazioni di cui gli utenti devono essere a conoscenza.

Uso previsto

I modelli linguistici di grandi dimensioni (LLM) aperti hanno una vasta gamma di applicazioni in vari settori e domini. Il seguente elenco di potenziali utilizzi non esaustive. Lo scopo di questo elenco è fornire informazioni contestuali casi d'uso che i creator consideravano parte del modello dell'addestramento e dello sviluppo.

  • Creazione e comunicazione di contenuti
    • Generazione del testo: questi modelli possono essere utilizzati per generare formati del testo delle creatività come poesie, copioni, codici, testi di marketing e bozze di email.
    • Chatbot e IA conversazionale: potenzia le interfacce di conversazione per i clienti servizi, assistenti virtuali o applicazioni interattive.
    • Riassunto del testo: genera riassunti concisi di un corpus di testo, ricerche articoli o relazioni.
  • Ricerca e istruzione
    • Ricerca sull'elaborazione del linguaggio naturale (NLP): questi modelli possono che consente ai ricercatori di sperimentare le tecniche NLP, sviluppare algoritmi e contribuiscono al progresso del settore.
    • Strumenti per l'apprendimento delle lingue: supporto di esperienze interattive di apprendimento delle lingue, favorire la correzione grammaticale o esercitarsi nella scrittura.
    • Esplorazione delle conoscenze: aiuta i ricercatori a esplorare grandi corpi di testo generando riepiloghi o rispondendo a domande su argomenti specifici.

Limitazioni

  • Dati di addestramento
    • La qualità e la diversità dei dati di addestramento influenzano in modo significativo le capacità del modello. I bias o le lacune nei dati di addestramento possono limiti nelle risposte del modello.
    • L'ambito del set di dati di addestramento determina le aree degli argomenti che il modello può gestirle in modo efficace.
  • Contesto e complessità delle attività
    • Gli LLM sono migliori nelle attività che possono essere inquadrate con prompt chiari istruzioni. Le attività aperte o molto complesse potrebbero essere complesse.
    • Le prestazioni di un modello possono essere influenzate dalla quantità di contesto fornito (un contesto più lungo in genere porta a risultati migliori, fino a un certo punto).
  • Ambiguità e sfumature del linguaggio
    • Il linguaggio naturale è intrinsecamente complesso. gli LLM potrebbero avere difficoltà a comprendere sfumature, sarcasmo o linguaggio figurativo.
  • Accuratezza oggettiva
    • gli LLM generano risposte in base alle informazioni che hanno appreso dalla loro per l'addestramento, ma non sono knowledge base. Potrebbero generare affermazioni fattuali errate o obsolete.
  • Senso comune
    • gli LLM si basano su pattern statistici nel linguaggio. Potrebbero non avere la possibilità per applicare il ragionamento del buon senso in determinate situazioni.

Considerazioni etiche e rischi

Lo sviluppo di modelli linguistici di grandi dimensioni (LLM) solleva diverse preoccupazioni etiche. Durante la creazione di un modello aperto, abbiamo considerato attentamente i seguenti aspetti:

  • Pregiudizi ed equità
    • Gli LLM addestrati su dati di testo reali su larga scala possono riflettere il carattere socio-culturale i bias incorporati nel materiale di formazione. Questi modelli sono stati sottoposti a controllo, pre-elaborazione dei dati di input descritta e valutazioni a posteriori segnalati in questa scheda.
  • Disinformazione e uso improprio
    • Gli LLM possono essere utilizzati in modo improprio per generare testo falso, fuorviante o dannoso.
    • Vengono fornite linee guida per un uso responsabile del modello; consultare Toolkit per l'IA generativa responsabile.
  • Trasparenza e responsabilità:
    • Questa scheda del modello riassume i dettagli dei modelli dell'architettura, capacità, limitazioni e processi di valutazione.
    • Un modello aperto sviluppato in modo responsabile offre l'opportunità di dell'innovazione rendendo la tecnologia LLM accessibile a sviluppatori e ricercatori nell'intero ecosistema IA.

Rischi identificati e mitigazioni:

  • Perpetuazione dei bias: si consiglia di eseguire un monitoraggio continuo (utilizzando metriche di valutazione, revisione da parte di persone fisiche) ed esplorando il de-bias tecniche di addestramento durante l'addestramento del modello, l'ottimizzazione e altri casi d'uso.
  • Generazione di contenuti dannosi: meccanismi e linee guida per la sicurezza dei contenuti sono essenziali. Gli sviluppatori sono invitati a prestare attenzione e a implementare misure di sicurezza appropriate per la sicurezza dei contenuti in base alle norme specifiche del prodotto e alle applicazioni.
  • Uso improprio per scopi dannosi: limitazioni tecniche e sviluppo e la formazione dell'utente finale può contribuire a mitigare le applicazioni dannose degli LLM. Le risorse didattiche e i meccanismi di segnalazione per segnalare un uso improprio sono fornito. Gli usi vietati dei modelli Gemma sono descritti in Norme relative all'uso vietato di Gemma.
  • Violazioni della privacy: i modelli sono stati addestrati su dati filtrati per la rimozione delle PII (Informazioni che consentono l'identificazione personale). Gli sviluppatori sono invitati a rispettare normative sulla privacy con tecniche che tutelano la privacy.

Vantaggi

Al momento del rilascio, questa famiglia di modelli offre prestazioni implementazioni di modelli linguistici di grandi dimensioni (LLM) progettate da zero per lo sviluppo dell'IA rispetto a modelli di dimensioni simili.

Utilizzando le metriche di valutazione dei benchmark descritte in questo documento, questi modelli hanno dimostrato di offrire prestazioni superiori rispetto ad altri modelli aperti di dimensioni comparabili alternative.