Model Page: Gemma
Risorse e documentazione tecnica:
Termini e condizioni d'uso: Termini
Autori: Google
Informazioni sul modello
Descrizione di riepilogo e breve definizione di input e output.
Descrizione
Gemma è una famiglia di modelli aperti leggeri e all'avanguardia di Google, basate sulla stessa ricerca e tecnologia utilizzate per creare i modelli Gemini. sono modelli linguistici di grandi dimensioni (da testo a testo) solo decoder, disponibili in inglese, con pesi aperti, varianti preaddestrate e varianti ottimizzate per le istruzioni. Gemma sono adatti a una varietà di attività di generazione di testo, tra cui: la risposta a domande, il riassunto e il ragionamento. Le dimensioni sono relativamente piccole consente di eseguirne il deployment in ambienti con risorse limitate, un laptop, un computer desktop o la tua infrastruttura cloud, democratizzando l'accesso di IA all'avanguardia e che contribuiscono a promuovere l'innovazione per tutti.
Input e output
- Input: stringa di testo, ad esempio una domanda, un prompt o un documento da riassunte.
- Output:testo generato in lingua inglese in risposta all'input, ad esempio come risposta a una domanda o come riepilogo di un documento.
Citazione
@article{gemma_2024,
title={Gemma},
url={https://www.kaggle.com/m/3301},
DOI={10.34740/KAGGLE/M/3301},
publisher={Kaggle},
author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
year={2024}
}
Dati del modello
Dati utilizzati per l'addestramento del modello e come sono stati elaborati.
Set di dati di addestramento
Questi modelli sono stati addestrati su un set di dati di dati di testo che include un'ampia di origini, per un totale di 6 trilioni di token. Di seguito sono riportati i componenti principali:
- Documenti web: una raccolta diversificata di testo web garantisce che il modello sia esposto a una vasta gamma di stili linguistici, argomenti e vocabolari. Principalmente Contenuti in lingua inglese.
- Codice: esporre il modello a codice è utile per apprendere la sintassi e i pattern di linguaggi di programmazione, che ne migliorano la capacità di generare codice a capire le domande correlate al codice.
- Matematica: l'addestramento sul testo matematico aiuta il modello ad apprendere in modo logico ragionamenti, rappresentazioni simboliche e per rispondere a query matematiche.
La combinazione di queste diverse origini dati è fondamentale per addestrare un modello linguistico di grandi dimensioni in grado di gestire un'ampia varietà di attività formati.
Pre-elaborazione dei dati
Ecco i principali metodi di pulizia e filtro dei dati applicati all'addestramento dati:
- Filtro pedopornografico: il filtro rigoroso di materiale pedopornografico è stato applicati in più fasi nel processo di preparazione dei dati per garantire l'esclusione di contenuti dannosi o illegali.
- Filtro dei dati sensibili: nell'ambito della sicurezza dei modelli preaddestrati Gemma sono state usate tecniche automatizzate e affidabili per filtrare determinati e altri dati sensibili provenienti dai set di addestramento.
- Metodi aggiuntivi: filtri basati sulla qualità e sulla sicurezza dei contenuti in linea con nostre norme.
Informazioni sull'implementazione
Dettagli sui componenti interni del modello.
Hardware
Gemma è stata addestrata utilizzando l'ultima generazione Hardware Tensor Processing Unit (TPU) (TPUv5e).
L'addestramento di modelli linguistici di grandi dimensioni (LLM) richiede una notevole potenza di calcolo. TPU progettati specificamente per le operazioni delle matrici comuni nel machine learning, offrono diversi vantaggi in questo dominio:
- Prestazioni: le TPU sono progettate specificamente per gestire calcoli complessi coinvolti nell'addestramento degli LLM. Possono velocizzare notevolmente l'addestramento rispetto CPU.
- Memoria: le TPU spesso dispongono di grandi quantità di memoria a elevata larghezza di banda, consentendo per la gestione di modelli di grandi dimensioni e dimensioni del batch durante l'addestramento. Questo può a migliorare la qualità del modello.
- Scalabilità: i pod TPU (cluster di grandi dimensioni di TPU) forniscono una soluzione scalabile per per gestire la crescente complessità dei modelli di base di grandi dimensioni. Puoi distribuire l'addestramento su più dispositivi TPU per un'elaborazione più rapida ed efficiente.
- Convenienza: in molti scenari, le TPU possono fornire una di addestramento per l'addestramento di modelli di grandi dimensioni rispetto all'infrastruttura basata su CPU, soprattutto se si considerano il tempo e le risorse risparmiate grazie alla maggiore addestramento.
- Questi vantaggi sono allineati L'impegno di Google a operare in modo sostenibile.
Software
L'addestramento è stato eseguito utilizzando JAX e ML Pathways.
JAX consente ai ricercatori di sfruttare l'ultima generazione di hardware, incluse le TPU, per un addestramento più rapido ed efficiente di modelli di grandi dimensioni.
ML Pathways è l'ultima iniziativa di Google per creare sistemi artificialmente intelligenti in grado di generalizzare in più attività. È particolarmente adatto per modelli di base, tra cui gli LLM come questi.
Insieme, JAX e ML Pathways vengono utilizzati come descritto articolo sulla famiglia di modelli Gemini; "il singolo controller" di programmazione di Jax e Pathways consente a un singolo Python processo di orchestrazione dell'intera sessione di addestramento, semplificando notevolmente un flusso di lavoro di sviluppo."
Valutazione
Metriche e risultati di valutazione del modello.
Risultati benchmark
Questi modelli sono stati valutati rispetto a un'ampia raccolta di set di dati diversi per coprire diversi aspetti della generazione del testo:
Benchmark | Metrica | Gemma PT 2B | Gemma PT 7B |
---|---|---|---|
MMLU | 5-colpi, top-1 | 42,3 | 64,3 |
HellaSwag | Tiro 0 | 71,4 | 81,2 |
PIQA | Tiro 0 | 77,3 | 81,2 |
SocialIQA | Tiro 0 | 49,7 | 51,8 |
BoolQ | Tiro 0 | 69,4 | 83,2 |
WinoGrande | punteggio parziale | 65,4 | 72,3 |
CommonsenseQA | 7 tiri | 65,3 | 71,3 |
OpenBookQA | 47,8 | 52,8 | |
ARC-e | 73,2 | 81,5 | |
ARC-c | 42,1 | 53,2 | |
TriviaQA | 5 tiri | 53,2 | 63,4 |
Domande naturali | 5 tiri | 12,5 | 23,0 |
HumanEval | pass@1 | 22.0 | 32,3 |
MBPP | 3 foto | 29,2 | 44,4 |
GSM8K | mag@1 | 17,7 | 46,4 |
MATH | 4-colpi | 11,8 | 24,3 |
AGIEval | 24,2 | 41,7 | |
BIG-Bench | 35,2 | 55,1 | |
Media | 44,9 | 56,40 |
Etica e sicurezza
Approccio e risultati della valutazione dell’etica e della sicurezza.
Approccio di valutazione
I nostri metodi di valutazione includono valutazioni strutturate e il red teaming interno il test delle norme relative ai contenuti pertinenti. Il red teaming è stato condotto da team diversi, ciascuno con obiettivi e metriche di valutazione umana diversi. Questi sono stati valutati sulla base di varie categorie pertinenti sicurezza e etica, tra cui:
- Sicurezza dei contenuti da testo a testo: valutazione da parte di persone fisiche su prompt che riguardano la sicurezza Norme relative a sfruttamento e abusi sessuali su minori, molestie, violenza e spargimenti di sangue e incitamento all'odio.
- Danni rappresentativi da testo a testo: confronto con i dati accademici pertinenti come WinoBias e Set di dati BarbQ.
- Memorizzazione: valutazione automatizzata della memorizzazione dei dati di addestramento, tra cui il rischio di compromissione delle informazioni personali.
- Danno su larga scala: test per rilevare "funzionalità pericolose" come chimico, i rischi biologici, radiologici e nucleari (CBRN).
Risultati valutazione
I risultati delle valutazioni etiche e di sicurezza rientrano in soglie accettabili Per rispettare i criteri interni per categorie come i minori sicurezza, sicurezza dei contenuti, danni rappresentativi, memorizzazione, danni su larga scala. In aggiunta a solide valutazioni interne, i risultati delle testate benchmark come BBQ, BOLD, Winogender, Winobias, RealToxicity e TruthfulQA vengono mostrate qui.
Gemma 1.0
Benchmark | Metrica | Gemma 1.0 IT 2B | Gemma 1.0 IT 7B |
---|---|---|---|
RealToxicity | media | 6,86 | 7,90 |
BOLD | 45,57 | 49,08 | |
Coppie di corvi | top-1 | 45,82 | 51,33 |
Barbecue Ambig | 1-scatto, top-1 | 62,58 | 92,54 |
Disegni barbecue | top-1 | 54,62 | 71,99 |
Winogender | top-1 | 51,25 | 54,17 |
TruthfulQA | 44,84 | 31,81 | |
Winobia 1_2 | 56,12 | 59,09 | |
Winobia 2_2 | 91,10 | 92,23 | |
Toxigen | 29,77 | 39,59 |
Gemma 1.1
Benchmark | Metrica | Gemma 1.1 IT 2B | Gemma 1.1 IT 7B |
---|---|---|---|
RealToxicity | media | 7,03 | 8,04 |
BOLD | 47,76 | ||
Coppie di corvi | top-1 | 45,89 | 49,67 |
Barbecue Ambig | 1-scatto, top-1 | 58,97 | 86,06 |
Disegni barbecue | top-1 | 53,90 | 85,08 |
Winogender | top-1 | 50,14 | 57,64 |
TruthfulQA | 44,24 | 45,34 | |
Winobia 1_2 | 55,93 | 59,22 | |
Winobia 2_2 | 89,46 | 89,2 | |
Toxigen | 29,64 | 38,75 |
Utilizzo e limitazioni
Questi modelli presentano alcune limitazioni di cui gli utenti devono essere a conoscenza.
Uso previsto
I modelli linguistici di grandi dimensioni (LLM) aperti hanno una vasta gamma di applicazioni in vari settori e domini. Il seguente elenco di potenziali utilizzi non esaustive. Lo scopo di questo elenco è fornire informazioni contestuali casi d'uso che i creator consideravano parte del modello dell'addestramento e dello sviluppo.
- Creazione e comunicazione di contenuti
- Generazione del testo: questi modelli possono essere utilizzati per generare formati del testo delle creatività come poesie, copioni, codici, testi di marketing e bozze di email.
- Chatbot e IA conversazionale: potenzia le interfacce di conversazione per i clienti servizi, assistenti virtuali o applicazioni interattive.
- Riassunto del testo: genera riassunti concisi di un corpus di testo, ricerche articoli o relazioni.
- Ricerca e istruzione
- Ricerca sull'elaborazione del linguaggio naturale (NLP): questi modelli possono che consente ai ricercatori di sperimentare le tecniche NLP, sviluppare algoritmi e contribuiscono al progresso del settore.
- Strumenti per l'apprendimento delle lingue: supporto di esperienze interattive di apprendimento delle lingue, favorire la correzione grammaticale o esercitarsi nella scrittura.
- Esplorazione delle conoscenze: aiuta i ricercatori a esplorare grandi corpi di testo generando riepiloghi o rispondendo a domande su argomenti specifici.
Limitazioni
- Dati di addestramento
- La qualità e la diversità dei dati di addestramento influenzano in modo significativo le capacità del modello. I bias o le lacune nei dati di addestramento possono limiti nelle risposte del modello.
- L'ambito del set di dati di addestramento determina le aree degli argomenti che il modello può gestirle in modo efficace.
- Contesto e complessità delle attività
- Gli LLM sono migliori nelle attività che possono essere inquadrate con prompt chiari istruzioni. Le attività aperte o molto complesse potrebbero essere complesse.
- Le prestazioni di un modello possono essere influenzate dalla quantità di contesto fornito (un contesto più lungo in genere porta a risultati migliori, fino a un certo punto).
- Ambiguità e sfumature del linguaggio
- Il linguaggio naturale è intrinsecamente complesso. gli LLM potrebbero avere difficoltà a comprendere sfumature, sarcasmo o linguaggio figurativo.
- Accuratezza oggettiva
- gli LLM generano risposte in base alle informazioni che hanno appreso dalla loro per l'addestramento, ma non sono knowledge base. Potrebbero generare affermazioni fattuali errate o obsolete.
- Senso comune
- gli LLM si basano su pattern statistici nel linguaggio. Potrebbero non avere la possibilità per applicare il ragionamento del buon senso in determinate situazioni.
Considerazioni etiche e rischi
Lo sviluppo di modelli linguistici di grandi dimensioni (LLM) solleva diverse preoccupazioni etiche. Durante la creazione di un modello aperto, abbiamo considerato attentamente i seguenti aspetti:
- Pregiudizi ed equità
- Gli LLM addestrati su dati di testo reali su larga scala possono riflettere il carattere socio-culturale i bias incorporati nel materiale di formazione. Questi modelli sono stati sottoposti a controllo, pre-elaborazione dei dati di input descritta e valutazioni a posteriori segnalati in questa scheda.
- Disinformazione e uso improprio
- Gli LLM possono essere utilizzati in modo improprio per generare testo falso, fuorviante o dannoso.
- Vengono fornite linee guida per un uso responsabile del modello; consultare Toolkit per l'IA generativa responsabile.
- Trasparenza e responsabilità:
- Questa scheda del modello riassume i dettagli dei modelli dell'architettura, capacità, limitazioni e processi di valutazione.
- Un modello aperto sviluppato in modo responsabile offre l'opportunità di dell'innovazione rendendo la tecnologia LLM accessibile a sviluppatori e ricercatori nell'intero ecosistema IA.
Rischi identificati e mitigazioni:
- Perpetuazione dei bias: si consiglia di eseguire un monitoraggio continuo (utilizzando metriche di valutazione, revisione da parte di persone fisiche) ed esplorando il de-bias tecniche di addestramento durante l'addestramento del modello, l'ottimizzazione e altri casi d'uso.
- Generazione di contenuti dannosi: meccanismi e linee guida per la sicurezza dei contenuti sono essenziali. Gli sviluppatori sono invitati a prestare attenzione e a implementare misure di sicurezza appropriate per la sicurezza dei contenuti in base alle norme specifiche del prodotto e alle applicazioni.
- Uso improprio per scopi dannosi: limitazioni tecniche e sviluppo e la formazione dell'utente finale può contribuire a mitigare le applicazioni dannose degli LLM. Le risorse didattiche e i meccanismi di segnalazione per segnalare un uso improprio sono fornito. Gli usi vietati dei modelli Gemma sono descritti in Norme relative all'uso vietato di Gemma.
- Violazioni della privacy: i modelli sono stati addestrati su dati filtrati per la rimozione delle PII (Informazioni che consentono l'identificazione personale). Gli sviluppatori sono invitati a rispettare normative sulla privacy con tecniche che tutelano la privacy.
Vantaggi
Al momento del rilascio, questa famiglia di modelli offre prestazioni implementazioni di modelli linguistici di grandi dimensioni (LLM) progettate da zero per lo sviluppo dell'IA rispetto a modelli di dimensioni simili.
Utilizzando le metriche di valutazione dei benchmark descritte in questo documento, questi modelli hanno dimostrato di offrire prestazioni superiori rispetto ad altri modelli aperti di dimensioni comparabili alternative.