Scheda del modello Gemma 2

Model Page: Gemma

Risorse e documentazione tecnica:

Termini e condizioni d'uso: Termini

Autori: Google

Informazioni sul modello

Descrizione di riepilogo e breve definizione di input e output.

Descrizione

Gemma è una famiglia di modelli aperti leggeri e all'avanguardia di Google, basate sulla stessa ricerca e tecnologia utilizzate per creare i modelli Gemini. sono modelli linguistici di grandi dimensioni (da testo a testo) solo decoder, disponibili in inglese, con pesi aperti sia per le varianti preaddestrate che per quelle ottimizzate per le istruzioni. I modelli Gemma sono adatti a varie attività di generazione di testo, tra cui la risposta a domande, il riassunto e il ragionamento. Le dimensioni sono relativamente piccole consente di eseguirne il deployment in ambienti con risorse limitate, un laptop, un computer desktop o la tua infrastruttura cloud, democratizzando l'accesso di IA all'avanguardia e che contribuiscono a promuovere l'innovazione per tutti.

Input e output

  • Input: stringa di testo, ad esempio una domanda, un prompt o un documento da riassunte.
  • Output:testo generato in lingua inglese in risposta all'input, ad esempio come risposta a una domanda o come riepilogo di un documento.

Citazione

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

Dati del modello

Dati utilizzati per l'addestramento del modello e come sono stati elaborati.

Set di dati di addestramento

Questi modelli sono stati addestrati su un set di dati di dati di testo che include un'ampia di fonti. Il modello 27B è stato addestrato con 13 trilioni di token, il modello 9B è stato addestrato con 8 trilioni di token e il modello 2 miliardi è stato addestrato con 2 trilioni di token. Di seguito sono riportati i componenti principali:

  • Documenti web: una raccolta diversificata di testo web garantisce che il modello sia esposto a una vasta gamma di stili linguistici, argomenti e vocabolari. Principalmente Contenuti in lingua inglese.
  • Codice: esporre il modello a codice è utile per apprendere la sintassi e i pattern di linguaggi di programmazione, che ne migliorano la capacità di generare codice a capire le domande correlate al codice.
  • Matematica: l'addestramento sul testo matematico aiuta il modello ad apprendere in modo logico ragionamenti, rappresentazioni simboliche e per rispondere a query matematiche.

La combinazione di queste diverse origini dati è fondamentale per addestrare un modello linguistico di grandi dimensioni in grado di gestire un'ampia varietà di attività formati.

Pre-elaborazione dei dati

Ecco i principali metodi di pulizia e filtro dei dati applicati all'addestramento dati:

  • Filtro pedopornografico: il filtro rigoroso di materiale pedopornografico è stato applicati in più fasi nel processo di preparazione dei dati per garantire l'esclusione di contenuti dannosi o illegali.
  • Filtro dei dati sensibili: nell'ambito della sicurezza dei modelli preaddestrati Gemma sono state usate tecniche automatizzate e affidabili per filtrare determinati e altri dati sensibili provenienti dai set di addestramento.
  • Metodi aggiuntivi: filtri basati sulla qualità e sulla sicurezza dei contenuti in linea con nostre norme.

Informazioni sull'implementazione

Dettagli sui componenti interni del modello.

Hardware

Gemma è stata addestrata utilizzando l'ultima generazione Hardware Tensor Processing Unit (TPU) (TPUv5p).

L'addestramento di modelli linguistici di grandi dimensioni (LLM) richiede una notevole potenza di calcolo. TPU progettati specificamente per le operazioni delle matrici comuni nel machine learning, offrono diversi vantaggi in questo dominio:

  • Prestazioni: le TPU sono progettate specificamente per gestire calcoli complessi coinvolti nell'addestramento degli LLM. Possono velocizzare notevolmente l'addestramento rispetto CPU.
  • Memoria: le TPU spesso dispongono di grandi quantità di memoria a elevata larghezza di banda, consentendo per la gestione di modelli di grandi dimensioni e dimensioni del batch durante l'addestramento. Questo può a migliorare la qualità del modello.
  • Scalabilità: i pod TPU (cluster di grandi dimensioni di TPU) forniscono una soluzione scalabile per per gestire la crescente complessità dei modelli di base di grandi dimensioni. Puoi distribuire l'addestramento su più dispositivi TPU per un'elaborazione più rapida ed efficiente.
  • Convenienza: in molti scenari, le TPU possono fornire una di addestramento per l'addestramento di modelli di grandi dimensioni rispetto all'infrastruttura basata su CPU, soprattutto se si considerano il tempo e le risorse risparmiate grazie alla maggiore addestramento.
  • Questi vantaggi sono allineati L'impegno di Google a operare in modo sostenibile.

Software

L'addestramento è stato eseguito utilizzando JAX e ML Pathways.

JAX consente ai ricercatori di sfruttare l'ultima generazione di hardware, incluse le TPU, per un addestramento più rapido ed efficiente di modelli di grandi dimensioni.

ML Pathways è l'ultima iniziativa di Google per creare sistemi artificialmente intelligenti in grado di generalizzare in più attività. È particolarmente adatto per modelli di base, tra cui gli LLM come questi.

Insieme, JAX e ML Pathways vengono utilizzati come descritto articolo sulla famiglia di modelli Gemini; "il singolo controller" di programmazione di Jax e Pathways consente a un singolo Python processo di orchestrazione dell'intera sessione di addestramento, semplificando notevolmente un flusso di lavoro di sviluppo."

Valutazione

Metriche e risultati di valutazione del modello.

Risultati benchmark

Questi modelli sono stati valutati rispetto a un'ampia raccolta di set di dati diversi per coprire diversi aspetti della generazione del testo:

Benchmark Metrica Gemma 2 PT 2B Gemma 2 PT 9B Gemma 2 PT 27B
MMLU 5-colpi, top-1 51,3 71,3 75,2
HellaSwag 10 tiri 73,0 81,9 86,4
PIQA Tiro 0 77,8 81,7 83,2
SocialIQA Tiro 0 51,9 53,4 53,7
BoolQ Tiro 0 72,5 84,2 84,8
WinoGrande punteggio parziale 70,9 80,6 83,7
ARC-e Tiro 0 80,1 88,0 88,6
ARC-c 25 colpi 55,4 68,4 71,4
TriviaQA 5 tiri 59,4 76,6 83,7
Domande naturali 5 tiri 16,7 29,2 34,50
HumanEval pass@1 17,7 40,2 51,8
MBPP 3 foto 29,6 52,4 62,6
GSM8K 5-colpi, maj@1 23,9 68,6 74,0
MATH 4-colpi 15,0 36,6 42,3
AGIEval 3-5-colpi 30,6 52,8 55,1
DROP 3 tiri, F1 52,0 69,4 72,2
BIG-Bench 3 foto, lettino per bambini 41,9 68,2 74,9

Etica e sicurezza

Approccio e risultati della valutazione dell’etica e della sicurezza.

Approccio di valutazione

I nostri metodi di valutazione includono valutazioni strutturate e il red teaming interno il test delle norme relative ai contenuti pertinenti. Il red teaming è stato condotto da team diversi, ciascuno con obiettivi e metriche di valutazione umana diversi. Questi sono stati valutati sulla base di varie categorie pertinenti sicurezza e etica, tra cui:

  • Sicurezza dei contenuti da testo a testo: valutazione da parte di persone fisiche su prompt che riguardano la sicurezza Norme relative a sfruttamento e abusi sessuali su minori, molestie, violenza e spargimenti di sangue e incitamento all'odio.
  • Danni rappresentativi da testo a testo: confronto con i dati accademici pertinenti come WinoBias e Set di dati BarbQ.
  • Memorizzazione: valutazione automatizzata della memorizzazione dei dati di addestramento, tra cui il rischio di compromissione delle informazioni personali.
  • Danno su larga scala: test per rilevare "funzionalità pericolose" come chimico, i rischi biologici, radiologici e nucleari (CBRN).

Risultati valutazione

I risultati delle valutazioni etiche e di sicurezza rientrano in soglie accettabili Per rispettare i criteri interni per categorie come i minori sicurezza, sicurezza dei contenuti, danni rappresentativi, memorizzazione, danni su larga scala. In aggiunta a solide valutazioni interne, i risultati delle benchmark come BBQ, BOLD, Winogender, Winobias, RealToxicity e TruthfulQA vengono mostrate qui.

Gemma 2.0

Benchmark Metrica Gemma 2 IT 2B Gemma 2 IT 9B Gemma 2 IT 27B
RealToxicity media 8,16 8,25 8,84
Coppie di corvi top-1 37,67 37,47 36,67
Barbecue Ambig 1-scatto, top-1 83,20 88,58 85,99
Disegni barbecue top-1 69,31 82,67 86,94
Winogender top-1 52,91 79,17 77,22
TruthfulQA 43,72 50,27 51,60
Winobia 1_2 59,28 78,09 81,94
Winobia 2_2 88,57 95,32 97,22
Toxigen 48,32 39,30 38,42

Valutazione delle funzionalità pericolose

Approccio di valutazione

Abbiamo valutato una serie di capacità pericolose:

  • Csicurezza offensiva: per valutare il potenziale uso improprio del modello in contesti di sicurezza informatica, abbiamo utilizzato piattaforme Capture-the-Flag (CTF) come InterCode-CTF e Hack the Box, nonché le sfide CTF sviluppate internamente. Queste valutazioni misurano la capacità del modello di sfruttare le vulnerabilità e ottenere l'accesso non autorizzato ambienti simulati.
  • Autoproliferazione: abbiamo valutato la capacità del modello di autoproliferazione attraverso la progettazione di attività che prevedano l'acquisizione di risorse, l'esecuzione e l'interazione con sistemi remoti. Queste valutazioni valutano la capacità del modello di replicarsi e diffondersi.
  • Persuasione: valutare la capacità di persuasione del modello abbiamo condotto studi sulla persuasione umana. Questi studi hanno comportato scenari che misurano la capacità del modello di costruire relazioni, influenza le convinzioni personali e sollecitare azioni specifiche da parte degli esseri umani.

Risultati valutazione

Tutte le valutazioni sono descritte dettagliatamente in Valutazione dei modelli Frontier per le capacità pericolose e in breve Report tecnico Gemma 2.

Valutazione Capacità Gemma 2 IT 27B
InterCode-CTF Cybersicurezza offensiva Sfide 34/76
CTF interno Cybersicurezza offensiva Sfide di 1/13
Hack the Box Cybersicurezza offensiva Sfide 0/13
Preavviso di autoproliferazione Autoproliferazione Sfide 1/10
Fascino offensivo Persuasione Percentuale di partecipanti che concorda: Interessante all'81%, Il 75% parlerà di nuovo, L'80% ha stabilito un contatto personale
Fai clic su Link Persuasione 34% dei partecipanti
Trova informazioni Persuasione 9% dei partecipanti
Esegui codice Persuasione 11% dei partecipanti
Discussioni monetarie Persuasione donazione media di 3,72 £
Una rete di bugie Persuasione 18% di spostamento medio verso una credenza corretta, 1% di spostamento medio verso credenza errata

Utilizzo e limitazioni

Questi modelli presentano alcune limitazioni di cui gli utenti devono essere a conoscenza.

Uso previsto

I modelli linguistici di grandi dimensioni (LLM) aperti hanno una vasta gamma di applicazioni in vari settori e domini. Il seguente elenco di potenziali utilizzi non esaustive. Lo scopo di questo elenco è fornire informazioni contestuali casi d'uso che i creator consideravano parte del modello dell'addestramento e dello sviluppo.

  • Creazione e comunicazione di contenuti
    • Generazione del testo: questi modelli possono essere utilizzati per generare formati del testo delle creatività come poesie, copioni, codici, testi di marketing e bozze di email.
    • Chatbot e IA conversazionale: potenzia le interfacce di conversazione per i clienti servizi, assistenti virtuali o applicazioni interattive.
    • Riassunto del testo: genera riassunti concisi di un corpus di testo, ricerche articoli o relazioni.
  • Ricerca e istruzione
    • Ricerca sull'elaborazione del linguaggio naturale (NLP): questi modelli possono che consente ai ricercatori di sperimentare le tecniche NLP, sviluppare algoritmi e contribuiscono al progresso del settore.
    • Strumenti per l'apprendimento delle lingue: supporto di esperienze interattive di apprendimento delle lingue, favorire la correzione grammaticale o esercitarsi nella scrittura.
    • Esplorazione delle conoscenze: aiuta i ricercatori a esplorare grandi corpi di testo generando riepiloghi o rispondendo a domande su argomenti specifici.

Limitazioni

  • Dati di addestramento
    • La qualità e la diversità dei dati di addestramento influenzano in modo significativo le capacità del modello. I bias o le lacune nei dati di addestramento possono limiti nelle risposte del modello.
    • L'ambito del set di dati di addestramento determina le aree degli argomenti che il modello può gestirle in modo efficace.
  • Contesto e complessità delle attività
    • Gli LLM sono migliori nelle attività che possono essere inquadrate con prompt chiari istruzioni. Le attività aperte o molto complesse potrebbero essere complesse.
    • Le prestazioni di un modello possono essere influenzate dalla quantità di contesto fornito (un contesto più lungo in genere porta a risultati migliori, fino a un certo punto).
  • Ambiguità e sfumature del linguaggio
    • Il linguaggio naturale è intrinsecamente complesso. gli LLM potrebbero avere difficoltà a comprendere sfumature, sarcasmo o linguaggio figurativo.
  • Accuratezza oggettiva
    • gli LLM generano risposte in base alle informazioni che hanno appreso dalla loro per l'addestramento, ma non sono knowledge base. Potrebbero generare affermazioni fattuali errate o obsolete.
  • Senso comune
    • gli LLM si basano su pattern statistici nel linguaggio. Potrebbero non avere la possibilità per applicare il ragionamento del buon senso in determinate situazioni.

Considerazioni etiche e rischi

Lo sviluppo di modelli linguistici di grandi dimensioni (LLM) solleva diverse preoccupazioni etiche. Durante la creazione di un modello aperto, abbiamo considerato attentamente i seguenti aspetti:

  • Pregiudizi ed equità
    • Gli LLM addestrati su dati di testo reali su larga scala possono riflettere il carattere socio-culturale i bias incorporati nel materiale di formazione. Questi modelli sono stati sottoposti a controllo, pre-elaborazione dei dati di input descritta e valutazioni a posteriori segnalati in questa scheda.
  • Disinformazione e uso improprio
    • Gli LLM possono essere utilizzati in modo improprio per generare testo falso, fuorviante o dannoso.
    • Vengono fornite linee guida per un uso responsabile del modello; consultare Toolkit per l'IA generativa responsabile.
  • Trasparenza e responsabilità:
    • Questa scheda del modello riassume i dettagli dei modelli dell'architettura, capacità, limitazioni e processi di valutazione.
    • Un modello aperto sviluppato in modo responsabile offre l'opportunità di dell'innovazione rendendo la tecnologia LLM accessibile a sviluppatori e ricercatori nell'intero ecosistema IA.

Rischi identificati e mitigazioni:

  • Perpetuazione dei bias: si consiglia di eseguire un monitoraggio continuo (utilizzando metriche di valutazione, revisione da parte di persone fisiche) ed esplorando il de-bias tecniche di addestramento durante l'addestramento del modello, l'ottimizzazione e altri casi d'uso.
  • Generazione di contenuti dannosi: meccanismi e linee guida per la sicurezza dei contenuti sono essenziali. Gli sviluppatori sono invitati a prestare attenzione e a implementare misure di sicurezza appropriate per la sicurezza dei contenuti in base alle norme specifiche del prodotto e alle applicazioni.
  • Uso improprio per scopi dannosi: limitazioni tecniche e sviluppo e la formazione dell'utente finale può contribuire a mitigare le applicazioni dannose degli LLM. Le risorse didattiche e i meccanismi di segnalazione per segnalare un uso improprio sono fornito. Gli usi vietati dei modelli Gemma sono descritti in Norme relative all'uso vietato di Gemma.
  • Violazioni della privacy: i modelli sono stati addestrati su dati filtrati per la rimozione delle PII (Informazioni che consentono l'identificazione personale). Gli sviluppatori sono invitati a rispettare normative sulla privacy con tecniche che tutelano la privacy.

Vantaggi

Al momento del rilascio, questa famiglia di modelli offre prestazioni implementazioni di modelli linguistici di grandi dimensioni (LLM) progettate da zero per lo sviluppo dell'IA rispetto a modelli di dimensioni simili.

Utilizzando le metriche di valutazione dei benchmark descritte in questo documento, questi modelli hanno dimostrato di offrire prestazioni superiori rispetto ad altri modelli aperti di dimensioni comparabili alternative.