Scheda del modello RecurrentGemma

Pagina modello: RecurrentGemma

Risorse e documentazione tecnica:

Termini e condizioni d'uso: termini

Autori:Google

Informazioni sul modello

Riepilogo modello

Descrizione

RecurrentGemma è una famiglia di modelli linguistici aperti basati su una nuova architettura ricorrente sviluppata da Google. Entrambe le versioni preaddestrate e ottimizzate per le istruzioni sono disponibili in inglese.

Come Gemma, i modelli RecurrentGemma sono adatti per varie attività di generazione di testo, tra cui risposta alle domande, riassunto e ragionamento. Grazie alla sua nuova architettura, RecurrentGemma richiede meno memoria di Gemma e raggiunge un'inferenza più rapida quando genera sequenze lunghe.

Input e output

  • Input: stringa di testo (ad esempio una domanda, un prompt o un documento da riassumere).
  • Output: testo generato in lingua inglese in risposta all'input (ad esempio una risposta alla domanda, un riepilogo del documento).

Citazione

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

Dati del modello

Elaborazione dei dati e set di dati di addestramento

RecurrentGemma utilizza gli stessi dati di addestramento e la stessa elaborazione utilizzati dalla famiglia di modelli Gemma. La descrizione completa si trova nella scheda del modello Gemma.

Informazioni sull'implementazione

Hardware e framework utilizzati durante l'addestramento

Come Gemma, RecurrentGemma è stato addestrato su TPUv5e, utilizzando JAX e ML Pathways.

Informazioni sulla valutazione

Risultati dei benchmark

Approccio di valutazione

Questi modelli sono stati valutati rispetto a un'ampia raccolta di set di dati e metriche diversi per coprire diversi aspetti della generazione del testo:

Risultati valutazione

Benchmark Metrica RecurrentGemma 2B RecurrentGemma 9B
MMLU 5-colpi, top-1 38,4 60.5
HellaSwag Tiro 0 71,0 80,4
PIQA Tiro 0 78,5 81,3
SocialIQA Tiro 0 51,8 52,3
BoolQ Tiro 0 71,3 80,3
WinoGrande punteggio parziale 67,8 73,6
CommonsenseQA 7 tiri 63,7 73,2
OpenBookQA 47,2 51,8
ARC-e 72,9 78,8
ARC-c 42,3 52,0
TriviaQA 5 tiri 52,5 70,5
Domande naturali 5 tiri 11,5 21,7
HumanEval pass@1 21,3 31,1
MBPP 3 foto 28,8 42,0
GSM8K mag@1 13,4 42,6
MATH 4-colpi 11.0 23,8
AGIEval 23,8 39,3
BIG-Bench 35,3 55,2
Media 44,6 56,1

Etica e sicurezza

Valutazioni etiche e di sicurezza

Approccio basato sulla valutazione

I nostri metodi di valutazione includono valutazioni strutturate e test interni del red team delle norme relative ai contenuti pertinenti. Il red teaming è stato condotto da una serie di team diversi, ognuno con obiettivi e metriche di valutazione umane diversi. Questi modelli sono stati valutati in base a diverse categorie rilevanti per l'etica e la sicurezza, tra cui:

  • Sicurezza dei contenuti da testo a testo: valutazione da parte di persone fisiche dei prompt relativi alle norme sulla sicurezza, inclusi sfruttamento e abusi sessuali su minori, molestie, violenza e spargimenti di sangue e incitamento all'odio.
  • Danni rappresentativi da testo a testo: confronta con set di dati accademici pertinenti come WinoBias e BBQ Dataset.
  • Memorizzazione: valutazione automatica della memorizzazione dei dati di addestramento, incluso il rischio di esposizione delle informazioni che consentono l'identificazione personale.
  • Danno su larga scala: test per individuare "funzionalità pericolose", come rischi chimici, biologici, radiologici e nucleari (CBRN), nonché test per la persuasione e l'inganno, la cybersicurezza e la replica autonoma.

Risultati valutazione

I risultati delle valutazioni di etica e sicurezza rientrano nelle soglie accettabili per il rispetto delle norme interne per categorie quali sicurezza dei minori, sicurezza dei contenuti, danni rappresentativi, memorizzazione e danni su larga scala. Oltre a solide valutazioni interne, qui vengono mostrati i risultati di benchmark di sicurezza noti come BBQ, Winogender, WinoBias, RealToxicity e TruthfulQA.

Benchmark Metrica RecurrentGemma 2B RecurrentGemma 2B IT RecurrentGemma 9B RecurrentGemma 9B IT
RealToxicity media 9.8 7,60 10.3 8.8
GRASSETTO 39,3 52,3 39,8 47,9
Coppie di corvi top-1 41,1 43,4 38,7 39,5
Barbecue Ambig top-1 62,6 71,1 95,9 67,1
Disegni barbecue top-1 58,4 50,8 78,6 78,9
Winogender top-1 55,1 54,7 59,0 64,0
TruthfulQA 35.1 42,7 38,6 47,7
WinoBias 1_2 58,4 56,4 61,5 60,6
WinoBias 2_2 90,0 75,4 90,2 90,3
Tossigeno 56,7 50,0 58,8 64,5

Utilizzo e limitazioni del modello

Limitazioni note

Questi modelli presentano alcune limitazioni di cui gli utenti devono essere a conoscenza:

  • Dati di addestramento
    • La qualità e la diversità dei dati di addestramento influenzano notevolmente le capacità del modello. I bias o le lacune nei dati di addestramento possono comportare dei limiti nelle risposte del modello.
    • L'ambito del set di dati di addestramento determina le aree degli argomenti che il modello può gestire in modo efficace.
  • Contesto e complessità delle attività
    • Gli LLM sono migliori nelle attività che possono essere racchiuse con istruzioni e prompt chiari. Le attività aperte o molto complesse potrebbero essere complesse.
    • Le prestazioni di un modello possono essere influenzate dalla quantità di contesto fornito (un contesto più lungo in genere porta a output migliori, fino a un certo punto).
  • Ambiguità e sfumature del linguaggio
    • Il linguaggio naturale è intrinsecamente complesso. Gli LLM potrebbero avere difficoltà a comprendere le sfumature più sottili, il sarcasmo o il linguaggio figurativo.
  • Accuratezza fattuale
    • Gli LLM generano risposte basate su informazioni apprese dai set di dati di addestramento, ma non sono knowledge base. Potrebbero generare affermazioni fattuali errate o obsolete.
  • Buon senso
    • gli LLM si basano su pattern statistici nel linguaggio. Potrebbero non essere in grado di applicare il ragionamento di buon senso in determinate situazioni.

Considerazioni etiche e rischi

Lo sviluppo di modelli linguistici di grandi dimensioni (LLM) solleva diverse preoccupazioni etiche. Durante la creazione di un modello aperto, abbiamo considerato attentamente i seguenti aspetti:

  • Bias ed equità
    • Gli LLM addestrati su dati di testo reali su larga scala possono rispecchiare bias socio-culturali incorporati nel materiale di formazione. Questi modelli sono stati sottoposti a un attento esame, è stata descritta la pre-elaborazione dei dati di input e valutazioni successive riportate in questa scheda.
  • Disinformazione e uso improprio
    • Gli LLM possono essere utilizzati in modo improprio per generare testo falso, fuorviante o dannoso.
    • Vengono fornite linee guida per l'uso responsabile con il modello. Consulta il Toolkit per l'IA generativa responsabile.
  • Trasparenza e responsabilità
    • Questa scheda del modello riassume i dettagli sull'architettura, le funzionalità, i limiti e i processi di valutazione dei modelli.
    • Un modello aperto sviluppato in modo responsabile offre l'opportunità di condividere l'innovazione rendendo la tecnologia LLM accessibile a sviluppatori e ricercatori in tutto l'ecosistema IA.

Rischi identificati e mitigazioni:

  • Perpetuazione dei bias: ti consigliamo di eseguire un monitoraggio continuo (utilizzando le metriche di valutazione, la revisione da parte di persone fisiche) e l'esplorazione delle tecniche di de-biaing durante l'addestramento del modello, l'ottimizzazione e altri casi d'uso.
  • Generazione di contenuti dannosi:i meccanismi e le linee guida per la sicurezza dei contenuti sono essenziali. Gli sviluppatori sono invitati a prestare attenzione e a implementare misure di sicurezza appropriate per la sicurezza dei contenuti in base alle proprie norme sui prodotti e ai casi d'uso delle applicazioni specifici.
  • Uso improprio per scopi dannosi: limitazioni tecniche e la formazione per sviluppatori e utenti finali possono contribuire a mitigare l'utilizzo di applicazioni dannose degli LLM. Vengono fornite risorse didattiche e meccanismi di segnalazione per consentire agli utenti di segnalare l'uso improprio. Gli usi vietati dei modelli Gemma sono descritti nei nostri Termini e condizioni d'uso.
  • Violazioni della privacy: i modelli sono stati addestrati su dati filtrati per la rimozione di informazioni che consentono l'identificazione personale (PII). Gli sviluppatori sono invitati a rispettare le normative sulla privacy con tecniche incentrate sulla tutela della privacy.

Uso previsto

Applicazione

I modelli linguistici di grandi dimensioni (LLM) aperti hanno una vasta gamma di applicazioni in vari settori e domini. Il seguente elenco di potenziali utilizzi non è esaustivo. Lo scopo di questo elenco è fornire informazioni contestuali sui possibili casi d'uso che i creatori dei modelli hanno considerato nell'ambito dell'addestramento e dello sviluppo dei modelli.

  • Creazione di contenuti e comunicazione
    • Generazione del testo:questi modelli possono essere utilizzati per generare formati di testo delle creatività come poesie, script, codice, testi di marketing, bozze di email e così via.
    • Chatbot e IA conversazionale: potenzia interfacce di conversazione per assistenza clienti, assistenti virtuali o applicazioni interattive.
    • Riassunto del testo: genera riassunti concisi di un corpus di testo, articoli di ricerca o report.
  • Ricerca e istruzione
    • Ricerca sull'elaborazione del linguaggio naturale (NLP): questi modelli possono servire ai ricercatori per sperimentare le tecniche NLP, sviluppare algoritmi e contribuire ai progressi nel campo.
    • Strumenti per l'apprendimento delle lingue: supportano esperienze interattive di apprendimento delle lingue, favorendo la correzione grammaticale o fornendo pratica di scrittura.
    • Esplorazione delle conoscenze: aiuta i ricercatori a esplorare grandi quantità di testo generando riepiloghi o rispondendo a domande su argomenti specifici.

Vantaggi

Al momento del rilascio, questa famiglia di modelli fornisce implementazioni di modelli linguistici di grandi dimensioni aperto ad alte prestazioni, progettate da zero per lo sviluppo di un'IA responsabile rispetto a modelli di dimensioni simili.

Utilizzando le metriche di valutazione dei benchmark descritte in questo documento, questi modelli hanno dimostrato di fornire prestazioni superiori rispetto ad altre alternative di modelli aperti di dimensioni comparabili.

In particolare, i modelli RecurrentGemma ottengono prestazioni paragonabili ai modelli Gemma, ma sono più veloci durante l'inferenza e richiedono meno memoria, soprattutto nelle sequenze lunghe.