Scheda del modello RecurrentGemma

Pagina del modello: RecurrentGemma

Risorse e documentazione tecnica:

Termini e condizioni d'uso: Termini

Autori: Google

Informazioni sul modello

Riepilogo modello

Descrizione

RecurrentGemma è una famiglia di modelli linguistici aperti basati su una nuova architettura ricorrente sviluppata da Google. Entrambe le versioni preaddestrate e ottimizzate per l'istruzione sono disponibili in inglese.

Come Gemma, i modelli di RecurrentGemma sono adatti per una varietà di attività di generazione del testo, tra cui la risposta alle domande, il riassunto e il ragionamento. Grazie alla nuova architettura, RecurrentGemma richiede meno memoria di Gemma e raggiunge un'inferenza più rapida durante la generazione di sequenze lunghe.

Ingressi e uscite

  • Input: stringa di testo (ad esempio una domanda, un prompt o un documento da riassumere).
  • Output: testo in lingua inglese generato in risposta all'input (ad esempio, una risposta alla domanda, un riepilogo del documento).

Citazione

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

Dati del modello

Set di dati di addestramento ed elaborazione dati

RecurrentGemma utilizza gli stessi dati di addestramento e di elaborazione dei dati della famiglia di modelli Gemma. Una descrizione completa è disponibile nella scheda del modello Gemma.

Informazioni sull'implementazione

Hardware e framework utilizzati durante l'addestramento

Come Gemma, RecurrentGemma è stato addestrato su TPUv5e, utilizzando JAX e ML Pathways.

Informazioni sulla valutazione

Risultati benchmark

Approccio alla valutazione

Questi modelli sono stati valutati su una vasta raccolta di diversi set di dati e metriche per coprire diversi aspetti della generazione del testo:

Risultati della valutazione

Benchmark Metrica RecurrentGemma 2B
MMLU 5 scatti, primo 1 38,4
HellaSwag Tiro 0 71,0
PIQA Tiro 0 78,5
SocialIQA Tiro 0 51,8
BoolQ Tiro 0 71,3
WinoGrande punteggio parziale 67,8
CommonsenseQA Tiri a 7 tiri 63,7
OpenBookQA 47,2
ARC-e 72,9
ARC-c 42,3
TriviaQA 5 scatti 52,5
Domande naturali 5 scatti 11,5
HumanEval tessera@1 21,3
MBPP 3 scatti 28,8
GSM8K marco@1 13,4
MATH 4 scatti 11.0
AGIEval 23,8
Grande panca 35,3
Media 44,6

Etica e sicurezza

Valutazioni etiche e della sicurezza

Approccio alla valutazione

I nostri metodi di valutazione includono valutazioni strutturate e test interni di red team delle norme relative ai contenuti pertinenti. Il red team è stato condotto da una serie di team diversi, ciascuno con obiettivi e metriche di valutazione diverse da parte di persone fisiche. Questi modelli sono stati valutati in base a una serie di categorie diverse relative all'etica e alla sicurezza, tra cui:

  • Sicurezza dei contenuti da testo a testo: valutazione umana di prompt relativi alle norme sulla sicurezza, inclusi sfruttamento e abusi sessuali su minori, molestie, violenza e spargimenti di sangue e incitamento all'odio.
  • Danni relativi alla rappresentazione da testo a testo: esegui un benchmark con set di dati accademici pertinenti come WinoBias e BBQ Dataset.
  • Memorizzazione: valutazione automatica della memorizzazione dei dati di addestramento, compreso il rischio di esposizione di informazioni che consentono l'identificazione personale.
  • Danni su larga scala: test per "capacità pericolose", come i rischi chimici, biologici, radiologici e nucleari (CBRN), nonché test di persuasione e inganno, cybersicurezza e replicazione autonoma.

Risultati della valutazione

I risultati delle valutazioni etiche e di sicurezza rientrano in soglie accettabili per il rispetto delle norme interne per categorie quali sicurezza dei minori, sicurezza dei contenuti, danni rappresentativi, memorizzazione, danni su larga scala. Oltre a solide valutazioni interne, vengono mostrati qui i risultati di benchmark di sicurezza ben noti come BBQ, Winogender, Winobias, RealToxicity e TruthfulQA.

Benchmark Metrica RecurrentGemma 2B RecurrentGemma 2B IT
RealToxicity media 9.8 7,6
GRASSETTO 39,3 52,4
Coppie di corvi top-1 41,1 43,4
Barbecue Ambig top-1 62,6 71,1
Disambigazione barbecue top-1 58,4 50,8
Winogender top-1 55,1 54,7
TruthfulQA 35.1 42,7
Winobias 1_2 58,4 56,4
Winobias 2_2 90,0 75,4
Tossigeni 56,7 50,0

Utilizzo del modello e limitazioni

Limitazioni note

Questi modelli presentano alcune limitazioni di cui gli utenti devono essere consapevoli:

  • Dati di addestramento
    • La qualità e la diversità dei dati di addestramento influiscono notevolmente sulle funzionalità del modello. Pregiudizi o lacune nei dati di addestramento possono portare a limitazioni nelle risposte del modello.
    • L'ambito del set di dati di addestramento determina le aree tematiche che il modello può gestire in modo efficace.
  • Contesto e complessità delle attività
    • Gli LLM sono migliori nelle attività che possono essere inquadrate con prompt e istruzioni chiari. Le attività aperte o molto complesse possono essere impegnative.
    • Le prestazioni di un modello possono essere influenzate dalla quantità di contesto fornito (un contesto più lungo generalmente comporta risultati migliori, fino a un certo punto).
  • Ambiguità e sfumature linguistiche
    • Il linguaggio naturale è intrinsecamente complesso. per gli LLM potrebbe essere difficile cogliere sfaccettature delicate, sarcasmo o linguaggio figurativo
  • Accuratezza fattuale
    • Gli LLM generano risposte in base alle informazioni apprese dai set di dati di addestramento, ma non sono knowledge base. Potrebbero generare dichiarazioni fattuali errate o obsolete.
  • Senso comune
    • gli LLM si basano su pattern statistici nel linguaggio. Potrebbero non essere in grado di applicare il ragionamento di buon senso in determinate situazioni.

Considerazioni e rischi etici

Lo sviluppo di modelli linguistici di grandi dimensioni (LLM) solleva diverse preoccupazioni etiche. Durante la creazione di un modello aperto, abbiamo considerato con attenzione quanto segue:

  • Bias ed equità
    • Gli LLM addestrati su dati di testo reali su larga scala possono riflettere pregiudizi socio-culturali incorporati nel materiale di formazione. Questi modelli sono stati sottoposti a un'attenta analisi, pre-elaborazione dei dati di input descritta e valutazioni posteriori riportate in questa scheda.
  • Disinformazione e uso improprio
    • Gli LLM possono essere utilizzati in modo improprio per generare testo falso, fuorviante o dannoso.
    • Vengono fornite linee guida per un uso responsabile con il modello. Consulta il Toolkit per l'IA generativa responsabile.
  • Trasparenza e responsabilità
    • Questa scheda del modello riassume i dettagli sull'architettura, le funzionalità, le limitazioni e i processi di valutazione dei modelli.
    • Un modello aperto sviluppato responsabilmente offre l'opportunità di condividere l'innovazione rendendo la tecnologia LLM accessibile a sviluppatori e ricercatori nell'intero ecosistema IA.

Rischi identificati e mitigazioni:

  • Perpetrazione dei bias: si consiglia di eseguire un monitoraggio continuo (utilizzando metriche di valutazione, revisione da parte di persone fisiche) e l'esplorazione di tecniche di rimozione del bias durante l'addestramento, l'ottimizzazione e altri casi d'uso del modello.
  • Generazione di contenuti dannosi: i meccanismi e le linee guida per la sicurezza dei contenuti sono essenziali. Consigliamo agli sviluppatori di procedere con cautela e di implementare le misure di salvaguardia della sicurezza dei contenuti appropriate in base ai criteri specifici del prodotto e ai casi d'uso delle applicazioni.
  • Utilizzo improprio per scopi dannosi: le limitazioni tecniche e le informazioni fornite a sviluppatori e utenti finali possono contribuire a mitigare le applicazioni dannose degli LLM. Vengono fornite risorse didattiche e meccanismi di segnalazione per consentire agli utenti di segnalare l'uso improprio. Gli usi vietati dei modelli di Gemma sono descritti nei nostri Termini e condizioni d'uso.
  • Violazioni della privacy: i modelli sono stati addestrati sui dati filtrati per la rimozione di PII (informazioni che consentono l'identificazione personale). Gli sviluppatori sono invitati a rispettare le normative sulla privacy con tecniche incentrate sulla tutela della privacy.

Utilizzo previsto

Applicazione

I modelli linguistici di grandi dimensioni (LLM) aperti hanno un'ampia gamma di applicazioni in vari settori e domini. Il seguente elenco di potenziali usi non è esaustivo. Lo scopo di questo elenco è fornire informazioni contestuali sui possibili casi d'uso che gli autori dei modelli hanno considerato nell'ambito dell'addestramento e dello sviluppo dei modelli.

  • Creazione e comunicazione di contenuti
    • Generazione del testo: questi modelli possono essere usati per generare formati di testo creativi come poesie, script, codice, testi di marketing, bozze di email e così via.
    • Chatbot e IA conversazionale: potenziano le interfacce di conversazione per l'assistenza clienti, gli assistenti virtuali o le applicazioni interattive.
    • Riassunto del testo: genera riassunti concisi di un corpus di testo, articoli di ricerca o report.
  • Ricerca e istruzione
    • Ricerca sull'elaborazione del linguaggio naturale (NLP): questi modelli possono servire da base per consentire ai ricercatori di sperimentare le tecniche NLP, sviluppare algoritmi e contribuire al progresso del campo.
    • Strumenti di apprendimento delle lingue: supportano esperienze interattive di apprendimento delle lingue, aiutano nella correzione grammaticale o praticano la scrittura.
    • Esplorazione delle conoscenze: aiuta i ricercatori a esplorare grandi volumi di testo generando riepiloghi o rispondendo a domande su argomenti specifici.

Vantaggi

Al momento del rilascio, questa famiglia di modelli fornisce implementazioni di modelli linguistici di grandi dimensioni aperti ad alte prestazioni, progettati da zero per lo sviluppo di un'IA responsabile rispetto a modelli di dimensioni simili.

Utilizzando le metriche di valutazione dei benchmark descritte in questo documento, questi modelli hanno dimostrato di fornire prestazioni migliori rispetto ad altre alternative di modelli aperti di dimensioni comparabili.

In particolare, i modelli RecurrentGemma ottengono prestazioni paragonabili ai modelli Gemma, ma sono più veloci durante l'inferenza e richiedono meno memoria, soprattutto nelle sequenze lunghe.