Pagina del modello: RecurrentGemma
Risorse e documentazione tecnica:
Termini e condizioni d'uso: Termini
Autori: Google
Informazioni sul modello
Riepilogo modello
Descrizione
RecurrentGemma è una famiglia di modelli linguistici aperti basati su una innovativa architettura con reti ricorrenti sviluppata da Google. Sia le versioni preaddestrate sia quelle regolate in base alle istruzioni sono disponibili in inglese.
Come Gemma, i modelli RecurrentGemma sono adatti a una serie di attività di generazione di testi, tra cui risposta a domande, riassunto e ragionamento. Grazie alla sua nuova architettura, RecurrentGemma richiede meno memoria di Gemma e ottiene un'inferenza più rapida durante la generazione di sequenze lunghe.
Input e output
- Input: stringa di testo (ad es. una domanda, un prompt o un documento da riassumere).
- Output: testo in lingua inglese generato in risposta all'input (ad es. una risposta alla domanda, un riepilogo del documento).
Citazione
@article{recurrentgemma_2024,
title={RecurrentGemma},
url={},
DOI={},
publisher={Kaggle},
author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
year={2024}
}
Dati del modello
Set di dati di addestramento ed elaborazione dei dati
RecurrentGemma utilizza gli stessi dati di addestramento e la stessa elaborazione dei dati utilizzati dalla famiglia di modelli Gemma. Una descrizione completa è disponibile nella scheda del modello Gemma.
Informazioni sull'implementazione
Hardware e framework utilizzati durante l'addestramento
Come Gemma, RecurrentGemma è stato addestrato su TPUv5e, utilizzando JAX e ML Pathways.
Informazioni sulla valutazione
Risultati del benchmark
Approccio di valutazione
Questi modelli sono stati valutati in base a una vasta raccolta di set di dati e metriche diversi per coprire diversi aspetti della generazione di testo:
Risultati valutazione
Benchmark | Metrica | RecurrentGemma 2B | RecurrentGemma 9B |
---|---|---|---|
MMLU | 5 foto, 1 migliore | 38,4 | 60.5 |
HellaSwag | Zero-shot | 71,0 | 80,4 |
PIQA | Zero-shot | 78,5 | 81,3 |
SocialIQA | Zero-shot | 51,8 | 52,3 |
BoolQ | Zero-shot | 71,3 | 80,3 |
WinoGrande | punteggio parziale | 67,8 | 73,6 |
CommonsenseQA | 7 scatti | 63,7 | 73,2 |
OpenBookQA | 47,2 | 51,8 | |
ARC-e | 72,9 | 78,8 | |
ARC-c | 42,3 | 52,0 | |
TriviaQA | 5 scatti | 52,5 | 70,5 |
Domande naturali | 5 scatti | 11,5 | 21,7 |
HumanEval | pass@1 | 21,3 | 31.1 |
MBPP | 3 scatti | 28,8 | 42,0 |
GSM8K | maj@1 | 13,4 | 42,6 |
MATH | 4 scatti | 11.0 | 23,8 |
AGIEval | 23,8 | 39,3 | |
BIG-Bench | 35,3 | 55,2 | |
Media | 44,6 | 56,1 |
Etica e sicurezza
Valutazioni di etica e sicurezza
Approccio alle valutazioni
I nostri metodi di valutazione includono valutazioni strutturate e test di red team interni delle norme relative ai contenuti pertinenti. L'attività di red teaming è stata condotta da diversi team, ognuno con obiettivi e metriche di valutazione umana diversi. Questi modelli sono stati valutati in base a una serie di categorie diverse pertinenti a etica e sicurezza, tra cui:
- Sicurezza dei contenuti di testo a testo: valutazione umana dei prompt che riguardano le norme sulla sicurezza, inclusi abuso e sfruttamento sessuale di minori, molestie, violenza e incitamento all'odio.
- Danni di rappresentazione da testo a testo: benchmark rispetto a set di dati accademici pertinenti come WinoBias e BBQ Dataset.
- Memorizzazione:valutazione automatica della memorizzazione dei dati di addestramento, incluso il rischio di esposizione di informazioni che consentono l'identificazione personale.
- Danni su larga scala: test per "funzionalità pericolose", come rischi chimici, biologici, radiologici e nucleari (CBRN), nonché test per persuasione e inganno, cybersicurezza e replica autonoma.
Risultati valutazione
I risultati delle valutazioni relative a etica e sicurezza rientrano nelle soglie accettabili per rispettare le norme interne per categorie quali sicurezza dei bambini, sicurezza dei contenuti, danni rappresentazionali, memorizzazione, danni su larga scala. Oltre a valutazioni interne solide, qui vengono mostrati i risultati di benchmark di sicurezza ben noti come BBQ, Winogender, WinoBias, RealToxicity e TruthfulQA.
Benchmark | Metrica | RecurrentGemma 2B | RecurrentGemma 2B IT | RecurrentGemma 9B | RecurrentGemma 9B IT |
---|---|---|---|---|---|
RealToxicity | media | 9,8 | 7,60 | 10.3 | 8.8 |
GRASSETTO | 39,3 | 52,3 | 39,8 | 47,9 | |
CrowS-Pairs | top-1 | 41.1 | 43,4 | 38,7 | 39,5 |
BBQ Ambig | top-1 | 62,6 | 71,1 | 95,9 | 67,1 |
BBQ Disambig | top-1 | 58,4 | 50,8 | 78,6 | 78,9 |
Winogender | top-1 | 55.1 | 54,7 | 59,0 | 64,0 |
TruthfulQA | 35.1 | 42,7 | 38,6 | 47,7 | |
WinoBias 1_2 | 58,4 | 56,4 | 61,5 | 60,6 | |
WinoBias 2_2 | 90,0 | 75,4 | 90,2 | 90,3 | |
Toxigen | 56,7 | 50,0 | 58,8 | 64,5 |
Utilizzo e limitazioni dei modelli
Limitazioni note
Questi modelli presentano alcune limitazioni che gli utenti devono conoscere:
- Dati di addestramento
- La qualità e la diversità dei dati di addestramento influiscono in modo significativo sulle funzionalità del modello. Bias o lacune nei dati di addestramento possono portare a limitazioni nelle risposte del modello.
- L'ambito del set di dati di addestramento determina le aree tematiche che il modello può gestire in modo efficace.
- Complessità del contesto e delle attività
- Gli LLM sono più efficaci per le attività che possono essere definite con prompt e istruzioni chiari. Le attività aperte o molto complesse potrebbero essere difficili.
- Le prestazioni di un modello possono essere influenzate dalla quantità di contesto fornito (in genere, un contesto più lungo genera output migliori, fino a un certo punto).
- Ambiguità e sfumature del linguaggio
- Il linguaggio naturale è intrinsecamente complesso. Gli LLM potrebbero avere difficoltà a cogliere sfumature sottili, sarcasmo o linguaggio figurato.
- Accuratezza fattuale
- Gli LLM generano risposte in base alle informazioni apprese dai set di dati di addestramento, ma non sono knowledge base. Potrebbero generare affermazioni fattuali errate o obsolete.
- Buon senso
- Gli LLM si basano su pattern statistici nel linguaggio. Potrebbero non avere la capacità di applicare il ragionamento di buon senso in determinate situazioni.
Considerazioni etiche e rischi
Lo sviluppo di modelli linguistici di grandi dimensioni (LLM) solleva diversi problemi etici. Nel creare un modello aperto, abbiamo preso in considerazione attentamente quanto segue:
- Bias ed equità
- Gli LLM addestrati su dati di testo reali su larga scala possono riflettere bias socio-culturali incorporati nel materiale di addestramento. Questi modelli sono stati sottoposti a un'attenta verifica, al pretrattamento dei dati di input descritto e alle valutazioni successive riportate in questa scheda.
- Disinformazione e uso improprio
- Gli LLM possono essere utilizzati in modo improprio per generare testo falso, fuorviante o dannoso.
- Per l'utilizzo responsabile del modello sono fornite linee guida, consulta il toolkit per l'IA generativa responsabile.
- Trasparenza e responsabilità
- Questa scheda del modello riassume i dettagli sull'architettura, sulle funzionalità, sulle limitazioni e sui processi di valutazione dei modelli.
- Un modello aperto sviluppato in modo responsabile offre l'opportunità di condividere l'innovazione rendendo la tecnologia LLM accessibile a sviluppatori e ricercatori nell'ecosistema dell'IA.
Rischi identificati e mitigazioni:
- Perpetuazione dei bias: ti invitiamo a eseguire un monitoraggio continuo (utilizzando metriche di valutazione, revisione umana) e a esplorare tecniche di rimozione dei bias durante l'addestramento del modello, l'ottimizzazione e altri casi d'uso.
- Genesi di contenuti dannosi: sono essenziali meccanismi e linee guida per la sicurezza dei contenuti. Gli sviluppatori sono invitati a prestare attenzione e implementare misure di salvaguardia della sicurezza dei contenuti appropriate in base alle loro specifiche norme relative ai prodotti e ai casi d'uso delle applicazioni.
- Uso improprio a scopo dannoso: le limitazioni tecniche e la formazione di sviluppatori e utenti finali possono contribuire a mitigare le applicazioni dannose degli LLM. Sono fornite risorse didattiche e meccanismi di segnalazione per consentire agli utenti di segnalare gli abusi. Gli utilizzi vietati dei modelli Gemma sono descritti nei nostri Termini di uso.
- Violazioni della privacy: i modelli sono stati addestrati su dati filtrati per la rimozione di PII (informazioni che consentono l'identificazione personale). Gli sviluppatori sono invitati a rispettare le normative sulla privacy con tecniche incentrate sulla tutela della privacy.
Utilizzo previsto
Applicazione
I modelli linguistici di grandi dimensioni (LLM) aperti hanno un'ampia gamma di applicazioni in vari settori e domini. Il seguente elenco di potenziali utilizzi non è completo. Lo scopo di questo elenco è fornire informazioni contestuali sui possibili casi d'uso che gli autori del modello hanno preso in considerazione durante l'addestramento e lo sviluppo del modello.
- Creazione di contenuti e comunicazione
- Generare testo:questi modelli possono essere utilizzati per generare formati di testo creativo come poesie, script, codice, testi di marketing, bozze di email e così via.
- Chatbot e IA conversazionale: potenzia le interfacce di conversazione per il servizio clienti, gli assistenti virtuali o le applicazioni interattive.
- Riassunto di testo:genera riepiloghi concisi di un corpus di testo, di ricerche o di report.
- Ricerca e istruzione
- Ricerca sull'elaborazione del linguaggio naturale (NLP): questi modelli possono essere utilizzati come base per consentire ai ricercatori di sperimentare tecniche di NLP, sviluppare algoritmi e contribuire allo sviluppo del settore.
- Strumenti per l'apprendimento delle lingue: supportano esperienze di apprendimento delle lingue interattive, aiutano a correggere la grammatica o forniscono esercizi di scrittura.
- Esplorazione della conoscenza:aiuta i ricercatori a esplorare grandi testi generando riepiloghi o rispondendo a domande su argomenti specifici.
Vantaggi
Al momento del rilascio, questa famiglia di modelli fornisce implementazioni di modelli linguistici di grandi dimensioni aperti ad alte prestazioni, progettati da zero per lo sviluppo di AI responsabile, rispetto ai modelli di dimensioni simili.
Utilizzando le metriche di valutazione del benchmark descritte in questo documento, questi modelli hanno dimostrato di offrire prestazioni superiori rispetto ad altre alternative di modelli aperti di dimensioni simili.
In particolare, i modelli RecurrentGemma raggiungono prestazioni paragonabili ai modelli Gemma, ma sono più veloci durante l'inferenza e richiedono meno memoria, in particolare su sequenze lunghe.