Pagina modello: RecurrentGemma
Risorse e documentazione tecnica:
Termini e condizioni d'uso: termini
Autori:Google
Informazioni sul modello
Riepilogo modello
Descrizione
RecurrentGemma è una famiglia di modelli linguistici aperti basati su un nuovo personalizzata sviluppata da Google. Entrambi le versioni preaddestrate e ottimizzate per le istruzioni sono disponibili in inglese.
Come Gemma, i modelli RecurrentGemma sono adatti per una varietà di testi di generazione di testi, tra cui la risposta alle domande, il riassunto e il ragionamento. A causa della sua nuova architettura, RecurrentGemma richiede meno memoria Gemma e ottiene un'inferenza più rapida durante la generazione di sequenze lunghe.
Input e output
- Input: stringa di testo (ad esempio una domanda, un prompt o un documento da riassunte).
- Output:testo generato in lingua inglese in risposta all'input (ad es. una risposta alla domanda, un riepilogo del documento).
Citazione
@article{recurrentgemma_2024,
title={RecurrentGemma},
url={},
DOI={},
publisher={Kaggle},
author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
year={2024}
}
Dati del modello
Elaborazione dei dati e set di dati di addestramento
RecurrentGemma utilizza gli stessi dati di addestramento e lo stesso trattamento dati utilizzati famiglia di modelli Gemma. Una descrizione completa si trova sul modello Gemma .
Informazioni sull'implementazione
Hardware e framework utilizzati durante l'addestramento
Mi piace Gemma RecurrentGemma è stata addestrata TPUv5e utilizzando JAX e ML Percorsi.
Informazioni sulla valutazione
Risultati dei benchmark
Approccio di valutazione
Questi modelli sono stati valutati rispetto a un'ampia raccolta di set di dati diversi per coprire diversi aspetti della generazione del testo:
Risultati valutazione
Benchmark | Metrica | RecurrentGemma 2B | RecurrentGemma 9B |
---|---|---|---|
MMLU | 5-colpi, top-1 | 38,4 | 60.5 |
HellaSwag | Tiro 0 | 71,0 | 80,4 |
PIQA | Tiro 0 | 78,5 | 81,3 |
SocialIQA | Tiro 0 | 51,8 | 52,3 |
BoolQ | Tiro 0 | 71,3 | 80,3 |
WinoGrande | punteggio parziale | 67,8 | 73,6 |
CommonsenseQA | 7 tiri | 63,7 | 73,2 |
OpenBookQA | 47,2 | 51,8 | |
ARC-e | 72,9 | 78,8 | |
ARC-c | 42,3 | 52,0 | |
TriviaQA | 5 tiri | 52,5 | 70,5 |
Domande naturali | 5 tiri | 11,5 | 21,7 |
HumanEval | pass@1 | 21,3 | 31,1 |
MBPP | 3 foto | 28,8 | 42,0 |
GSM8K | mag@1 | 13,4 | 42,6 |
MATH | 4-colpi | 11.0 | 23,8 |
AGIEval | 23,8 | 39,3 | |
BIG-Bench | 35,3 | 55,2 | |
Media | 44,6 | 56,1 |
Etica e sicurezza
Valutazioni etiche e di sicurezza
Approccio basato sulla valutazione
I nostri metodi di valutazione includono valutazioni strutturate e il red teaming interno il test delle norme relative ai contenuti pertinenti. Il red teaming è stato condotto da team diversi, ciascuno con obiettivi e metriche di valutazione umana diversi. Questi sono stati valutati sulla base di varie categorie pertinenti sicurezza e etica, tra cui:
- Sicurezza dei contenuti da testo a testo: valutazione umana dei prompt relativi alla sicurezza Norme relative a sfruttamento e abusi sessuali su minori, molestie, violenza e spargimenti di sangue e incitamento all'odio.
- Danni rappresentativi da testo a testo: confronto con i contenuti accademici pertinenti come WinoBias e BBQ Dataset.
- Memorizzazione: valutazione automatica della memorizzazione dei dati di addestramento, compreso il rischio di compromissione delle informazioni personali.
- Danno su larga scala: verifica la presenza di "funzionalità pericolose", ad esempio sostanze chimiche, rischi biologici, radiologici e nucleari (CBRN); nonché i test per la persuasione e l'inganno, la cybersicurezza e la replica autonoma.
Risultati valutazione
I risultati delle valutazioni etiche e di sicurezza rientrano in soglie accettabili per le riunioni interne norme per categorie come sicurezza dei minori, sicurezza dei contenuti, danni rappresentativi, la memorizzazione, danni su larga scala. Oltre a solide valutazioni interne, risultati di benchmark di sicurezza noti come BBQ, Winogender, WinoBias, RealToxicity e TruthfulQA sono mostrati qui.
Benchmark | Metrica | RecurrentGemma 2B | RecurrentGemma 2B IT | RecurrentGemma 9B | RecurrentGemma 9B IT |
---|---|---|---|---|---|
RealToxicity | media | 9,8 | 7,60 | 10.3 | 8.8 |
BOLD | 39,3 | 52,3 | 39,8 | 47,9 | |
Coppie di corvi | top-1 | 41,1 | 43,4 | 38,7 | 39,5 |
Barbecue Ambig | top-1 | 62,6 | 71,1 | 95,9 | 67,1 |
Disegni barbecue | top-1 | 58,4 | 50,8 | 78,6 | 78,9 |
Winogender | top-1 | 55,1 | 54,7 | 59,0 | 64,0 |
TruthfulQA | 35.1 | 42,7 | 38,6 | 47,7 | |
WinoBias 1_2 | 58,4 | 56,4 | 61,5 | 60,6 | |
WinoBias 2_2 | 90,0 | 75,4 | 90,2 | 90,3 | |
Toxigen | 56,7 | 50,0 | 58,8 | 64,5 |
Utilizzo e limitazioni del modello
Limitazioni note
Questi modelli presentano alcune limitazioni di cui gli utenti devono essere a conoscenza:
- Dati di addestramento
- La qualità e la diversità dei dati di addestramento influiscono notevolmente le capacità del modello. I bias o le lacune nei dati di addestramento possono ai limiti delle risposte del modello.
- L'ambito del set di dati di addestramento determina le aree oggetto del modello essere in grado di gestirle in modo efficace.
- Contesto e complessità delle attività
- Gli LLM sono migliori nelle attività che possono essere inquadrate con prompt chiari istruzioni. Le attività aperte o molto complesse potrebbero essere complesse.
- Le prestazioni di un modello possono essere influenzate dalla quantità di contesto forniti (un contesto più lungo in genere porta a risultati migliori, fino a un certo punto).
- Ambiguità e sfumature del linguaggio
- Il linguaggio naturale è intrinsecamente complesso. gli LLM potrebbero avere difficoltà a comprendere sottili sfumature, sarcasmo o linguaggio figurativo.
- Accuratezza fattuale
- gli LLM generano risposte in base alle informazioni che hanno appreso dalla loro per l'addestramento, ma non sono knowledge base. Potrebbero generare affermazioni fattuali errate o obsolete.
- Buon senso
- gli LLM si basano su pattern statistici nel linguaggio. Potrebbero mancare capacità di applicare il ragionamento di buon senso in determinate situazioni.
Considerazioni etiche e rischi
Lo sviluppo di modelli linguistici di grandi dimensioni (LLM) solleva diverse preoccupazioni etiche. Durante la creazione di un modello aperto, abbiamo considerato attentamente i seguenti aspetti:
- Bias ed equità
- Gli LLM addestrati su dati di testo reali su larga scala possono riflettere pregiudizi socio-culturali incorporati nel materiale formativo. Questi modelli sono stati sottoposti a un attento esame, la pre-elaborazione dei dati di input è stata descritta e valutazioni a posteriori riportate in questa scheda.
- Disinformazione e uso improprio
- Gli LLM possono essere utilizzati in modo improprio per generare testo falso, fuorviante o dannoso.
- Vengono fornite linee guida per un uso responsabile del modello; consultare IA generativa responsabile di Google.
- Trasparenza e responsabilità
- Questa scheda del modello riassume i dettagli dei modelli dell'architettura, capacità, limitazioni e processi di valutazione.
- Un modello aperto sviluppato in modo responsabile offre l'opportunità di dell'innovazione rendendo la tecnologia LLM accessibile agli sviluppatori ricercatori di tutto l'ecosistema IA.
Rischi identificati e mitigazioni:
- Perpetuazione dei bias: ti consigliamo di eseguire un monitoraggio continuo (utilizzando metriche di valutazione, revisione da parte di persone fisiche) ed esplorando il de-bias tecniche di addestramento durante l'addestramento del modello, l'ottimizzazione e altri casi d'uso.
- Generazione di contenuti dannosi:meccanismi e linee guida per i contenuti sono essenziali. Gli sviluppatori sono invitati a prestare attenzione e implementare misure di sicurezza appropriate per la sicurezza dei contenuti in base alle le norme sui prodotti e i casi d'uso delle applicazioni.
- Uso improprio per scopi illeciti: limitazioni tecniche e implementazione degli sviluppatori e la formazione dell'utente finale può contribuire a mitigare le applicazioni dannose degli LLM. Le risorse didattiche e i meccanismi di segnalazione per segnalare un uso improprio sono fornito. Gli usi vietati dei modelli Gemma sono descritti nei nostri termini di .
- Violazioni della privacy: i modelli sono stati addestrati su dati filtrati per la rimozione di PII (informazioni che consentono l'identificazione personale). Gli sviluppatori sono invitati a Rispettare le normative sulla privacy con tecniche che tutelano la privacy.
Uso previsto
Applicazione
I modelli linguistici di grandi dimensioni (LLM) aperti hanno una vasta gamma di applicazioni in vari settori e domini. Il seguente elenco di potenziali utilizzi non esaustive. Lo scopo di questo elenco è fornire informazioni contestuali casi d'uso che i creator consideravano parte del modello dell'addestramento e dello sviluppo.
- Creazione di contenuti e comunicazione
- Generazione del testo:questi modelli possono essere utilizzati per generare testo della creatività formati come poesie, copioni, codici, testi di marketing, bozze di email e così via.
- Chatbot e IA conversazionale: potenzia le interfacce di conversazione per assistenza clienti, assistenti virtuali o applicazioni interattive.
- Riassunto del testo: genera riassunti concisi di un corpus di testo. articoli di ricerca o report.
- Ricerca e istruzione
- Ricerca sull'elaborazione del linguaggio naturale (NLP): questi modelli possono servire come base per permettere ai ricercatori di sperimentare le tecniche NLP, sviluppare algoritmi e contribuire ai progressi nel campo.
- Strumenti per l'apprendimento delle lingue: supportano l'apprendimento interattivo delle lingue. esperienze d'uso, favorendo la correzione grammaticale o fornendo pratica di scrittura.
- Esplorazione delle conoscenze: aiuta i ricercatori nell'esplorazione di corpi di grandi dimensioni di testo generando riepiloghi o rispondendo a domande su argomenti.
Vantaggi
Al momento del rilascio, questa famiglia di modelli offre prestazioni implementazioni di modelli linguistici di grandi dimensioni (LLM) progettate da zero per lo sviluppo dell'IA rispetto a modelli di dimensioni simili.
Utilizzando le metriche di valutazione dei benchmark descritte in questo documento, questi modelli hanno dimostrato di offrire prestazioni superiori rispetto ad altri modelli aperti di dimensioni comparabili alternative.
In particolare, i modelli RecurrentGemma ottengono prestazioni paragonabili a quelle di Gemma. ma sono più veloci durante l'inferenza e richiedono meno memoria, in particolare sequenze lunghe.