Modellseite:RecurrentGemma
Ressourcen und technische Dokumentation:
Nutzungsbedingungen: Begriffe
Autoren: Google
Modellinformationen
Modellübersicht
Beschreibung
RecurrentGemma ist eine Familie offener Sprachmodelle, die auf einer neuartigen rekurrenten Architektur basieren, die bei Google entwickelt wurde. Sowohl vorab trainierte als auch anhand von Anleitungen optimierte Versionen sind auf Englisch verfügbar.
Wie Gemma eignen sich RecurrentGemma-Modelle für eine Vielzahl von Textgenerierungsaufgaben, darunter Fragenbeantwortung, Zusammenfassung und Argumentation. Aufgrund seiner neuartigen Architektur benötigt RecurrentGemma weniger Arbeitsspeicher als Gemma und erreicht eine schnellere Inferenz beim Generieren langer Sequenzen.
Eingaben und Ausgaben
- Eingabe: Textstring (z. B. eine Frage, ein Prompt oder ein Dokument, das zusammengefasst werden soll)
- Ausgabe:Als Reaktion auf die Eingabe generierter englischsprachiger Text (z.B. eine Antwort auf die Frage oder eine Zusammenfassung des Dokuments).
Zitation
@article{recurrentgemma_2024,
title={RecurrentGemma},
url={},
DOI={},
publisher={Kaggle},
author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
year={2024}
}
Modelldaten
Trainingsdatensatz und Datenverarbeitung
RecurrentGemma verwendet dieselben Trainingsdaten und die gleiche Datenverarbeitung wie die Gemma-Modellfamilie. Eine vollständige Beschreibung finden Sie auf der Gemma-Modellkarte.
Informationen zur Implementierung
Hardware und Frameworks, die während des Trainings verwendet werden
Wie Gemma wurde RecurrentGemma auf einer TPUv5e mit JAX und ML Pathways trainiert.
Informationen zur Bewertung
Benchmark-Ergebnisse
Bewertungsansatz
Diese Modelle wurden anhand einer großen Sammlung verschiedener Datasets und Messwerte bewertet, um verschiedene Aspekte der Textgenerierung abzudecken:
Bewertungsergebnisse
Benchmark | Messwert | RecurrentGemma 2B | RecurrentGemma 9B |
---|---|---|---|
MMLU | 5-shot, top-1 | 38,4 | 60.5 |
HellaSwag | 0-Shot | 71,0 | 80,4 |
PIQA | 0-Shot | 78,5 | 81,3 |
SocialIQA | 0-Shot | 51,8 | 52,3 |
BoolQ | 0-Shot | 71,3 | 80,3 |
WinoGrande | Teilpunktzahl | 67,8 | 73,6 |
CommonsenseQA | 7-shot | 63,7 | 73,2 |
OpenBookQA | 47,2 | 51,8 | |
ARC-e | 72,9 | 78,8 | |
ARC-c | 42,3 | 52,0 | |
TriviaQA | 5-Shot | 52,5 | 70,5 |
Natürliche Fragen | 5-Shot | 11.5 | 21.7 |
HumanEval | pass@1 | 21,3 | 31.1 |
MBPP | 3-shot | 28,8 | 42,0 |
GSM8K | maj@1 | 13,4 | 42,6 |
MATH | 4-Shot | 11.0 | 23,8 |
AGIEval | 23,8 | 39,3 | |
BIG-Bench | 35,3 | 55,2 | |
Durchschnitt | 44,6 | 56,1 |
Ethik und Sicherheit
Ethik- und Sicherheitsbewertungen
Bewertungsansatz
Zu unseren Bewertungsmethoden gehören strukturierte Bewertungen und interne Red-Team-Tests der relevanten Inhaltsrichtlinien. Das Red-Teaming wurde von mehreren verschiedenen Teams durchgeführt, die jeweils unterschiedliche Ziele und Bewertungsmesswerte für Menschen hatten. Diese Modelle wurden anhand verschiedener Kategorien bewertet, die für Ethik und Sicherheit relevant sind, darunter:
- Sicherheit von Text-zu-Text-Inhalten:Manuelle Bewertung von Prompts im Hinblick auf Sicherheitsrichtlinien, einschließlich sexuellem Missbrauch und Ausbeutung von Kindern, Belästigung, Gewalt und Grausamkeit sowie Hassrede.
- Repräsentativ schädliche Text-zu-Text-Modelle: Vergleich mit relevanten akademischen Datasets wie WinoBias und BBQ Dataset.
- Merken:Automatische Bewertung des Merkens von Trainingsdaten, einschließlich des Risikos der Offenlegung personenidentifizierbarer Informationen.
- Große Schäden: Tests auf „gefährliche Funktionen“, z. B. chemische, biologische, radiologische und nukleare Risiken (CBRN), sowie Tests auf Überzeugung und Täuschung, Internetsicherheit und autonome Replikation.
Bewertungsergebnisse
Die Ergebnisse der Ethik- und Sicherheitsbewertungen liegen innerhalb der zulässigen Grenzwerte, um die internen Richtlinien für Kategorien wie den Schutz von Kindern, die Sicherheit von Inhalten, repräsentative Schäden, das Auswendiglernen und Schäden in großem Umfang einzuhalten. Neben robusten internen Bewertungen werden hier auch die Ergebnisse bekannter Sicherheits-Benchmarks wie BBQ, Winogender, WinoBias, RealToxicity und TruthfulQA angezeigt.
Benchmark | Messwert | RecurrentGemma 2B | RecurrentGemma 2B IT | RecurrentGemma 9B | RecurrentGemma 9B IT |
---|---|---|---|---|---|
RealToxicity | Durchschn. | 9,8 | 7,60 | 10.3 | 8.8 |
FETT | 39,3 | 52,3 | 39,8 | 47,9 | |
CrowS-Paare | top-1 | 41.1 | 43,4 | 38,7 | 39,5 |
BBQ Ambig | top-1 | 62,6 | 71.1 | 95,9 | 67,1 |
BBQ Disambig | top-1 | 58,4 | 50,8 | 78,6 | 78,9 |
Winogender | top-1 | 55.1 | 54,7 | 59,0 | 64,0 |
TruthfulQA | 35,1 | 42,7 | 38,6 | 47,7 | |
WinoBias 1_2 | 58,4 | 56,4 | 61,5 | 60,6 | |
WinoBias 2_2 | 90,0 | 75,4 | 90,2 | 90,3 | |
Toxigen | 56,7 | 50,0 | 58,8 | 64,5 |
Modellnutzung und -einschränkungen
Bekannte Einschränkungen
Diese Modelle haben bestimmte Einschränkungen, die Nutzer beachten sollten:
- Trainingsdaten
- Die Qualität und Vielfalt der Trainingsdaten wirken sich erheblich auf die Fähigkeiten des Modells aus. Verzerrungen oder Lücken in den Trainingsdaten können zu Einschränkungen bei den Antworten des Modells führen.
- Der Umfang des Trainingsdatensatzes bestimmt die Themenbereiche, die das Modell effektiv verarbeiten kann.
- Kontext und Aufgabenkomplexität
- LLMs eignen sich besser für Aufgaben, die mit klaren Prompts und Anweisungen formuliert werden können. Offene oder sehr komplexe Aufgaben können eine Herausforderung darstellen.
- Die Leistung eines Modells kann durch die Menge des bereitgestellten Kontexts beeinflusst werden. Längerer Kontext führt in der Regel bis zu einem bestimmten Punkt zu besseren Ergebnissen.
- Mehrdeutigkeit und Nuancen der Sprache
- Die natürliche Sprache ist von Natur aus komplex. LLMs haben möglicherweise Schwierigkeiten, subtile Nuancen, Sarkasmus oder bildhafte Sprache zu verstehen.
- Sachliche Richtigkeit
- LLMs generieren Antworten basierend auf Informationen, die sie aus ihren Trainingsdatensätzen gelernt haben, sind aber keine Wissensdatenbanken. Sie können falsche oder veraltete Sachinformationen generieren.
- Der gesunde Menschenverstand
- LLMs basieren auf statistischen Mustern in der Sprache. Möglicherweise fehlt es ihnen in bestimmten Situationen an gesundem Menschenverstand.
Ethische Aspekte und Risiken
Die Entwicklung von Large Language Models (LLMs) wirft mehrere ethische Fragen auf. Bei der Entwicklung eines offenen Modells haben wir Folgendes sorgfältig berücksichtigt:
- Voreingenommenheit und Fairness
- LLMs, die mit großen Mengen an realen Textdaten trainiert wurden, können soziokulturelle Voreingenommenheiten widerspiegeln, die im Trainingsmaterial enthalten sind. Diese Modelle wurden sorgfältig geprüft. Die Vorverarbeitung der Eingabedaten und die nachfolgenden Bewertungen sind auf dieser Karte beschrieben.
- Fehlinformationen und Missbrauch
- LLMs können missbraucht werden, um falsche, irreführende oder schädliche Texte zu generieren.
- Im Toolkit für die verantwortungsbewusste Nutzung von Generative AI finden Sie Richtlinien für die verantwortungsvolle Verwendung des Modells.
- Transparenz und Rechenschaftspflicht
- Auf dieser Modellkarte finden Sie Details zur Architektur, zu den Funktionen, zu den Einschränkungen und zu den Bewertungsverfahren der Modelle.
- Ein verantwortungsvoll entwickeltes offenes Modell bietet die Möglichkeit, Innovationen zu teilen, indem die LLM-Technologie für Entwickler und Forscher im gesamten KI-System zugänglich gemacht wird.
Identifizierte Risiken und Risikominderungen:
- Verfestigung von Voreingenommenheiten: Es wird empfohlen, während des Modelltrainings, der Feinabstimmung und anderer Anwendungsfälle kontinuierliche Überwachung (mithilfe von Bewertungsmesswerten und manueller Überprüfung) durchzuführen und Methoden zur Beseitigung von Voreingenommenheiten zu untersuchen.
- Erstellung schädlicher Inhalte:Mechanismen und Richtlinien für die Sicherheit von Inhalten sind unerlässlich. Entwicklern wird empfohlen, mit Bedacht vorzugehen und geeignete Maßnahmen zur Sicherheit von Inhalten zu implementieren, die auf ihren spezifischen Produktrichtlinien und Anwendungsfällen basieren.
- Missbrauch zu böswilligen Zwecken:Technische Einschränkungen und Aufklärung von Entwicklern und Endnutzern können dazu beitragen, die böswillige Verwendung von LLMs zu verhindern. Es werden Informationsressourcen und Meldemechanismen bereitgestellt, mit denen Nutzer Missbrauch melden können. Verbotene Verwendungen von Gemma-Modellen sind in unseren Nutzungsbedingungen aufgeführt.
- Datenschutzverstöße:Die Modelle wurden mit Daten trainiert, die nach personenidentifizierbaren Informationen gefiltert wurden. Entwickler werden aufgefordert, Datenschutzvorschriften mit datenschutzfreundlichen Verfahren einzuhalten.
Verwendungszweck
Anwendung
Offene Large Language Models (LLMs) haben eine breite Palette von Anwendungen in verschiedenen Branchen und Bereichen. Die folgende Liste möglicher Verwendungen ist nicht vollständig. Diese Liste soll Kontextinformationen zu den möglichen Anwendungsfällen liefern, die die Ersteller des Modells im Rahmen der Modellschulung und -entwicklung berücksichtigt haben.
- Inhaltserstellung und Kommunikation
- Textgenerierung:Mit diesen Modellen können kreative Textformate wie Gedichte, Scripts, Code, Marketingtexte und E-Mail-Entwürfe generiert werden.
- Chatbots und konversationelle KI:Ermöglichen Sie Konversationsschnittstellen für den Kundenservice, virtuelle Assistenten oder interaktive Anwendungen.
- Textzusammenfassung: Sie können kurze Zusammenfassungen eines Textkorpus, von Forschungsarbeiten oder Berichten erstellen.
- Forschung und Bildung
- Forschung im Bereich Natural Language Processing (NLP): Diese Modelle können als Grundlage für Forscher dienen, um mit NLP-Techniken zu experimentieren, Algorithmen zu entwickeln und zur Weiterentwicklung des Bereichs beizutragen.
- Tools zum Sprachlernen: Unterstützen interaktives Sprachlernen, helfen bei der Grammatikkorrektur oder bieten Schreibübungen.
- Wissensexploration: Hilft Forschern, große Textmengen zu untersuchen, indem Zusammenfassungen erstellt oder Fragen zu bestimmten Themen beantwortet werden.
Vorteile
Zum Zeitpunkt der Veröffentlichung bietet diese Modellfamilie im Vergleich zu Modellen ähnlicher Größe hochleistungsfähige, offene Large Language Model-Implementierungen, die von Grund auf für die verantwortungsbewusste Entwicklung von KI entwickelt wurden.
Anhand der in diesem Dokument beschriebenen Benchmark-Bewertungsmesswerte haben diese Modelle eine bessere Leistung als andere Open-Source-Modelle mit vergleichbarer Größe gezeigt.
Insbesondere erzielen RecurrentGemma-Modelle eine vergleichbare Leistung wie Gemma-Modelle, sind aber bei der Inferenz schneller und benötigen weniger Arbeitsspeicher, insbesondere bei langen Sequenzen.