Modellseite:RecurrentGemma
Ressourcen und technische Dokumentation:
Nutzungsbedingungen: Nutzungsbedingungen
Autoren: Google
Modellinformationen
Modellübersicht
Beschreibung
RecurrentGemma ist eine Familie offener Language-Modelle, die auf einer neuartigen Recurrent-Architektur basieren, die von Google entwickelt wurde. Sowohl vortrainierte als auch auf Anleitungen abgestimmte Versionen sind auf Englisch verfügbar.
Wie Gemma eignen sich auch RecurrentGemma-Modelle gut für eine Vielzahl von Textgenerierungsaufgaben, einschließlich Fragenbeantwortung, Zusammenfassung und Logik. Aufgrund seiner neuen Architektur benötigt RecurrentGemma weniger Arbeitsspeicher als Gemma und erzielt beim Generieren langer Sequenzen eine schnellere Inferenz.
Ein- und Ausgaben
- Eingabe:Textstring (z.B. eine Frage, ein Prompt oder ein Dokument, das zusammengefasst werden soll).
- Ausgabe:Als Antwort auf die Eingabe wird englischsprachiger Text generiert, z.B. eine Antwort auf die Frage oder eine Zusammenfassung des Dokuments.
Zitation
@article{recurrentgemma_2024,
title={RecurrentGemma},
url={},
DOI={},
publisher={Kaggle},
author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
year={2024}
}
Modelldaten
Trainings-Dataset und Datenverarbeitung
RecurrentGemma verwendet dieselbe Trainingsdaten und Datenverarbeitung wie die Gemma-Modellfamilie. Eine vollständige Beschreibung finden Sie auf der Gemma-Modellkarte.
Informationen zur Implementierung
Während des Trainings verwendete Hardware und Frameworks
Wie Gemma wurde auch RecurrentGemma mithilfe von JAX- und ML-Pfaden auf TPUv5e trainiert.
Informationen zur Bewertung
Benchmarkergebnisse
Bewertungsansatz
Diese Modelle wurden anhand einer großen Sammlung verschiedener Datasets und Messwerte bewertet, um verschiedene Aspekte der Textgenerierung abzudecken:
Bewertungsergebnisse
Benchmark | Messwert | RecurrentGemma 2B |
---|---|---|
MMLU | 5-shot, Top-1 | 38,4 |
HellaSwag | 0-shot | 71,0 |
PIQA | 0-shot | 78,5 |
SocialIQA | 0-shot | 51,8 |
BoolQ | 0-Shot | 71,3 |
WinoGrande | Teilbewertung | 67,8 |
CommonsenseQA | 7-shot | 63,7 |
OpenBookQA | 47,2 | |
ARC-e | 72,9 | |
ARC-C | 42,3 | |
TriviaQA | 5-Shot | 52,5 |
Natürliche Fragen | 5-Shot | 11,5 |
HumanEval | Pass@1 | 21,3 |
MBPP | 3-Aufnahme | 28,8 |
GSM8K | Maj@1 | 13,4 |
MATH | 4-Shot | 11.0 |
AGIEval | 23,8 | |
BIG-Bench | 35,3 | |
Durchschnitt | 44,6 |
Ethik und Sicherheit
Bewertungen zu Ethik und Sicherheit
Bewertungsansatz
Unsere Bewertungsmethoden umfassen strukturierte Auswertungen und interne Red-Team-Tests relevanter Inhaltsrichtlinien. Red-Team-Einsätze wurden von verschiedenen Teams durchgeführt, die jeweils unterschiedliche Ziele und menschliche Bewertungsmesswerte verfolgten. Diese Modelle wurden anhand verschiedener Kategorien bewertet, die für Ethik und Sicherheit relevant sind, darunter:
- Sicherheit von Text-zu-Text-Inhalten:Manuelle Überprüfung von Prompts zu Sicherheitsrichtlinien, einschließlich sexueller Missbrauch und Ausbeutung von Kindern, Belästigung, Gewalt, Blut und Hassrede.
- Schäden bei der Text-zu-Text-Darstellung:Benchmarking anhand relevanter akademischer Datasets wie WinoBias und BBQ-Dataset.
- Memorisierung: Automatisierte Bewertung des Merkens von Trainingsdaten, einschließlich des Risikos der Offenlegung personenidentifizierbarer Informationen.
- Großer Schaden:Tests auf „gefährliche Eigenschaften“ wie chemische, biologische, radiologische und nukleare Risiken (CBRN) sowie Tests auf Überzeugungs- und Täuschung, Internetsicherheit und autonome Replikation.
Bewertungsergebnisse
Die Ergebnisse von Bewertungen zu Ethik und Sicherheit liegen innerhalb eines akzeptablen Schwellenwerts für die Einhaltung der internen Richtlinien für Kategorien wie Kinderschutz, Sicherheit von Inhalten, Darstellungsschäden, Erinnerungsvermögen und schwerwiegende Schäden. Zusätzlich zu zuverlässigen internen Bewertungen werden hier die Ergebnisse bekannter Sicherheits-Benchmarks wie BBQ, Winogender, Winobias, RealToxicity und TruthfulQA dargestellt.
Benchmark | Messwert | RecurrentGemma 2B | RecurrentGemma 2B IT |
---|---|---|---|
RealToxicity | Durchschn. | 9,8 | 7.6 |
FETT | 39,3 | 52,4 | |
Krähen-Paare | top-1 | 41,1 | 43,4 |
BBQ Ambig | top-1 | 62,6 | 71,1 |
Grillparty | top-1 | 58,4 | 50,8 |
Winogender | top-1 | 55,1 | 54,7 |
TruthfulQA | 35,1 | 42,7 | |
Winobias 1_2 | 58,4 | 56,4 | |
Winobias 2_2 | 90,0 | 75,4 | |
Toxigen | 56,7 | 50,0 |
Modellnutzung und -einschränkungen
Bekannte Einschränkungen
Bei diesen Modellen gelten bestimmte Einschränkungen, die Nutzer beachten sollten:
- Trainingsdaten
- Die Qualität und Vielfalt der Trainingsdaten beeinflusst die Fähigkeiten des Modells erheblich. Verzerrungen oder Lücken in den Trainingsdaten können zu Einschränkungen in den Antworten des Modells führen.
- Der Umfang des Trainings-Datasets bestimmt, welche Themenbereiche das Modell effektiv bewältigen kann.
- Kontext und Komplexität der Aufgaben
- LLMs eignen sich besser für Aufgaben, die mit klaren Aufforderungen und Anweisungen umrahmt werden können. Offene oder hochkomplexe Aufgaben können eine Herausforderung darstellen.
- Die Leistung eines Modells kann durch den Umfang des bereitgestellten Kontexts beeinflusst werden (längerer Kontext führt in der Regel bis zu einem bestimmten Punkt zu besseren Ausgaben).
- Mehrdeutigkeiten und Nuancen der Sprache
- Natürliche Sprache ist von Natur aus komplex. LLMs haben möglicherweise Schwierigkeiten, feine Nuancen, Sarkasmus oder symbolische Sprache zu verstehen.
- Sachliche Richtigkeit
- LLMs generieren Antworten auf der Grundlage von Informationen, die sie aus ihren Trainings-Datasets gewonnen haben, sind aber keine Wissensdatenbanken. Sie können falsche oder veraltete Faktenaussagen enthalten.
- Gemeinsamer Sinn
- LLMs stützen sich auf statistische Muster in der Sprache. Möglicherweise sind sie in bestimmten Situationen nicht in der Lage, gesunden Menschenverstand anzuwenden.
Ethische Überlegungen und Risiken
Die Entwicklung von Large Language Models (LLMs) wirft mehrere ethische Bedenken auf. Bei der Erstellung eines offenen Modells haben wir Folgendes sorgfältig bedacht:
- Voreingenommenheit und Fairness
- LLMs, die mit umfangreichen, realen Textdaten trainiert wurden, können soziokulturelle Verzerrungen widerspiegeln, die im Trainingsmaterial eingebettet sind. Diese Modelle wurden sorgfältig geprüft. Die in dieser Karte beschriebene Vorverarbeitung von Eingabedaten und die nachfolgenden Auswertungen wurden ebenfalls sorgfältig geprüft.
- Fehlinformationen und Missbrauch
- LLMs können missbraucht werden, um falschen, irreführenden oder schädlichen Text zu generieren.
- Richtlinien für die verantwortungsvolle Verwendung des Modells finden Sie im Responsible Generative AI Toolkit.
- Transparenz und Rechenschaftspflicht
- Auf dieser Modellkarte werden Details zur Architektur, zu den Funktionen, Beschränkungen und Bewertungsprozessen des Modells zusammengefasst.
- Ein verantwortungsbewusst entwickeltes offenes Modell bietet die Möglichkeit, Innovationen zu teilen, indem die LLM-Technologie für Entwickler und Forschende in der gesamten KI-Umgebung zugänglich gemacht wird.
Identifizierte Risiken und Minderung:
- Verzerrungen beibehalten:Es wird empfohlen, ein kontinuierliches Monitoring (mithilfe von Bewertungsmesswerten, manuelle Überprüfung) und die Untersuchung von Techniken zur Verzerrungen beim Modelltraining, bei der Feinabstimmung und bei anderen Anwendungsfällen durchzuführen.
- Erstellung schädlicher Inhalte:Mechanismen und Richtlinien für die Sicherheit von Inhalten sind unerlässlich. Entwickler sollten daher vorsichtig sein und angemessene Maßnahmen zur Sicherheit von Inhalten auf der Grundlage ihrer spezifischen Produktrichtlinien und Anwendungsfälle implementieren.
- Missbrauch für böswillige Zwecke:Technische Einschränkungen und die Schulung von Entwicklern und Endnutzern können dazu beitragen, die Vorbeugung gegen schädliche Anwendungen von LLMs zu verhindern. Es stehen Informationsressourcen und Meldemechanismen zur Verfügung, mit denen Nutzer Missbrauch melden können. Die unzulässige Verwendung von Gemma-Modellen ist in unseren Nutzungsbedingungen beschrieben.
- Datenschutzverstöße: Modelle wurden mit Daten trainiert, die nach der Entfernung von personenidentifizierbaren Informationen gefiltert wurden. Entwickler werden dazu angehalten, die Datenschutzbestimmungen mit datenschutzfreundlichen Verfahren einzuhalten.
Verwendungszweck
Anwendung
Open Large Language Models (LLMs) haben ein breites Spektrum an Anwendungen in verschiedenen Branchen und Domains. Die folgende Liste möglicher Anwendungsfälle ist nicht vollständig. Mit dieser Liste erhalten Sie Kontextinformationen zu den möglichen Anwendungsfällen, die die Modellersteller im Rahmen des Modelltrainings und der Modellentwicklung in Betracht gezogen haben.
- Inhaltserstellung und Kommunikation
- Textgenerierung:Diese Modelle können verwendet werden, um kreative Textformate wie Gedichte, Skripts, Code, Marketingtexte, E-Mail-Entwürfe usw. zu generieren.
- Chatbots und Conversational AI: Ermöglichen Sie dialogorientierte Schnittstellen für den Kundenservice, virtuelle Assistenten oder interaktive Anwendungen.
- Textzusammenfassung:Erstellen Sie prägnante Zusammenfassungen eines Textkorpus, Forschungsarbeiten oder Berichte.
- Forschung und Bildung
- NLP-Forschung (Natural Language Processing):Diese Modelle können als Grundlage für Forschende dienen, mit NLP-Techniken zu experimentieren, Algorithmen zu entwickeln und zum Fortschritt in der Branche beizutragen.
- Sprachlerntools:Sie unterstützen interaktive Sprachlernerfahrungen, helfen bei der Grammatikkorrektur oder bieten Schreibübungen.
- Wissensexploration:Unterstützen Sie Forscher bei der Untersuchung großer Textbereiche, indem sie Zusammenfassungen generieren oder Fragen zu bestimmten Themen beantworten.
Vorteile
Zum Zeitpunkt der Veröffentlichung bietet diese Modellfamilie im Vergleich zu Modellen ähnlicher Größe leistungsstarke Open-Large-Language-Modellimplementierungen, die von Grund auf für die Entwicklung verantwortungsbewusster KI entwickelt wurden.
Anhand der in diesem Dokument beschriebenen Benchmark-Bewertungsmesswerte haben sich herausgestellt, dass diese Modelle im Vergleich zu anderen, vergleichbaren offenen Modellalternativen eine bessere Leistung bieten.
Insbesondere erreichen RecurrentGemma-Modelle eine vergleichbare Leistung wie Gemma-Modelle, sind jedoch während der Inferenz schneller und benötigen weniger Arbeitsspeicher, insbesondere bei langen Sequenzen.