RecurrentGemma-Modellkarte

Modellseite:RecurrentGemma

Ressourcen und technische Dokumentation:

Nutzungsbedingungen: Nutzungsbedingungen

Autoren: Google

Modellinformationen

Modellübersicht

Beschreibung

RecurrentGemma ist eine Familie offener Language-Modelle, die auf einer neuartigen Recurrent-Architektur basieren, die von Google entwickelt wurde. Sowohl vortrainierte als auch auf Anleitungen abgestimmte Versionen sind auf Englisch verfügbar.

Wie Gemma eignen sich auch RecurrentGemma-Modelle gut für eine Vielzahl von Textgenerierungsaufgaben, einschließlich Fragenbeantwortung, Zusammenfassung und Logik. Aufgrund seiner neuen Architektur benötigt RecurrentGemma weniger Arbeitsspeicher als Gemma und erzielt beim Generieren langer Sequenzen eine schnellere Inferenz.

Ein- und Ausgaben

  • Eingabe:Textstring (z.B. eine Frage, ein Prompt oder ein Dokument, das zusammengefasst werden soll).
  • Ausgabe:Als Antwort auf die Eingabe wird englischsprachiger Text generiert, z.B. eine Antwort auf die Frage oder eine Zusammenfassung des Dokuments.

Zitation

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

Modelldaten

Trainings-Dataset und Datenverarbeitung

RecurrentGemma verwendet dieselbe Trainingsdaten und Datenverarbeitung wie die Gemma-Modellfamilie. Eine vollständige Beschreibung finden Sie auf der Gemma-Modellkarte.

Informationen zur Implementierung

Während des Trainings verwendete Hardware und Frameworks

Wie Gemma wurde auch RecurrentGemma mithilfe von JAX- und ML-Pfaden auf TPUv5e trainiert.

Informationen zur Bewertung

Benchmarkergebnisse

Bewertungsansatz

Diese Modelle wurden anhand einer großen Sammlung verschiedener Datasets und Messwerte bewertet, um verschiedene Aspekte der Textgenerierung abzudecken:

Bewertungsergebnisse

Benchmark Messwert RecurrentGemma 2B
MMLU 5-shot, Top-1 38,4
HellaSwag 0-shot 71,0
PIQA 0-shot 78,5
SocialIQA 0-shot 51,8
BoolQ 0-Shot 71,3
WinoGrande Teilbewertung 67,8
CommonsenseQA 7-shot 63,7
OpenBookQA 47,2
ARC-e 72,9
ARC-C 42,3
TriviaQA 5-Shot 52,5
Natürliche Fragen 5-Shot 11,5
HumanEval Pass@1 21,3
MBPP 3-Aufnahme 28,8
GSM8K Maj@1 13,4
MATH 4-Shot 11.0
AGIEval 23,8
BIG-Bench 35,3
Durchschnitt 44,6

Ethik und Sicherheit

Bewertungen zu Ethik und Sicherheit

Bewertungsansatz

Unsere Bewertungsmethoden umfassen strukturierte Auswertungen und interne Red-Team-Tests relevanter Inhaltsrichtlinien. Red-Team-Einsätze wurden von verschiedenen Teams durchgeführt, die jeweils unterschiedliche Ziele und menschliche Bewertungsmesswerte verfolgten. Diese Modelle wurden anhand verschiedener Kategorien bewertet, die für Ethik und Sicherheit relevant sind, darunter:

  • Sicherheit von Text-zu-Text-Inhalten:Manuelle Überprüfung von Prompts zu Sicherheitsrichtlinien, einschließlich sexueller Missbrauch und Ausbeutung von Kindern, Belästigung, Gewalt, Blut und Hassrede.
  • Schäden bei der Text-zu-Text-Darstellung:Benchmarking anhand relevanter akademischer Datasets wie WinoBias und BBQ-Dataset.
  • Memorisierung: Automatisierte Bewertung des Merkens von Trainingsdaten, einschließlich des Risikos der Offenlegung personenidentifizierbarer Informationen.
  • Großer Schaden:Tests auf „gefährliche Eigenschaften“ wie chemische, biologische, radiologische und nukleare Risiken (CBRN) sowie Tests auf Überzeugungs- und Täuschung, Internetsicherheit und autonome Replikation.

Bewertungsergebnisse

Die Ergebnisse von Bewertungen zu Ethik und Sicherheit liegen innerhalb eines akzeptablen Schwellenwerts für die Einhaltung der internen Richtlinien für Kategorien wie Kinderschutz, Sicherheit von Inhalten, Darstellungsschäden, Erinnerungsvermögen und schwerwiegende Schäden. Zusätzlich zu zuverlässigen internen Bewertungen werden hier die Ergebnisse bekannter Sicherheits-Benchmarks wie BBQ, Winogender, Winobias, RealToxicity und TruthfulQA dargestellt.

Benchmark Messwert RecurrentGemma 2B RecurrentGemma 2B IT
RealToxicity Durchschn. 9,8 7.6
FETT 39,3 52,4
Krähen-Paare top-1 41,1 43,4
BBQ Ambig top-1 62,6 71,1
Grillparty top-1 58,4 50,8
Winogender top-1 55,1 54,7
TruthfulQA 35,1 42,7
Winobias 1_2 58,4 56,4
Winobias 2_2 90,0 75,4
Toxigen 56,7 50,0

Modellnutzung und -einschränkungen

Bekannte Einschränkungen

Bei diesen Modellen gelten bestimmte Einschränkungen, die Nutzer beachten sollten:

  • Trainingsdaten
    • Die Qualität und Vielfalt der Trainingsdaten beeinflusst die Fähigkeiten des Modells erheblich. Verzerrungen oder Lücken in den Trainingsdaten können zu Einschränkungen in den Antworten des Modells führen.
    • Der Umfang des Trainings-Datasets bestimmt, welche Themenbereiche das Modell effektiv bewältigen kann.
  • Kontext und Komplexität der Aufgaben
    • LLMs eignen sich besser für Aufgaben, die mit klaren Aufforderungen und Anweisungen umrahmt werden können. Offene oder hochkomplexe Aufgaben können eine Herausforderung darstellen.
    • Die Leistung eines Modells kann durch den Umfang des bereitgestellten Kontexts beeinflusst werden (längerer Kontext führt in der Regel bis zu einem bestimmten Punkt zu besseren Ausgaben).
  • Mehrdeutigkeiten und Nuancen der Sprache
    • Natürliche Sprache ist von Natur aus komplex. LLMs haben möglicherweise Schwierigkeiten, feine Nuancen, Sarkasmus oder symbolische Sprache zu verstehen.
  • Sachliche Richtigkeit
    • LLMs generieren Antworten auf der Grundlage von Informationen, die sie aus ihren Trainings-Datasets gewonnen haben, sind aber keine Wissensdatenbanken. Sie können falsche oder veraltete Faktenaussagen enthalten.
  • Gemeinsamer Sinn
    • LLMs stützen sich auf statistische Muster in der Sprache. Möglicherweise sind sie in bestimmten Situationen nicht in der Lage, gesunden Menschenverstand anzuwenden.

Ethische Überlegungen und Risiken

Die Entwicklung von Large Language Models (LLMs) wirft mehrere ethische Bedenken auf. Bei der Erstellung eines offenen Modells haben wir Folgendes sorgfältig bedacht:

  • Voreingenommenheit und Fairness
    • LLMs, die mit umfangreichen, realen Textdaten trainiert wurden, können soziokulturelle Verzerrungen widerspiegeln, die im Trainingsmaterial eingebettet sind. Diese Modelle wurden sorgfältig geprüft. Die in dieser Karte beschriebene Vorverarbeitung von Eingabedaten und die nachfolgenden Auswertungen wurden ebenfalls sorgfältig geprüft.
  • Fehlinformationen und Missbrauch
    • LLMs können missbraucht werden, um falschen, irreführenden oder schädlichen Text zu generieren.
    • Richtlinien für die verantwortungsvolle Verwendung des Modells finden Sie im Responsible Generative AI Toolkit.
  • Transparenz und Rechenschaftspflicht
    • Auf dieser Modellkarte werden Details zur Architektur, zu den Funktionen, Beschränkungen und Bewertungsprozessen des Modells zusammengefasst.
    • Ein verantwortungsbewusst entwickeltes offenes Modell bietet die Möglichkeit, Innovationen zu teilen, indem die LLM-Technologie für Entwickler und Forschende in der gesamten KI-Umgebung zugänglich gemacht wird.

Identifizierte Risiken und Minderung:

  • Verzerrungen beibehalten:Es wird empfohlen, ein kontinuierliches Monitoring (mithilfe von Bewertungsmesswerten, manuelle Überprüfung) und die Untersuchung von Techniken zur Verzerrungen beim Modelltraining, bei der Feinabstimmung und bei anderen Anwendungsfällen durchzuführen.
  • Erstellung schädlicher Inhalte:Mechanismen und Richtlinien für die Sicherheit von Inhalten sind unerlässlich. Entwickler sollten daher vorsichtig sein und angemessene Maßnahmen zur Sicherheit von Inhalten auf der Grundlage ihrer spezifischen Produktrichtlinien und Anwendungsfälle implementieren.
  • Missbrauch für böswillige Zwecke:Technische Einschränkungen und die Schulung von Entwicklern und Endnutzern können dazu beitragen, die Vorbeugung gegen schädliche Anwendungen von LLMs zu verhindern. Es stehen Informationsressourcen und Meldemechanismen zur Verfügung, mit denen Nutzer Missbrauch melden können. Die unzulässige Verwendung von Gemma-Modellen ist in unseren Nutzungsbedingungen beschrieben.
  • Datenschutzverstöße: Modelle wurden mit Daten trainiert, die nach der Entfernung von personenidentifizierbaren Informationen gefiltert wurden. Entwickler werden dazu angehalten, die Datenschutzbestimmungen mit datenschutzfreundlichen Verfahren einzuhalten.

Verwendungszweck

Anwendung

Open Large Language Models (LLMs) haben ein breites Spektrum an Anwendungen in verschiedenen Branchen und Domains. Die folgende Liste möglicher Anwendungsfälle ist nicht vollständig. Mit dieser Liste erhalten Sie Kontextinformationen zu den möglichen Anwendungsfällen, die die Modellersteller im Rahmen des Modelltrainings und der Modellentwicklung in Betracht gezogen haben.

  • Inhaltserstellung und Kommunikation
    • Textgenerierung:Diese Modelle können verwendet werden, um kreative Textformate wie Gedichte, Skripts, Code, Marketingtexte, E-Mail-Entwürfe usw. zu generieren.
    • Chatbots und Conversational AI: Ermöglichen Sie dialogorientierte Schnittstellen für den Kundenservice, virtuelle Assistenten oder interaktive Anwendungen.
    • Textzusammenfassung:Erstellen Sie prägnante Zusammenfassungen eines Textkorpus, Forschungsarbeiten oder Berichte.
  • Forschung und Bildung
    • NLP-Forschung (Natural Language Processing):Diese Modelle können als Grundlage für Forschende dienen, mit NLP-Techniken zu experimentieren, Algorithmen zu entwickeln und zum Fortschritt in der Branche beizutragen.
    • Sprachlerntools:Sie unterstützen interaktive Sprachlernerfahrungen, helfen bei der Grammatikkorrektur oder bieten Schreibübungen.
    • Wissensexploration:Unterstützen Sie Forscher bei der Untersuchung großer Textbereiche, indem sie Zusammenfassungen generieren oder Fragen zu bestimmten Themen beantworten.

Vorteile

Zum Zeitpunkt der Veröffentlichung bietet diese Modellfamilie im Vergleich zu Modellen ähnlicher Größe leistungsstarke Open-Large-Language-Modellimplementierungen, die von Grund auf für die Entwicklung verantwortungsbewusster KI entwickelt wurden.

Anhand der in diesem Dokument beschriebenen Benchmark-Bewertungsmesswerte haben sich herausgestellt, dass diese Modelle im Vergleich zu anderen, vergleichbaren offenen Modellalternativen eine bessere Leistung bieten.

Insbesondere erreichen RecurrentGemma-Modelle eine vergleichbare Leistung wie Gemma-Modelle, sind jedoch während der Inferenz schneller und benötigen weniger Arbeitsspeicher, insbesondere bei langen Sequenzen.