RecurrentGemma-Modellkarte

Modellseite:RecurrentGemma

Ressourcen und technische Dokumentation:

Nutzungsbedingungen: Begriffe

Autoren: Google

Modellinformationen

Modellübersicht

Beschreibung

RecurrentGemma ist eine Familie offener Sprachmodelle, die auf einer neuartigen rekurrenten Architektur basieren, die bei Google entwickelt wurde. Sowohl vorab trainierte als auch anhand von Anleitungen optimierte Versionen sind auf Englisch verfügbar.

Wie Gemma eignen sich RecurrentGemma-Modelle für eine Vielzahl von Textgenerierungsaufgaben, darunter Fragenbeantwortung, Zusammenfassung und Argumentation. Aufgrund seiner neuartigen Architektur benötigt RecurrentGemma weniger Arbeitsspeicher als Gemma und erreicht eine schnellere Inferenz beim Generieren langer Sequenzen.

Eingaben und Ausgaben

  • Eingabe: Textstring (z. B. eine Frage, ein Prompt oder ein Dokument, das zusammengefasst werden soll)
  • Ausgabe:Als Reaktion auf die Eingabe generierter englischsprachiger Text (z.B. eine Antwort auf die Frage oder eine Zusammenfassung des Dokuments).

Zitation

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

Modelldaten

Trainingsdatensatz und Datenverarbeitung

RecurrentGemma verwendet dieselben Trainingsdaten und die gleiche Datenverarbeitung wie die Gemma-Modellfamilie. Eine vollständige Beschreibung finden Sie auf der Gemma-Modellkarte.

Informationen zur Implementierung

Hardware und Frameworks, die während des Trainings verwendet werden

Wie Gemma wurde RecurrentGemma auf einer TPUv5e mit JAX und ML Pathways trainiert.

Informationen zur Bewertung

Benchmark-Ergebnisse

Bewertungsansatz

Diese Modelle wurden anhand einer großen Sammlung verschiedener Datasets und Messwerte bewertet, um verschiedene Aspekte der Textgenerierung abzudecken:

Bewertungsergebnisse

Benchmark Messwert RecurrentGemma 2B RecurrentGemma 9B
MMLU 5-shot, top-1 38,4 60.5
HellaSwag 0-Shot 71,0 80,4
PIQA 0-Shot 78,5 81,3
SocialIQA 0-Shot 51,8 52,3
BoolQ 0-Shot 71,3 80,3
WinoGrande Teilpunktzahl 67,8 73,6
CommonsenseQA 7-shot 63,7 73,2
OpenBookQA 47,2 51,8
ARC-e 72,9 78,8
ARC-c 42,3 52,0
TriviaQA 5-Shot 52,5 70,5
Natürliche Fragen 5-Shot 11.5 21.7
HumanEval pass@1 21,3 31.1
MBPP 3-shot 28,8 42,0
GSM8K maj@1 13,4 42,6
MATH 4-Shot 11.0 23,8
AGIEval 23,8 39,3
BIG-Bench 35,3 55,2
Durchschnitt 44,6 56,1

Ethik und Sicherheit

Ethik- und Sicherheitsbewertungen

Bewertungsansatz

Zu unseren Bewertungsmethoden gehören strukturierte Bewertungen und interne Red-Team-Tests der relevanten Inhaltsrichtlinien. Das Red-Teaming wurde von mehreren verschiedenen Teams durchgeführt, die jeweils unterschiedliche Ziele und Bewertungsmesswerte für Menschen hatten. Diese Modelle wurden anhand verschiedener Kategorien bewertet, die für Ethik und Sicherheit relevant sind, darunter:

  • Sicherheit von Text-zu-Text-Inhalten:Manuelle Bewertung von Prompts im Hinblick auf Sicherheitsrichtlinien, einschließlich sexuellem Missbrauch und Ausbeutung von Kindern, Belästigung, Gewalt und Grausamkeit sowie Hassrede.
  • Repräsentativ schädliche Text-zu-Text-Modelle: Vergleich mit relevanten akademischen Datasets wie WinoBias und BBQ Dataset.
  • Merken:Automatische Bewertung des Merkens von Trainingsdaten, einschließlich des Risikos der Offenlegung personenidentifizierbarer Informationen.
  • Große Schäden: Tests auf „gefährliche Funktionen“, z. B. chemische, biologische, radiologische und nukleare Risiken (CBRN), sowie Tests auf Überzeugung und Täuschung, Internetsicherheit und autonome Replikation.

Bewertungsergebnisse

Die Ergebnisse der Ethik- und Sicherheitsbewertungen liegen innerhalb der zulässigen Grenzwerte, um die internen Richtlinien für Kategorien wie den Schutz von Kindern, die Sicherheit von Inhalten, repräsentative Schäden, das Auswendiglernen und Schäden in großem Umfang einzuhalten. Neben robusten internen Bewertungen werden hier auch die Ergebnisse bekannter Sicherheits-Benchmarks wie BBQ, Winogender, WinoBias, RealToxicity und TruthfulQA angezeigt.

Benchmark Messwert RecurrentGemma 2B RecurrentGemma 2B IT RecurrentGemma 9B RecurrentGemma 9B IT
RealToxicity Durchschn. 9,8 7,60 10.3 8.8
FETT 39,3 52,3 39,8 47,9
CrowS-Paare top-1 41.1 43,4 38,7 39,5
BBQ Ambig top-1 62,6 71.1 95,9 67,1
BBQ Disambig top-1 58,4 50,8 78,6 78,9
Winogender top-1 55.1 54,7 59,0 64,0
TruthfulQA 35,1 42,7 38,6 47,7
WinoBias 1_2 58,4 56,4 61,5 60,6
WinoBias 2_2 90,0 75,4 90,2 90,3
Toxigen 56,7 50,0 58,8 64,5

Modellnutzung und -einschränkungen

Bekannte Einschränkungen

Diese Modelle haben bestimmte Einschränkungen, die Nutzer beachten sollten:

  • Trainingsdaten
    • Die Qualität und Vielfalt der Trainingsdaten wirken sich erheblich auf die Fähigkeiten des Modells aus. Verzerrungen oder Lücken in den Trainingsdaten können zu Einschränkungen bei den Antworten des Modells führen.
    • Der Umfang des Trainingsdatensatzes bestimmt die Themenbereiche, die das Modell effektiv verarbeiten kann.
  • Kontext und Aufgabenkomplexität
    • LLMs eignen sich besser für Aufgaben, die mit klaren Prompts und Anweisungen formuliert werden können. Offene oder sehr komplexe Aufgaben können eine Herausforderung darstellen.
    • Die Leistung eines Modells kann durch die Menge des bereitgestellten Kontexts beeinflusst werden. Längerer Kontext führt in der Regel bis zu einem bestimmten Punkt zu besseren Ergebnissen.
  • Mehrdeutigkeit und Nuancen der Sprache
    • Die natürliche Sprache ist von Natur aus komplex. LLMs haben möglicherweise Schwierigkeiten, subtile Nuancen, Sarkasmus oder bildhafte Sprache zu verstehen.
  • Sachliche Richtigkeit
    • LLMs generieren Antworten basierend auf Informationen, die sie aus ihren Trainingsdatensätzen gelernt haben, sind aber keine Wissensdatenbanken. Sie können falsche oder veraltete Sachinformationen generieren.
  • Der gesunde Menschenverstand
    • LLMs basieren auf statistischen Mustern in der Sprache. Möglicherweise fehlt es ihnen in bestimmten Situationen an gesundem Menschenverstand.

Ethische Aspekte und Risiken

Die Entwicklung von Large Language Models (LLMs) wirft mehrere ethische Fragen auf. Bei der Entwicklung eines offenen Modells haben wir Folgendes sorgfältig berücksichtigt:

  • Voreingenommenheit und Fairness
    • LLMs, die mit großen Mengen an realen Textdaten trainiert wurden, können soziokulturelle Voreingenommenheiten widerspiegeln, die im Trainingsmaterial enthalten sind. Diese Modelle wurden sorgfältig geprüft. Die Vorverarbeitung der Eingabedaten und die nachfolgenden Bewertungen sind auf dieser Karte beschrieben.
  • Fehlinformationen und Missbrauch
  • Transparenz und Rechenschaftspflicht
    • Auf dieser Modellkarte finden Sie Details zur Architektur, zu den Funktionen, zu den Einschränkungen und zu den Bewertungsverfahren der Modelle.
    • Ein verantwortungsvoll entwickeltes offenes Modell bietet die Möglichkeit, Innovationen zu teilen, indem die LLM-Technologie für Entwickler und Forscher im gesamten KI-System zugänglich gemacht wird.

Identifizierte Risiken und Risikominderungen:

  • Verfestigung von Voreingenommenheiten: Es wird empfohlen, während des Modelltrainings, der Feinabstimmung und anderer Anwendungsfälle kontinuierliche Überwachung (mithilfe von Bewertungsmesswerten und manueller Überprüfung) durchzuführen und Methoden zur Beseitigung von Voreingenommenheiten zu untersuchen.
  • Erstellung schädlicher Inhalte:Mechanismen und Richtlinien für die Sicherheit von Inhalten sind unerlässlich. Entwicklern wird empfohlen, mit Bedacht vorzugehen und geeignete Maßnahmen zur Sicherheit von Inhalten zu implementieren, die auf ihren spezifischen Produktrichtlinien und Anwendungsfällen basieren.
  • Missbrauch zu böswilligen Zwecken:Technische Einschränkungen und Aufklärung von Entwicklern und Endnutzern können dazu beitragen, die böswillige Verwendung von LLMs zu verhindern. Es werden Informationsressourcen und Meldemechanismen bereitgestellt, mit denen Nutzer Missbrauch melden können. Verbotene Verwendungen von Gemma-Modellen sind in unseren Nutzungsbedingungen aufgeführt.
  • Datenschutzverstöße:Die Modelle wurden mit Daten trainiert, die nach personenidentifizierbaren Informationen gefiltert wurden. Entwickler werden aufgefordert, Datenschutzvorschriften mit datenschutzfreundlichen Verfahren einzuhalten.

Verwendungszweck

Anwendung

Offene Large Language Models (LLMs) haben eine breite Palette von Anwendungen in verschiedenen Branchen und Bereichen. Die folgende Liste möglicher Verwendungen ist nicht vollständig. Diese Liste soll Kontextinformationen zu den möglichen Anwendungsfällen liefern, die die Ersteller des Modells im Rahmen der Modellschulung und -entwicklung berücksichtigt haben.

  • Inhaltserstellung und Kommunikation
    • Textgenerierung:Mit diesen Modellen können kreative Textformate wie Gedichte, Scripts, Code, Marketingtexte und E-Mail-Entwürfe generiert werden.
    • Chatbots und konversationelle KI:Ermöglichen Sie Konversationsschnittstellen für den Kundenservice, virtuelle Assistenten oder interaktive Anwendungen.
    • Textzusammenfassung: Sie können kurze Zusammenfassungen eines Textkorpus, von Forschungsarbeiten oder Berichten erstellen.
  • Forschung und Bildung
    • Forschung im Bereich Natural Language Processing (NLP): Diese Modelle können als Grundlage für Forscher dienen, um mit NLP-Techniken zu experimentieren, Algorithmen zu entwickeln und zur Weiterentwicklung des Bereichs beizutragen.
    • Tools zum Sprachlernen: Unterstützen interaktives Sprachlernen, helfen bei der Grammatikkorrektur oder bieten Schreibübungen.
    • Wissensexploration: Hilft Forschern, große Textmengen zu untersuchen, indem Zusammenfassungen erstellt oder Fragen zu bestimmten Themen beantwortet werden.

Vorteile

Zum Zeitpunkt der Veröffentlichung bietet diese Modellfamilie im Vergleich zu Modellen ähnlicher Größe hochleistungsfähige, offene Large Language Model-Implementierungen, die von Grund auf für die verantwortungsbewusste Entwicklung von KI entwickelt wurden.

Anhand der in diesem Dokument beschriebenen Benchmark-Bewertungsmesswerte haben diese Modelle eine bessere Leistung als andere Open-Source-Modelle mit vergleichbarer Größe gezeigt.

Insbesondere erzielen RecurrentGemma-Modelle eine vergleichbare Leistung wie Gemma-Modelle, sind aber bei der Inferenz schneller und benötigen weniger Arbeitsspeicher, insbesondere bei langen Sequenzen.