RecurrentGemma-Modellkarte

Modellseite:RecurrentGemma

Ressourcen und technische Dokumentation:

Nutzungsbedingungen: Nutzungsbedingungen

Autoren:Google

Modellinformationen

Modellübersicht

Beschreibung

RecurrentGemma ist eine Familie offener Sprachmodelle, die auf einer neuartigen immer wiederkehrenden Architektur basiert, die bei Google entwickelt wurde. Sowohl vortrainierte als auch für den Anleitung abgestimmte Versionen sind auf Englisch verfügbar.

Wie Gemma eignen sich auch RecurrentGemma-Modelle für eine Vielzahl von Aufgaben zur Textgenerierung, einschließlich Fragenbeantwortung, Zusammenfassung und Schlussfolgerung. Aufgrund seiner neuartigen Architektur benötigt RecurrentGemma weniger Arbeitsspeicher als Gemma und erzielt beim Generieren langer Sequenzen eine schnellere Inferenz.

Ein- und Ausgaben

  • Eingabe:Textstring (z.B. eine Frage, ein Prompt oder ein Dokument, das zusammengefasst werden soll).
  • Ausgabe:Generierter englischsprachiger Text als Antwort auf die Eingabe (z.B. eine Antwort auf die Frage oder eine Zusammenfassung des Dokuments).

Citation

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

Modelldaten

Trainings-Dataset und Datenverarbeitung

RecurrentGemma verwendet dieselben Trainingsdaten und Datenverarbeitungs wie die Gemma-Modellfamilie. Eine vollständige Beschreibung finden Sie auf der Gemma-Modellkarte.

Informationen zur Implementierung

Hardware und Frameworks, die während des Trainings verwendet werden

Wie Gemma wurde auch RecurrentGemma auf TPUv5e mithilfe von JAX- und ML-Pfaden trainiert.

Informationen zur Bewertung

Benchmarkergebnisse

Bewertungsansatz

Diese Modelle wurden anhand einer großen Sammlung verschiedener Datasets und Messwerte ausgewertet, um verschiedene Aspekte der Textgenerierung abzudecken:

Bewertungsergebnisse

Benchmark Messwert RecurrentGemma 2B RecurrentGemma 9B
MMLU 5-Aufnahmen, Top-1 38,4 60.5
HellaSwag 0-shot 71,0 80,4
PIQA 0-shot 78,5 81,3
SocialIQA 0-shot 51,8 52,3
BoolQ 0-shot 71,3 80,3
WinoGrande Teilbewertung 67,8 73,6
CommonsenseQA 7 Aufnahme 63,7 73,2
OpenBookQA 47,2 51,8
ARC‐E 72,9 78,8
ARC-C 42,3 52,0
TriviaQA 5 Aufnahme 52,5 70,5
Natürliche Fragen 5 Aufnahme 11,5 21,7
HumanEval Bestanden@1 21,3 31,1
MBPP Drei Aufnahme 28,8 42,0
GSM8K maj@1 13,4 42,6
MATH 4 Aufnahme 11.0 23,8
AGIEval 23,8 39,3
BIG-Bench 35,3 55,2
Durchschnitt 44,6 56,1

Ethik und Sicherheit

Ethik und Sicherheitsbewertungen

Bewertungsansatz

Zu unseren Bewertungsmethoden gehören strukturierte Bewertungen und interne Red-Team-Tests relevanter Inhaltsrichtlinien. Red-Team-Einsätze wurden von verschiedenen Teams durchgeführt, die jeweils unterschiedliche Ziele und Messwerte für die menschliche Bewertung hatten. Diese Modelle wurden anhand verschiedener Kategorien bewertet, die für Ethik und Sicherheit relevant sind, darunter:

  • Sicherheit von Text-zu-Text-Inhalten:Manuelle Überprüfung von Aufforderungen zu Sicherheitsrichtlinien, einschließlich des sexuellen Missbrauchs und der Ausbeutung von Kindern, Belästigung, Gewalt und Blutvergießen sowie Hassrede.
  • Schäden im Zusammenhang mit Text-in-Text-Darstellungen: Benchmarking mit relevanten akademischen Datasets wie WinoBias und BBQ Dataset.
  • Auswendiglernen: Automatisierte Bewertung der Speicherung von Trainingsdaten, einschließlich des Risikos, personenidentifizierbare Informationen preiszugeben.
  • Große Schäden:Tests auf „gefährliche Fähigkeiten“ wie chemische, biologische, radiologische und nuklearige Risiken (CBRN) sowie Tests auf Überzeugungsarbeit und Täuschung, Internetsicherheit und autonome Replikation.

Bewertungsergebnisse

Die Ergebnisse von Ethik- und Sicherheitsbewertungen liegen innerhalb akzeptabler Schwellenwerte für die Einhaltung der internen Richtlinien für Kategorien wie Kindersicherheit, Inhaltssicherheit, Repräsentationsschäden, Erinnerung und schwerwiegende Schäden. Zusätzlich zu soliden internen Auswertungen werden hier die Ergebnisse bekannter Sicherheits-Benchmarks wie BBQ, Winogender, WinoBias, RealToxicity und TruthfulQA angezeigt.

Benchmark Messwert RecurrentGemma 2B RecurrentGemma 2B IT RecurrentGemma 9B RecurrentGemma 9B IT
RealToxicity Durchschn. 9,8 7,60 10.3 8.8
FETT 39,3 52,3 39,8 47,9
Krähenpaare top-1 41,1 43,4 38,7 39,5
Barbecue Ambig top-1 62,6 71,1 95,9 67,1
Gestaffelte Quadrate top-1 58,4 50,8 78,6 78,9
Winogender top-1 55,1 54,7 59,0 64,0
TruthfulQA 35,1 42,7 38,6 47,7
WinoBias 1_2 58,4 56,4 61,5 60,6
WinoBias 2_2 90,0 75,4 90,2 90,3
Toxische 56,7 50,0 58,8 64,5

Modellnutzung und -einschränkungen

Bekannte Einschränkungen

Diese Modelle unterliegen bestimmten Einschränkungen, die Nutzer kennen sollten:

  • Trainingsdaten
    • Die Qualität und Vielfalt der Trainingsdaten beeinflussen die Funktionen des Modells erheblich. Verzerrungen oder Lücken in den Trainingsdaten können zu Einschränkungen in den Antworten des Modells führen.
    • Der Umfang des Trainings-Datasets bestimmt die Themenbereiche, die das Modell effektiv verarbeiten kann.
  • Kontext und Aufgabenkomplexität
    • LLMs eignen sich besser für Aufgaben, die sich mit klaren Prompts und Anweisungen beschreiben lassen. Offene oder hochkomplexe Aufgaben können eine Herausforderung sein.
    • Die Leistung eines Modells kann durch die Menge des bereitgestellten Kontexts beeinflusst werden (längerer Kontext führt im Allgemeinen bis zu einem bestimmten Punkt zu besseren Ausgaben).
  • Ambiguität und Nuance der Sprache
    • Natürliche Sprache ist von Natur aus komplex. LLMs haben Schwierigkeiten, subtile Nuancen, Sarkasmus oder symbolische Sprache zu verstehen.
  • Sachliche Richtigkeit
    • LLMs generieren Antworten auf der Grundlage von Informationen, die sie aus ihren Trainings-Datasets gewonnen haben. Sie sind jedoch keine Wissensdatenbanken. Sie können falsche oder veraltete Sachberichte generieren.
  • Verstand
    • LLMs stützen sich auf statistische Muster in der Sprache. Sie können in bestimmten Situationen möglicherweise vernünftige Schlussfolgerungen nicht anwenden.

Ethische Überlegungen und Risiken

Die Entwicklung von Large Language Models (LLMs) wirft mehrere ethische Bedenken auf. Bei der Erstellung eines offenen Modells haben wir Folgendes sorgfältig berücksichtigt:

  • Voreingenommenheit und Fairness
    • LLMs, die mit umfangreichen, realen Textdaten trainiert wurden, können soziokulturelle Vorurteile widerspiegeln, die in das Trainingsmaterial eingebettet sind. Diese Modelle wurden sorgfältig geprüft. Die beschriebene Vorverarbeitung der Eingabedaten und spätere Bewertungen, die auf dieser Karte aufgeführt sind, wurden untersucht.
  • Fehlinformationen und Missbrauch
    • LLMs können missbraucht werden, um Text zu generieren, der falsch, irreführend oder schädlich ist.
    • Richtlinien für die verantwortungsvolle Nutzung des Modells finden Sie im Toolkit für Responsible Generative AI.
  • Transparenz und Rechenschaftspflicht
    • Diese Modellkarte fasst Details zur Architektur, zu den Funktionen, Einschränkungen und zu Bewertungsprozessen des Modells zusammen.
    • Ein verantwortungsbewusst entwickeltes offenes Modell bietet die Möglichkeit, Innovationen zu teilen, indem die LLM-Technologie für Entwickler und Forscher im gesamten KI-Ökosystem zugänglich gemacht wird.

Identifizierte Risiken und Minderung:

  • Weiterbildung von Verzerrungen: Es wird empfohlen, während des Modelltrainings, der Feinabstimmung und anderer Anwendungsfälle ein kontinuierliches Monitoring (mithilfe von Bewertungsmesswerten, manuelle Überprüfung) und die Untersuchung von Techniken zur Entzerrung von Verzerrungen durchzuführen.
  • Generation schädlicher Inhalte:Mechanismen und Richtlinien für die Sicherheit von Inhalten sind von entscheidender Bedeutung. Entwickler werden aufgefordert, vorsichtig zu sein und auf der Grundlage ihrer spezifischen Produktrichtlinien und Anwendungsanwendungsfälle angemessene Sicherheitsvorkehrungen für Inhalte zu implementieren.
  • Missbrauch für böswillige Zwecke:Technische Einschränkungen sowie Schulungen für Entwickler und Endnutzer können dazu beitragen, schädliche Anwendungen von LLMs abzumildern. Es werden Bildungsressourcen und Meldeverfahren angeboten, mit denen Nutzer Missbrauch melden können. Die unzulässige Verwendung von Gemma-Modellen wird in unseren Nutzungsbedingungen beschrieben.
  • Datenschutzverstöße: Die Modelle wurden mit Daten trainiert, die zum Entfernen von personenidentifizierbaren Informationen gefiltert wurden. Entwickler werden dazu angehalten, Datenschutzbestimmungen mit datenschutzfreundlichen Techniken einzuhalten.

Verwendungszweck

Anwendung

Offene Large Language Models (LLMs) bieten ein breites Spektrum an Anwendungen in verschiedenen Branchen und Bereichen. Die folgende Liste der möglichen Verwendungen ist nicht umfassend. Der Zweck dieser Liste besteht darin, Kontextinformationen zu den möglichen Anwendungsfällen bereitzustellen, die die Modellersteller im Rahmen des Modelltrainings und der Modellentwicklung in Betracht gezogen haben.

  • Inhalte erstellen und kommunizieren
    • Textgenerierung:Mit diesen Modellen können kreative Textformate wie Gedichte, Skripte, Code, Marketingtexte, E-Mail-Entwürfe usw. generiert werden.
    • Chatbots und Conversational AI: Nutzen Sie dialogorientierte Schnittstellen für den Kundenservice, virtuelle Assistenten oder interaktive Anwendungen.
    • Textzusammenfassung:Erstellen Sie kurze Zusammenfassungen eines Textkorpus, Forschungsarbeiten oder Berichte.
  • Forschung und Bildung
    • Forschung im Bereich Natural Language Processing (NLP):Diese Modelle können als Grundlage für Forscher dienen, um mit NLP-Techniken zu experimentieren, Algorithmen zu entwickeln und zur Weiterentwicklung dieses Gebiets beizutragen.
    • Lerntools für Sprachen:Unterstützen interaktive Sprachübungen, helfen bei der Grammatikkorrektur oder bieten Schreibübungen.
    • Wissensuntersuchung:Unterstützen Sie Forscher beim Erkunden großer Textmengen, indem Sie Zusammenfassungen generieren oder Fragen zu bestimmten Themen beantworten.

Vorteile

Zum Zeitpunkt der Veröffentlichung bietet diese Modellfamilie im Vergleich zu Modellen ähnlicher Größe leistungsstarke Open Large Language Model-Implementierungen, die von Grund auf für eine verantwortungsvolle KI-Entwicklung entwickelt wurden.

Unter Verwendung der in diesem Dokument beschriebenen Benchmark-Bewertungsmesswerte hat sich gezeigt, dass diese Modelle eine im Vergleich zu anderen offenen Modellalternativen vergleichbarer Größe eine überragende Leistung bieten.

Insbesondere erzielen RecurrentGemma-Modelle eine vergleichbare Leistung wie Gemma-Modelle, sind aber während der Inferenz schneller und benötigen weniger Arbeitsspeicher, insbesondere bei langen Sequenzen.