RecurrentGemma-Modellkarte

Modellseite:RecurrentGemma

Ressourcen und technische Dokumentation:

Nutzungsbedingungen: Nutzungsbedingungen

Autoren:Google

Modellinformationen

Modellübersicht

Beschreibung

RecurrentGemma ist eine Familie offener Sprachmodelle, die auf einem wiederkehrenden Roman Architektur entwickelt. Beide vortrainierte und mit Anweisungen abgestimmte Versionen sind auf Englisch verfügbar.

Wie Gemma eignen sich RecurrentGemma-Modelle gut für eine Vielzahl von Texten Generierungsaufgaben, einschließlich Fragenbeantwortung, Zusammenfassung und Schlussfolgerung. Aufgrund seiner neuartigen Architektur benötigt RecurrentGemma weniger Arbeitsspeicher Gemma und erzielt beim Generieren langer Sequenzen eine schnellere Inferenz.

Ein- und Ausgaben

  • Eingabe:Textstring (z.B. eine Frage, ein Prompt oder ein Dokument Zusammenfassung).
  • Ausgabe:Generierter englischsprachiger Text als Antwort auf die Eingabe (z.B. eine Antwort auf die Frage, eine Zusammenfassung des Dokuments).

Zitation

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

Modelldaten

Trainings-Dataset und Datenverarbeitung

RecurrentGemma verwendet dieselben Trainingsdaten und Datenverarbeitungs wie Gemma-Modellfamilie. Eine vollständige Beschreibung finden Sie auf dem Gemma-Modell. Karte

Informationen zur Implementierung

Hardware und Frameworks, die während des Trainings verwendet werden

Gefällt mir Gemma, RecurrentGemma wurde auf TPUv5e, mit JAX und ML Wege.

Informationen zur Bewertung

Benchmarkergebnisse

Bewertungsansatz

Diese Modelle wurden anhand einer großen Sammlung verschiedener Datasets Messwerte für verschiedene Aspekte der Textgenerierung:

Bewertungsergebnisse

Benchmark Messwert RecurrentGemma 2B RecurrentGemma 9B
MMLU 5-Aufnahmen, Top-1 38,4 60.5
HellaSwag 0-shot 71,0 80,4
PIQA 0-shot 78,5 81,3
SocialIQA 0-shot 51,8 52,3
BoolQ 0-shot 71,3 80,3
WinoGrande Teilbewertung 67,8 73,6
CommonsenseQA 7 Aufnahme 63,7 73,2
OpenBookQA 47,2 51,8
ARC-e 72,9 78,8
ARC-c 42,3 52,0
TriviaQA 5 Aufnahme 52,5 70,5
Natürliche Fragen 5 Aufnahme 11.5 21,7
HumanEval Bestanden@1 21,3 31,1
MBPP Drei Aufnahme 28,8 42,0
GSM8K maj@1 13,4 42,6
MATH 4 Aufnahme 11.0 23,8
AGIEval 23,8 39,3
BIG-Bench 35,3 55,2
Durchschnitt 44,6 56,1

Ethik und Sicherheit

Ethik und Sicherheitsbewertungen

Bewertungsansatz

Zu unseren Bewertungsmethoden gehören strukturierte Bewertungen und internes Red Teaming Tests relevanter Inhaltsrichtlinien. Das Red-Team-Einsatz wurde von einer Reihe von Teams mit unterschiedlichen Zielen und Metriken für die menschliche Bewertung. Diese wurden die Modelle anhand verschiedener Kategorien bewertet, Ethik und Sicherheit, einschließlich:

  • Sicherheit von Text-zu-Text-Inhalten:Manuelle Überprüfung von Aufforderungen zur Sicherheit Richtlinien wie sexueller Missbrauch und Ausbeutung von Kindern, Belästigung und Gewalt und Blut und Hassrede.
  • Schäden aus Text-zu-Text:Benchmark mit Bezug zu relevanten akademischen Inhalten Datasets wie WinoBias und BBQ Dataset.
  • Auswendiglernen: Automatisierte Bewertung der Speicherung von Trainingsdaten. einschließlich des Risikos, personenbezogene Daten preiszugeben.
  • Umfangreiche Schäden:Tests auf „gefährliche Funktionen“ wie chemische, biologischen, radiologischen und nuklearen Risiken (CBRN) sowie Tests für Überzeugungsarbeit und Täuschung, Internetsicherheit und autonome Replikation.

Bewertungsergebnisse

Die Ergebnisse der Ethik- und Sicherheitsbewertungen liegen innerhalb akzeptabler Grenzwerte für Besprechung intern Richtlinien für Kategorien wie den Schutz von Kindern, die inhaltliche Sicherheit, auswendig lernen oder groß angelegte Schäden. Neben soliden internen Bewertungen bekannten Sicherheits-Benchmarks wie BBQ, Winogender, WinoBias, RealToxicity und TruthfulQA werden hier angezeigt.

Benchmark Messwert RecurrentGemma 2B RecurrentGemma 2B IT RecurrentGemma 9B RecurrentGemma 9B IT
RealToxicity Durchschn. 9,8 7,60 10.3 8.8
BOLD 39,3 52,3 39,8 47,9
Krähenpaare top-1 41,1 43,4 38,7 39,5
Barbecue Ambig top-1 62,6 71,1 95,9 67,1
Unterscheidung zum Grillen top-1 58,4 50,8 78,6 78,9
Winogender top-1 55,1 54,7 59,0 64,0
TruthfulQA 35,1 42,7 38,6 47,7
WinoBias 1_2 58,4 56,4 61,5 60,6
WinoBias 2_2 90,0 75,4 90,2 90,3
Toxigen 56,7 50,0 58,8 64,5

Modellnutzung und -einschränkungen

Bekannte Einschränkungen

Diese Modelle unterliegen bestimmten Einschränkungen, die Nutzer kennen sollten:

  • Trainingsdaten
    • Die Qualität und Vielfalt der Trainingsdaten beeinflussen der Funktionen des Modells. Verzerrungen oder Lücken in den Trainingsdaten können bis hin zu Einschränkungen in den Modellantworten.
    • Der Umfang des Trainings-Datasets bestimmt die Themenbereiche, die das Modell verwendet. effektiv handhaben kann.
  • Kontext und Aufgabenkomplexität
    • LLMs sind besser bei Aufgaben, die sich klar und deutlich beschreiben lassen. Anleitung. Offene oder hochkomplexe Aufgaben können eine Herausforderung sein.
    • Die Leistung eines Modells kann durch die Menge an Kontext beeinflusst werden. angegeben (längerer Kontext führt in der Regel zu besseren Ergebnissen, bis zu an einem bestimmten Punkt liegen).
  • Ambiguität und Nuancen der Sprache
    • Natürliche Sprache ist von Natur aus komplex. LLMs könnten Schwierigkeiten haben, feine Nuancen, Sarkasmus oder Bildsprache.
  • Sachliche Richtigkeit
    • LLMs generieren Antworten auf der Grundlage von Informationen, die sie aus ihren Trainings-Datasets, die aber keine Wissensdatenbanken sind. Sie generieren falsche oder veraltete Sachbeschreibungen.
  • Verstand
    • LLMs stützen sich auf statistische Muster in der Sprache. Vielleicht fehlt es ihnen Fähigkeit, in bestimmten Situationen gesunde Schlussfolgerungen zu ziehen.

Ethische Überlegungen und Risiken

Die Entwicklung von Large Language Models (LLMs) wirft mehrere ethische Bedenken auf. Bei der Erstellung eines offenen Modells haben wir Folgendes sorgfältig berücksichtigt:

  • Voreingenommenheit und Fairness
    • LLMs, die mit umfangreichen, realen Textdaten trainiert wurden, können soziokulturelle Vorurteile, die in das Schulungsmaterial eingebettet sind. Diese Modelle sorgfältig geprüft, die Vorverarbeitung der Eingabedaten, nachteilige Bewertungen, die auf dieser Karte aufgeführt sind.
  • Fehlinformationen und Missbrauch
    • LLMs können missbraucht werden, um Text zu generieren, der falsch, irreführend oder schädlich ist.
    • Es werden Richtlinien für eine verantwortungsvolle Nutzung des Modells bereitgestellt, siehe Verantwortungsbewusste generative KI Toolkit.
  • Transparenz und Rechenschaftspflicht
    • Auf dieser Modellkarte sind Details zu den Architektur, Fähigkeiten, Grenzen und Bewertungsprozesse an.
    • Ein verantwortungsbewusst entwickeltes offenes Modell bietet die Möglichkeit, indem wir LLM-Technologie für Entwickelnde und im gesamten KI-Ökosystem.

Identifizierte Risiken und Minderung:

  • Weiterbildung von Voreingenommenheiten:Es wird empfohlen, eine kontinuierliche Überwachung durchzuführen. (anhand von Bewertungsmesswerten, manueller Überprüfung) und dem Erkunden von während des Modelltrainings, der Feinabstimmung und anderer Anwendungsfälle.
  • Generierung schädlicher Inhalte:Mechanismen und Richtlinien für Inhalte Sicherheit von entscheidender Bedeutung. Entwickler sollten Vorsicht walten lassen und angemessene Sicherheitsvorkehrungen für Inhalte auf der Basis ihrer spezifischen Produktrichtlinien und Anwendungsanwendungsfällen.
  • Missbrauch für böswillige Zwecke: Technische Einschränkungen und Entwickler- und Endnutzer-Aufklärung können dazu beitragen, schädliche LLM-Anwendungen abzumildern. Bildungsressourcen und Meldemechanismen, mit denen Nutzer Missbrauch melden können, sind bereitgestellt. Die unzulässige Verwendung von Gemma-Modellen wird in unseren Nutzungsbedingungen verwenden.
  • Datenschutzverstöße: Die Modelle wurden mit Daten trainiert, die zum Entfernen folgender Elemente gefiltert wurden: personenidentifizierbare Informationen. Entwickler werden ermutigt, Datenschutzbestimmungen mit datenschutzfreundlichen Methoden einhalten

Verwendungszweck

Anwendung

Offene Large Language Models (LLMs) bieten ein breites Spektrum an Anwendungen in Branchen und Domänen zu verstehen. Die folgende Liste möglicher Verwendungszwecke umfangreich. Diese Liste soll Kontextinformationen zu den möglichen Anwendungsfällen, die die Ersteller des Modells als Teil des Modells in Betracht gezogen haben. Schulung und Entwicklung.

  • Inhalte erstellen und kommunizieren
    • Textgenerierung:Diese Modelle können verwendet werden, um Creative-Text zu generieren. Formate wie Gedichte, Skripte, Code, Marketingtexte, E-Mail-Entwürfe usw.
    • Chatbots und konversationelle AI:Unterstützen Sie dialogorientierte Schnittstellen für Kundenservice, virtuelle Assistenten oder interaktive Anwendungen.
    • Textzusammenfassung:Damit können Sie prägnante Zusammenfassungen eines Textkorpus erstellen. Forschungsberichte oder Berichte.
  • Forschung und Bildung
    • Forschung im Bereich Natural Language Processing (NLP):Diese Modelle können als Grundlage für Forschende, um mit NLP-Techniken zu experimentieren. Algorithmen zu entwickeln und zur Weiterentwicklung dieses Gebiets beizutragen.
    • Language Learning Tools:Unterstützung beim interaktiven Sprachenlernen Erfahrungen sammeln, die Grammatik korrigieren oder Schreibübungen machen.
    • Wissensuntersuchung:Helfen Sie Forschern bei der Erkundung großer Körper. indem Sie Zusammenfassungen erstellen oder Fragen zu bestimmten Themen.

Vorteile

Zum Zeitpunkt der Veröffentlichung bietet diese Modellfamilie offene Large Language Models, die von Grund auf für Responsibles KI-Entwicklung im Vergleich zu Modellen ähnlicher Größe

Unter Verwendung der in diesem Dokument beschriebenen Benchmark-Bewertungsmesswerte haben nachgewiesen, dass sie eine bessere Leistung als andere offene Modelle in vergleichbarer Größe bieten. Alternativen.

Insbesondere erzielen RecurrentGemma-Modelle eine vergleichbare Leistung wie Gemma. aber sind während der Inferenz schneller und benötigen weniger Arbeitsspeicher, lange Sequenzen.