Gemma 2-Modellkarte

Model Page (Modellseite): Gemma

Ressourcen und technische Dokumentation:

Nutzungsbedingungen: Nutzungsbedingungen

Autoren: Google

Modellinformationen

Zusammenfassende Beschreibung und kurze Definition der Ein- und Ausgaben.

Beschreibung

Gemma ist eine Familie leichtgewichtiger, hochmoderner offener Modelle von Google, die auf derselben Forschung und Technologie basieren, die auch für die Erstellung der Gemini-Modelle verwendet wurden. Es handelt sich um Large Language Models, die nur Text zu Text und Decoder enthalten und auf Englisch verfügbar sind. Sie haben offene Gewichtungen für vortrainierte Varianten und für in der Anweisung abgestimmte Varianten. Gemma-Modelle eignen sich gut für eine Vielzahl von Textgenerierungsaufgaben, einschließlich Fragenbeantwortung, Zusammenfassung und Schlussfolgerung. Aufgrund ihrer relativ geringen Größe können sie in Umgebungen mit begrenzten Ressourcen wie Laptops, Computern oder Ihrer eigenen Cloud-Infrastruktur bereitgestellt werden. Dies ermöglicht den Zugriff auf hochmoderne KI-Modelle und trägt dazu bei, Innovationen für alle zu fördern.

Ein- und Ausgaben

  • Eingabe:Textstring, z. B. eine Frage, ein Prompt oder ein Dokument, das zusammengefasst werden soll.
  • Ausgabe:Erstellter englischsprachiger Text als Antwort auf die Eingabe, z. B. eine Antwort auf eine Frage oder eine Zusammenfassung eines Dokuments.

Citation

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

Modelldaten

Für das Modelltraining verwendete Daten und die Art und Weise, wie sie verarbeitet wurden.

Trainings-Dataset

Diese Modelle wurden mit einem Dataset von Textdaten trainiert, das eine Vielzahl von Quellen umfasst. Das 27B-Modell wurde mit 13 Billionen Tokens und das 9B-Modell mit 8 Billionen Tokens trainiert. Dies sind die Hauptkomponenten:

  • Webdokumente: Durch eine vielfältige Sammlung von Webtexten wird sichergestellt, dass das Modell einer Vielzahl von linguistischen Stilen, Themen und Vokabeln zur Verfügung steht. Hauptsächlich Inhalte in englischer Sprache.
  • Code: Wenn das Modell programmiert wird, kann es die Syntax und die Muster von Programmiersprachen erlernen, wodurch die Fähigkeit verbessert wird, Code zu generieren oder codebezogene Fragen zu verstehen.
  • Mathematik: Das Training mit mathematischem Text hilft dem Modell, logische Schlussfolgerungen und symbolische Darstellung zu erlernen und mathematische Abfragen zu beantworten.

Die Kombination dieser vielfältigen Datenquellen ist entscheidend für das Training eines leistungsstarken Sprachmodells, das eine Vielzahl verschiedener Aufgaben und Textformate bewältigen kann.

Datenvorverarbeitung

Dies sind die wichtigsten Datenbereinigungs- und Filtermethoden, die auf die Trainingsdaten angewendet werden:

  • Filtern von Darstellungen des sexuellen Missbrauchs von Kindern: Es wurden strenge Darstellungen des sexuellen Missbrauchs von Kindern in mehreren Phasen des Datenvorbereitungsprozesses gefiltert, um den Ausschluss schädlicher und illegaler Inhalte sicherzustellen.
  • Filtern sensibler Daten: Um vortrainierte Gemma-Modelle sicher und zuverlässig zu machen, wurden automatisierte Verfahren verwendet, um bestimmte personenbezogene Informationen und andere sensible Daten aus Trainings-Datasets herauszufiltern.
  • Zusätzliche Methoden: Filtern auf der Grundlage der Qualität und Sicherheit von Inhalten gemäß unseren Richtlinien.

Informationen zur Implementierung

Details zu den internen Strukturen des Modells.

Hardware

Gemma wurde mit der neuesten Generation der TPU-Hardware (Tensor Processing Unit) (TPUv5p) trainiert.

Das Training von Large Language Models erfordert eine erhebliche Rechenleistung. TPUs, die speziell für Matrixoperationen entwickelt wurden, die im maschinellen Lernen üblich sind, bieten in diesem Bereich mehrere Vorteile:

  • Leistung: TPUs wurden speziell für die Verarbeitung umfangreicher Berechnungen entwickelt, die für das Training von LLMs erforderlich sind. Sie können das Training im Vergleich zu CPUs erheblich beschleunigen.
  • Arbeitsspeicher: TPUs haben häufig einen großen Arbeitsspeicher mit hoher Bandbreite, der die Verarbeitung großer Modelle und Batchgrößen während des Trainings ermöglicht. Dies kann zu einer besseren Modellqualität führen.
  • Skalierbarkeit: TPU-Pods (große TPU-Cluster) bieten eine skalierbare Lösung, um die wachsende Komplexität großer Foundation Models zu bewältigen. Sie können das Training auf mehrere TPU-Geräte verteilen, um eine schnellere und effizientere Verarbeitung zu ermöglichen.
  • Kosteneffizienz: In vielen Szenarien können TPUs eine kostengünstigere Lösung zum Trainieren großer Modelle im Vergleich zur CPU-basierten Infrastruktur bieten, insbesondere wenn man angesichts der durch ein schnelleres Training eingesparten Zeit und Ressourcen berücksichtigt.
  • Diese Vorteile entsprechen dem Engagement von Google für einen nachhaltigen Betrieb.

Software

Das Training wurde mithilfe von JAX und ML Pathways durchgeführt.

Mit JAX können Forscher die neueste Hardware-Generation, einschließlich TPUs, nutzen, um große Modelle schneller und effizienter zu trainieren.

ML Pathways ist die neueste Initiative von Google zur Entwicklung künstlich intelligenter Systeme, die mehrere Aufgaben verallgemeinern können. Diese Methode eignet sich besonders für Foundation Models, einschließlich Large Language Models wie diese.

Gemeinsam werden JAX- und ML-Pfade verwendet, wie in diesem Artikel über die Gemini-Modellfamilie beschrieben. „Das 'Einzelcontroller'-Programmiermodell von Jax und Pathways ermöglicht es einem einzigen Python-Prozess, den gesamten Trainingslauf zu orchestrieren, wodurch der Entwicklungsworkflow erheblich vereinfacht wird.“

Bewertung

Messwerte und Ergebnisse der Modellbewertung.

Benchmarkergebnisse

Diese Modelle wurden anhand einer großen Sammlung verschiedener Datasets und Messwerte ausgewertet, um verschiedene Aspekte der Textgenerierung abzudecken:

Benchmark Messwert Gemma PT 9B Gemma PT 27B
MMLU 5-Aufnahmen, Top-1 71,3 75,2
HellaSwag 10-shot 81,9 86,4
PIQA 0-shot 81,7 83,2
SocialIQA 0-shot 53,4 53,7
BoolQ 0-shot 84,2 84,8
WinoGrande Teilbewertung 80,6 83,7
ARC‐E 0-shot 88,0 88,6
ARC-C 25 Aufnahme 68,4 71,4
TriviaQA 5 Aufnahme 76,6 83,7
Natürliche Fragen 5 Aufnahme 29,2 34,5
HumanEval Bestanden@1 40,2 51,8
MBPP Drei Aufnahme 52,4 62,6
GSM8K 5-shot, maj@1 68,6 74,0
MATH 4 Aufnahme 36,6 42,3
AGIEval 3–5-Aufnahmen 52,8 55,1
BIG-Bench 3-shot, CoT 68,2 74,9

Ethik und Sicherheit

Ansatz und Ergebnisse der Ethik- und Sicherheitsbewertung

Bewertungsansatz

Zu unseren Bewertungsmethoden gehören strukturierte Bewertungen und interne Red-Team-Tests relevanter Inhaltsrichtlinien. Red-Team-Einsätze wurden von verschiedenen Teams durchgeführt, die jeweils unterschiedliche Ziele und Messwerte für die menschliche Bewertung hatten. Diese Modelle wurden anhand verschiedener Kategorien bewertet, die für Ethik und Sicherheit relevant sind, darunter:

  • Sicherheit von Text-zu-Text-Inhalten: Manuelle Überprüfung von Aufforderungen zu Sicherheitsrichtlinien wie sexuellem Missbrauch und Ausbeutung von Kindern, Belästigung, Gewalt und Blutvergießen sowie Hassrede.
  • Darstellung von Harm im Text-zu-Text-Format: Benchmark mit relevanten akademischen Datasets wie WinoBias und BBQ-Dataset.
  • Erinnerung: Automatisierte Bewertung der Speicherung von Trainingsdaten, einschließlich des Risikos, personenidentifizierbare Informationen preiszugeben.
  • Erhebliche Schäden: Tests auf „gefährliche Funktionen“ wie chemische, biologische, radiologische und nuklear (CBRN) Risiken.

Bewertungsergebnisse

Die Ergebnisse von Ethik- und Sicherheitsbewertungen liegen innerhalb akzeptabler Grenzwerte für die Einhaltung der internen Richtlinien für Kategorien wie Kindersicherheit, Inhaltssicherheit, Repräsentationsschäden, Erinnerungsvermögen und umfangreiche Schäden. Zusätzlich zu soliden internen Bewertungen werden hier die Ergebnisse bekannter Sicherheits-Benchmarks wie BBQ, BOLD, Winogender, Winobias, RealToxicity und TruthfulQA angezeigt.

Gemma 2.0

Benchmark Messwert Gemma 2 IT 9B Gemma 2 IT 27B
RealToxicity Durchschnitt 8,25 8,84
Krähenpaare top-1 37,47 36,67
Barbecue Ambig Einzelaufnahme, Top-1 88,58 85,99
Gestaffelte Quadrate top-1 82,67 86,94
Winogender top-1 79,17 77,22
TruthfulQA 50,27 51,60
Winobias 1_2 78,09 81,94
Winobias 2_2 95,32 97,22
Toxische 39,30 38,42

Verwendung und Einschränkungen

Diese Modelle unterliegen bestimmten Einschränkungen, die Nutzer kennen sollten.

Verwendungszweck

Offene Large Language Models (LLMs) bieten ein breites Spektrum an Anwendungen in verschiedenen Branchen und Bereichen. Die folgende Liste der möglichen Verwendungen ist nicht umfassend. Der Zweck dieser Liste besteht darin, Kontextinformationen zu den möglichen Anwendungsfällen bereitzustellen, die die Modellersteller im Rahmen des Modelltrainings und der Modellentwicklung in Betracht gezogen haben.

  • Inhalte erstellen und kommunizieren
    • Textgenerierung: Mit diesen Modellen können kreative Textformate wie Gedichte, Skripte, Code, Marketingtexte und E-Mail-Entwürfe generiert werden.
    • Chatbots und Conversational AI: Nutzen Sie dialogorientierte Schnittstellen für den Kundenservice, virtuelle Assistenten oder interaktive Anwendungen.
    • Textzusammenfassung: Erstellen Sie kurze Zusammenfassungen eines Textkorpus, Forschungsarbeiten oder Berichte.
  • Forschung und Bildung
    • Forschung zu Natural Language Processing (NLP): Diese Modelle können als Grundlage für Forscher dienen, um mit NLP-Techniken zu experimentieren, Algorithmen zu entwickeln und zur Weiterentwicklung dieses Gebiets beizutragen.
    • Sprachlerntools: Diese Tools unterstützen interaktives Sprachenlernen, helfen bei der Grammatikkorrektur oder bieten Schreibübungen.
    • Wissensuntersuchung: Unterstützen Sie Forscher beim Erkunden großer Textmengen, indem Sie Zusammenfassungen erstellen oder Fragen zu bestimmten Themen beantworten.

Beschränkungen

  • Trainingsdaten
    • Die Qualität und Vielfalt der Trainingsdaten beeinflussen die Funktionen des Modells erheblich. Verzerrungen oder Lücken in den Trainingsdaten können zu Einschränkungen in den Antworten des Modells führen.
    • Der Umfang des Trainings-Datasets bestimmt die Themenbereiche, die das Modell effektiv verarbeiten kann.
  • Kontext und Aufgabenkomplexität
    • LLMs eignen sich besser für Aufgaben, die sich mit klaren Prompts und Anweisungen beschreiben lassen. Offene oder hochkomplexe Aufgaben können eine Herausforderung sein.
    • Die Leistung eines Modells kann durch die Menge an bereitgestelltem Kontext beeinflusst werden (längerer Kontext führt in der Regel bis zu einem bestimmten Punkt zu besseren Ausgaben).
  • Ambiguität und Nuance der Sprache
    • Natürliche Sprache ist von Natur aus komplex. LLMs können subtile Nuancen, Sarkasmus oder symbolische Sprache nur schwer erfassen.
  • Sachgenauigkeit
    • LLMs generieren Antworten auf der Grundlage von Informationen, die sie aus ihren Trainings-Datasets gewonnen haben. Sie sind jedoch keine Wissensdatenbanken. Sie können falsche oder veraltete Sachberichte generieren.
  • Vernünftiger Menschen
    • LLMs stützen sich auf statistische Muster in der Sprache. Sie können in bestimmten Situationen vernünftige Schlussfolgerungen nicht anwenden.

Ethische Überlegungen und Risiken

Die Entwicklung von Large Language Models (LLMs) wirft mehrere ethische Bedenken auf. Bei der Erstellung eines offenen Modells haben wir Folgendes sorgfältig berücksichtigt:

  • Voreingenommenheit und Fairness
    • LLMs, die mit umfangreichen, realen Textdaten trainiert wurden, können soziokulturelle Vorurteile widerspiegeln, die in das Trainingsmaterial eingebettet sind. Diese Modelle wurden sorgfältig geprüft. Die auf dieser Karte beschriebene Vorverarbeitung der Eingabedaten sowie spätere Bewertungen wurden sorgfältig geprüft.
  • Fehlinformationen und Missbrauch
    • LLMs können missbraucht werden, um falsch, irreführende oder schädliche Texte zu generieren.
    • Richtlinien für die verantwortungsvolle Nutzung des Modells finden Sie unter Responsible Generative AI Toolkit.
  • Transparenz und Rechenschaftspflicht:
    • Diese Modellkarte fasst Details zur Architektur, zu den Funktionen, Einschränkungen und zu Bewertungsprozessen des Modells zusammen.
    • Ein verantwortungsbewusst entwickeltes offenes Modell bietet die Möglichkeit, Innovationen zu teilen, indem die LLM-Technologie für Entwickler und Forscher im gesamten KI-Ökosystem zugänglich gemacht wird.

Identifizierte Risiken und Minderungen:

  • Fortbestehen von Verzerrungen: Es wird empfohlen, während des Modelltrainings, der Feinabstimmung und anderer Anwendungsfälle ein kontinuierliches Monitoring (mithilfe von Bewertungsmesswerten, manuelle Überprüfung) und die Erkundung von Techniken zur Entzerrung von Voreingenommenheiten durchzuführen.
  • Erstellung schädlicher Inhalte: Mechanismen und Richtlinien für die Sicherheit von Inhalten sind unerlässlich. Entwicklern wird empfohlen, Vorsicht walten zu lassen und angemessene Sicherheitsvorkehrungen für die Sicherheit von Inhalten zu implementieren, die auf ihren jeweiligen Produktrichtlinien und Anwendungsanwendungsfällen basieren.
  • Missbrauch für böswillige Zwecke: Technische Einschränkungen sowie die Schulung von Entwicklern und Endnutzern können dazu beitragen, schädliche Anwendungen von LLMs abzumildern. Es werden Bildungsressourcen und Meldeverfahren angeboten, mit denen Nutzer Missbrauch melden können. Die unzulässige Verwendung von Gemma-Modellen wird in der Richtlinie zur unzulässigen Nutzung von Gemma beschrieben.
  • Datenschutzverstöße: Die Modelle wurden mit Daten trainiert, die zur Entfernung von personenidentifizierbaren Informationen gefiltert wurden. Entwickler werden aufgefordert, Datenschutzbestimmungen durch datenschutzfreundliche Verfahren einzuhalten.

Vorteile

Zum Zeitpunkt der Veröffentlichung bietet diese Modellfamilie im Vergleich zu Modellen ähnlicher Größe leistungsstarke Open Large Language Model-Implementierungen, die von Grund auf für eine verantwortungsvolle KI-Entwicklung entwickelt wurden.

Unter Verwendung der in diesem Dokument beschriebenen Benchmark-Bewertungsmesswerte hat sich gezeigt, dass diese Modelle eine im Vergleich zu anderen offenen Modellalternativen vergleichbarer Größe eine überragende Leistung bieten.