Gemma 2-Modellkarte

Modellseite: Gemma

Ressourcen und technische Dokumentation:

Nutzungsbedingungen: Nutzungsbedingungen

Autoren: Google

Modellinformationen

Zusammenfassung und kurze Definition der Eingaben und Ausgaben.

Beschreibung

Gemma ist eine Familie leichter, hochmoderner offener Modelle von Google, die auf derselben Forschung und Technologie basieren, die auch für die Erstellung der Gemini-Modelle verwendet werden. Sie sind Text-zu-Text-Modelle, die nur für Decoder geeignet sind. Sie sind auf Englisch verfügbar und haben offene Gewichte sowohl für vortrainierte als auch für anweisungsorientierte Varianten. Gemma-Modelle eignen sich gut für eine Vielzahl von Textgenerierungsaufgaben, darunter Fragenbeantwortung, Zusammenfassung und Argumentation. Aufgrund ihrer relativ geringen Größe können sie in Umgebungen mit begrenzten Ressourcen wie einem Laptop, Desktop oder Ihrer eigenen Cloud-Infrastruktur bereitgestellt werden. So wird der Zugang zu modernsten KI-Modellen demokratisiert und Innovationen für alle gefördert.

Eingaben und Ausgaben

  • Eingabe: Textstring, z. B. eine Frage, ein Prompt oder ein Dokument, das zusammengefasst werden soll.
  • Ausgabe: Als Reaktion auf die Eingabe generierter englischsprachiger Text, z. B. eine Antwort auf eine Frage oder eine Zusammenfassung eines Dokuments.

Zitation

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

Modelldaten

Daten, die für das Modelltraining verwendet wurden, und wie die Daten verarbeitet wurden.

Trainings-Dataset

Diese Modelle wurden mit einem Text-Dataset trainiert, das eine Vielzahl von Quellen umfasst. Das Modell mit 27 Milliarden Parametern wurde mit 13 Billionen Tokens trainiert, das Modell mit 9 Milliarden Parametern mit 8 Billionen Tokens und das Modell mit 2 Milliarden Parametern mit 2 Billionen Tokens. Das sind die wichtigsten Komponenten:

  • Webdokumente: Eine vielfältige Sammlung von Webtext sorgt dafür, dass das Modell mit einer breiten Palette von Sprachstilen, Themen und Vokabular konfrontiert wird. Vorwiegend englischsprachige Inhalte.
  • Code: Wenn dem Modell Code präsentiert wird, kann es die Syntax und Muster von Programmiersprachen lernen. Dadurch kann es besser Code generieren oder codebezogene Fragen verstehen.
  • Mathematik: Durch das Training mit mathematischem Text lernt das Modell logisches Denken, symbolische Darstellung und die Beantwortung mathematischer Suchanfragen.

Die Kombination dieser vielfältigen Datenquellen ist entscheidend für das Training eines leistungsstarken Sprachmodells, das eine Vielzahl verschiedener Aufgaben und Textformate verarbeiten kann.

Datenvorverarbeitung

Im Folgenden finden Sie die wichtigsten Methoden zur Datenbereinigung und ‑filterung, die auf die Trainingsdaten angewendet wurden:

  • Filterung von Darstellungen des sexuellen Missbrauchs von Kindern: In mehreren Phasen der Datenvorbereitung wurde eine strenge Filterung von Darstellungen des sexuellen Missbrauchs von Kindern angewendet, um schädliche und illegale Inhalte auszuschließen.
  • Filtern sensibler Daten: Um die vortrainierten Modelle von Gemma sicher und zuverlässig zu machen, wurden automatisierte Verfahren verwendet, um bestimmte personenbezogene Daten und andere sensible Daten aus Trainingssätzen herauszufiltern.
  • Zusätzliche Methoden: Filterung basierend auf der Qualität und Sicherheit von Inhalten gemäß unseren Richtlinien.

Implementierungsinformationen

Details zu den internen Modellen.

Hardware

Gemma wurde mit der neuesten Generation der Tensor Processing Unit (TPU)-Hardware (TPUv5p) trainiert.

Das Training von Large Language Models erfordert eine erhebliche Rechenleistung. TPUs wurden speziell für Matrixoperationen entwickelt, die im Bereich maschinelles Lernen häufig vorkommen. Sie bieten in diesem Bereich mehrere Vorteile:

  • Leistung: TPUs sind speziell für die massiven Berechnungen beim Training von LLMs konzipiert. Sie können das Training im Vergleich zu CPUs erheblich beschleunigen.
  • Arbeitsspeicher: TPUs haben oft einen großen Arbeitsspeicher mit hoher Bandbreite, sodass beim Training große Modelle und Batchgrößen verarbeitet werden können. Das kann zu einer besseren Modellqualität führen.
  • Skalierbarkeit: TPU-Pods (große Cluster von TPUs) bieten eine skalierbare Lösung für die wachsende Komplexität großer Foundation-Modelle. Sie können das Training auf mehrere TPU-Geräte verteilen, um eine schnellere und effizientere Verarbeitung zu ermöglichen.
  • Kosteneffizienz: In vielen Fällen können TPUs im Vergleich zu einer CPU-basierten Infrastruktur eine kostengünstigere Lösung für das Training großer Modelle bieten, insbesondere wenn man die Zeit und Ressourcen berücksichtigt, die durch ein schnelleres Training eingespart werden.
  • Diese Vorteile spiegeln das Engagement von Google für nachhaltiges Wirtschaften wider.

Software

Das Training wurde mit JAX und ML Pathways durchgeführt.

Mit JAX können Forscher die neueste Hardwaregeneration, einschließlich TPUs, nutzen, um große Modelle schneller und effizienter zu trainieren.

ML Pathways ist das neueste Projekt von Google zur Entwicklung von KI-Systemen, die auf mehrere Aufgaben anwendbar sind. Dies eignet sich besonders für Grundlagenmodelle, einschließlich Large Language Models wie diesen.

JAX und ML Pathways werden zusammen verwendet, wie im Artikel über die Gemini-Modellfamilie beschrieben: „Das Programmiermodell ‚Single Controller‘ von Jax und Pathways ermöglicht es, mit einem einzigen Python-Prozess den gesamten Trainingslauf zu orchestrieren, was den Entwicklungsablauf erheblich vereinfacht.“

Bewertung

Messwerte und Ergebnisse der Modellbewertung

Benchmark-Ergebnisse

Diese Modelle wurden anhand einer großen Sammlung verschiedener Datasets und Messwerte bewertet, um verschiedene Aspekte der Textgenerierung abzudecken:

Benchmark Messwert Gemma 2 PT 2B Gemma 2 PT 9B Gemma 2 PT 27B
MMLU 5-shot, top-1 51.3 71,3 75,2
HellaSwag 10-Shot 73,0 81,9 86,4
PIQA 0-Shot 77,8 81,7 83,2
SocialIQA 0-Shot 51,9 53,4 53,7
BoolQ 0-Shot 72,5 84,2 84,8
WinoGrande Teilpunktzahl 70,9 80,6 83,7
ARC-e 0-Shot 80,1 88,0 88,6
ARC-c 25 Aufnahme 55,4 68,4 71,4
TriviaQA 5-Shot 59,4 76,6 83,7
Natürliche Fragen 5-Shot 16.7 29,2 34,5
HumanEval pass@1 17.7 40,2 51,8
MBPP 3-shot 29,6 52,4 62,6
GSM8K 5-shot, maj@1 23,9 68,6 74,0
MATH 4-Shot 15.0 36,6 42,3
AGIEval 3-5-Shot 30,6 52,8 55.1
DROP 3-Shot, F1 52,0 69,4 72,2
BIG-Bench 3-Shot, CoT 41,9 68,2 74,9

Ethik und Sicherheit

Ansatz und Ergebnisse der ethischen und sicherheitsbezogenen Bewertung.

Bewertungsansatz

Zu unseren Bewertungsmethoden gehören strukturierte Bewertungen und interne Red-Team-Tests der relevanten Inhaltsrichtlinien. Das Red-Teaming wurde von mehreren verschiedenen Teams durchgeführt, die jeweils unterschiedliche Ziele und Bewertungsmesswerte für Menschen hatten. Diese Modelle wurden anhand verschiedener Kategorien bewertet, die für Ethik und Sicherheit relevant sind, darunter:

  • Sicherheit von Text-zu-Text-Inhalten: Bewertung von Prompts durch Menschen auf Einhaltung der Sicherheitsrichtlinien, einschließlich des sexuellen Missbrauchs und der Ausbeutung von Kindern, Belästigung, Gewalt und Grausamkeit sowie Hassrede.
  • Text-zu-Text-Darstellungsrisiken: Benchmarking mit relevanten akademischen Datasets wie WinoBias und BBQ Dataset.
  • Memorisierung: Automatische Bewertung der Memorisierung von Trainingsdaten, einschließlich des Risikos der Offenlegung personenidentifizierbarer Informationen.
  • Schäden in großem Umfang: Tests auf „gefährliche Funktionen“, z. B. chemische, biologische, radiologische und nukleare (CBRN) Risiken.

Bewertungsergebnisse

Die Ergebnisse der Ethik- und Sicherheitsbewertungen liegen innerhalb der zulässigen Grenzwerte, um die internen Richtlinien für Kategorien wie den Schutz von Kindern, die Sicherheit von Inhalten, repräsentative Schäden, Memorisierung und Schäden in großem Umfang einzuhalten. Neben robusten internen Bewertungen werden hier auch die Ergebnisse bekannter Sicherheits-Benchmarks wie BBQ, BOLD, Winogender, Winobias, RealToxicity und TruthfulQA angezeigt.

Gemma 2.0

Benchmark Messwert Gemma 2 IT 2B Gemma 2 IT 9B Gemma 2 IT 27B
RealToxicity Durchschnitt 8.16 8,25 8.84
CrowS-Paare top-1 37,67 37.47 36,67
BBQ Ambig 1-shot, top-1 83,20 88,58 85,99
BBQ Disambig top-1 69,31 82,67 86,94
Winogender top-1 52,91 79,17 77,22
TruthfulQA 43,72 50,27 51,60
Winobias 1_2 59,28 78,09 81,94
Winobias 2_2 88,57 95,32 97,22
Toxigen 48.32 39,30 38,42

Bewertungen gefährlicher Funktionen

Bewertungsansatz

Wir haben eine Reihe gefährlicher Funktionen bewertet:

  • Offensive Cybersicherheit: Um das Missbrauchspotenzial des Modells im Kontext der Cybersicherheit zu bewerten, haben wir sowohl öffentlich verfügbare Capture-the-Flag-Plattformen (CTF) wie InterCode-CTF und Hack the Box als auch intern entwickelte CTF-Herausforderungen verwendet. Bei diesen Bewertungen wird die Fähigkeit des Modells gemessen, Sicherheitslücken auszunutzen und in simulierten Umgebungen unbefugten Zugriff zu erhalten.
  • Selbstvermehrung: Wir haben die Fähigkeit des Modells zur Selbstvermehrung bewertet, indem wir Aufgaben entworfen haben, die die Ressourcenakquisition, die Codeausführung und die Interaktion mit Remote-Systemen umfassen. Bei diesen Bewertungen wird die Fähigkeit des Modells bewertet, sich unabhängig zu replizieren und zu verbreiten.
  • Überredung: Um die Überzeugungskraft und Täuschungsfähigkeit des Modells zu bewerten, haben wir Studien zur Überzeugung von Menschen durchgeführt. Bei diesen Studien wurden Szenarien verwendet, in denen die Fähigkeit des Modells gemessen wurde, eine Beziehung aufzubauen, Überzeugungen zu beeinflussen und bestimmte Aktionen von menschlichen Teilnehmern hervorzurufen.

Bewertungsergebnisse

Alle Bewertungen werden ausführlich in Evaluating Frontier Models for Dangerous Capabilities (Grenzmodelle auf gefährliche Funktionen prüfen) und kurz im Gemma 2 Technical Report (Gemma 2 Technical Report) beschrieben.

Bewertung Funktion Gemma 2 IT 27B
InterCode-CTF Offensive Internetsicherheit 34/76 Herausforderungen
Interne CTF Offensive Internetsicherheit 1/13 Herausforderungen
Hack the Box Offensive Internetsicherheit 0/13 Herausforderungen
Frühwarnung vor selbstvermehrenden Programmen Selbstvermehrung 1:10-Herausforderungen
Charm-Offensive Überzeugung Prozentsatz der Teilnehmer, die zugestimmt haben: 81% interessant, 75% würden noch einmal mit ihm sprechen, 80% haben eine persönliche Beziehung aufgebaut
Klicks auf Links Überzeugung 34% der Teilnehmer
Informationen finden Überzeugung 9% der Teilnehmer
Code ausführen Überzeugung 11% der Teilnehmer
Geld regiert Überzeugung Durchschnittliche Spende: 3,72 £
Web of Lies Überzeugung 18% mittlere Abweichung in Richtung der richtigen Überzeugung, 1% mittlere Abweichung in Richtung der falschen Überzeugung

Nutzung und Einschränkungen

Diese Modelle haben bestimmte Einschränkungen, die Nutzer beachten sollten.

Verwendungszweck

Offene Large Language Models (LLMs) haben eine breite Palette von Anwendungen in verschiedenen Branchen und Bereichen. Die folgende Liste möglicher Verwendungen ist nicht vollständig. Diese Liste soll Kontextinformationen zu den möglichen Anwendungsfällen liefern, die die Ersteller des Modells im Rahmen der Modellschulung und -entwicklung berücksichtigt haben.

  • Erstellung von Inhalten und Kommunikation
    • Textgenerierung: Mit diesen Modellen können kreative Textformate wie Gedichte, Scripts, Code, Marketingtexte und E-Mail-Entwürfe generiert werden.
    • Chatbots und Conversational AI: Ermöglichen Konversationsschnittstellen für Kundenservice, virtuelle Assistenten oder interaktive Anwendungen.
    • Textzusammenfassung: Sie können kurze Zusammenfassungen eines Textkorpus, von Forschungsarbeiten oder Berichten erstellen.
  • Forschung und Bildung
    • Forschung zu Natural Language Processing (NLP): Diese Modelle können als Grundlage für Forscher dienen, um mit NLP-Techniken zu experimentieren, Algorithmen zu entwickeln und zur Weiterentwicklung des Fachgebiets beizutragen.
    • Tools zum Erlernen von Sprachen: Unterstützen interaktives Sprachenlernen, helfen bei der Grammatikkorrektur oder bieten Schreibübungen.
    • Wissensexploration: Hilft Forschern, große Textmengen zu untersuchen, indem Zusammenfassungen erstellt oder Fragen zu bestimmten Themen beantwortet werden.

Beschränkungen

  • Trainingsdaten
    • Die Qualität und Vielfalt der Trainingsdaten wirken sich erheblich auf die Fähigkeiten des Modells aus. Verzerrungen oder Lücken in den Trainingsdaten können zu Einschränkungen bei den Antworten des Modells führen.
    • Der Umfang des Trainingsdatensatzes bestimmt die Themenbereiche, die das Modell effektiv verarbeiten kann.
  • Kontext und Aufgabenkomplexität
    • LLMs eignen sich besser für Aufgaben, die mit klaren Prompts und Anweisungen formuliert werden können. Offene oder sehr komplexe Aufgaben können eine Herausforderung darstellen.
    • Die Leistung eines Modells kann durch die Menge des bereitgestellten Kontexts beeinflusst werden. Längerer Kontext führt in der Regel bis zu einem bestimmten Punkt zu besseren Ergebnissen.
  • Mehrdeutigkeit und Nuancen der Sprache
    • Die natürliche Sprache ist von Natur aus komplex. LLMs haben möglicherweise Schwierigkeiten, subtile Nuancen, Sarkasmus oder bildhafte Sprache zu verstehen.
  • Sachliche Richtigkeit
    • LLMs generieren Antworten basierend auf Informationen, die sie aus ihren Trainingsdatensätzen gelernt haben, sind aber keine Wissensdatenbanken. Sie können falsche oder veraltete Sachinformationen generieren.
  • Common Sense
    • LLMs basieren auf statistischen Mustern in der Sprache. Möglicherweise fehlt es ihnen in bestimmten Situationen an gesundem Menschenverstand.

Ethische Aspekte und Risiken

Die Entwicklung von Large Language Models (LLMs) wirft mehrere ethische Fragen auf. Bei der Entwicklung eines offenen Modells haben wir Folgendes sorgfältig berücksichtigt:

  • Voreingenommenheit und Fairness
    • LLMs, die mit großen Mengen an realen Textdaten trainiert wurden, können soziokulturelle Verzerrungen widerspiegeln, die im Trainingsmaterial enthalten sind. Diese Modelle wurden sorgfältig geprüft. Die Vorverarbeitung der Eingabedaten wird auf dieser Karte beschrieben und die nachfolgenden Bewertungen werden hier aufgeführt.
  • Fehlinformationen und Missbrauch
  • Transparenz und Rechenschaftspflicht:
    • Auf dieser Modellkarte finden Sie Details zur Architektur, zu den Funktionen, zu den Einschränkungen und zu den Bewertungsverfahren der Modelle.
    • Ein verantwortungsvoll entwickeltes Open-Source-Modell bietet die Möglichkeit, Innovationen zu teilen, indem die LLM-Technologie für Entwickler und Forscher im gesamten KI-Ökosystem zugänglich gemacht wird.

Identifizierte Risiken und Risikominderungen:

  • Fortbestehende Voreingenommenheit: Es wird empfohlen, während des Modelltrainings, der Feinabstimmung und anderer Anwendungsfälle eine kontinuierliche Überwachung (mithilfe von Bewertungsmesswerten und manueller Überprüfung) durchzuführen und Methoden zur Beseitigung von Voreingenommenheit zu untersuchen.
  • Erstellung schädlicher Inhalte: Mechanismen und Richtlinien für die Sicherheit von Inhalten sind unerlässlich. Entwicklern wird empfohlen, mit Bedacht vorzugehen und geeignete Maßnahmen zur Sicherheit von Inhalten zu implementieren, die auf ihren spezifischen Produktrichtlinien und Anwendungsfällen basieren.
  • Missbrauch zu böswilligen Zwecken: Technische Einschränkungen und Aufklärung von Entwicklern und Endnutzern können dazu beitragen, die böswillige Verwendung von LLMs zu verringern. Es werden Informationsressourcen und Meldemechanismen bereitgestellt, mit denen Nutzer Missbrauch melden können. Unzulässige Verwendungen von Gemma-Modellen sind in der Richtlinie zur unzulässigen Nutzung von Gemma aufgeführt.
  • Verstöße gegen den Datenschutz: Die Modelle wurden mit Daten trainiert, die nach dem Entfernen personenidentifizierbarer Informationen gefiltert wurden. Entwickler werden aufgefordert, die Datenschutzbestimmungen mit datenschutzfreundlichen Verfahren einzuhalten.

Vorteile

Zum Zeitpunkt der Veröffentlichung bietet diese Modellfamilie im Vergleich zu Modellen ähnlicher Größe hochleistungsfähige Open-Source-Implementierungen von Large Language Models, die von Grund auf für die verantwortungsbewusste Entwicklung von KI entwickelt wurden.

Anhand der in diesem Dokument beschriebenen Benchmark-Bewertungsmesswerte haben diese Modelle eine bessere Leistung als andere Open-Source-Modelle mit vergleichbarer Größe gezeigt.