Gemma-Modellkarte

Modellseite: Gemma

Ressourcen und technische Dokumentation:

Nutzungsbedingungen: Nutzungsbedingungen

Autoren: Google

Modellinformationen

Zusammenfassung und kurze Definition der Eingaben und Ausgaben.

Beschreibung

Gemma ist eine Familie leichter, hochmoderner offener Modelle von Google, die auf derselben Forschung und Technologie basieren, die auch für die Erstellung der Gemini-Modelle verwendet werden. Es handelt sich um Text-zu-Text-Large Language Models, die nur als Decoder verfügbar sind. Sie sind auf Englisch, mit offenen Gewichten, vortrainierten Varianten und anweisungsorientierten Varianten. Gemma-Modelle eignen sich gut für eine Vielzahl von Textgenerierungsaufgaben, einschließlich Fragenbeantwortung, Zusammenfassung und Argumentation. Aufgrund ihrer relativ geringen Größe können sie in Umgebungen mit begrenzten Ressourcen wie einem Laptop, Desktop oder einer eigenen Cloud-Infrastruktur bereitgestellt werden. So wird der Zugang zu modernsten KI-Modellen demokratisiert und Innovationen für alle gefördert.

Eingaben und Ausgaben

  • Eingabe: Textstring, z. B. eine Frage, ein Prompt oder ein Dokument, das zusammengefasst werden soll.
  • Ausgabe: Als Reaktion auf die Eingabe generierter englischsprachiger Text, z. B. eine Antwort auf eine Frage oder eine Zusammenfassung eines Dokuments.

Zitation

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
    year={2024}
}

Modelldaten

Daten, die für das Modelltraining verwendet wurden, und wie die Daten verarbeitet wurden.

Trainings-Dataset

Diese Modelle wurden mit einem Dataset aus Textdaten trainiert, das eine Vielzahl von Quellen mit insgesamt 6 Billionen Tokens umfasst. Das sind die wichtigsten Komponenten:

  • Webdokumente: Eine vielfältige Sammlung von Webtext sorgt dafür, dass das Modell mit einer breiten Palette von Sprachstilen, Themen und Vokabular konfrontiert wird. Vorwiegend englischsprachige Inhalte.
  • Code: Wenn dem Modell Code präsentiert wird, kann es die Syntax und Muster von Programmiersprachen lernen. Dadurch kann es besser Code generieren oder codebezogene Fragen verstehen.
  • Mathematik: Durch das Training mit mathematischem Text lernt das Modell logisches Denken, symbolische Darstellung und die Beantwortung mathematischer Suchanfragen.

Die Kombination dieser vielfältigen Datenquellen ist entscheidend für das Training eines leistungsstarken Sprachmodells, das eine Vielzahl verschiedener Aufgaben und Textformate verarbeiten kann.

Datenvorverarbeitung

Im Folgenden sind die wichtigsten Methoden zur Datenbereinigung und ‑filterung aufgeführt, die auf die Trainingsdaten angewendet wurden:

  • Filterung von Darstellungen des sexuellen Missbrauchs von Kindern: In mehreren Phasen der Datenvorbereitung wurde eine strenge Filterung von Darstellungen des sexuellen Missbrauchs von Kindern angewendet, um schädliche und illegale Inhalte auszuschließen.
  • Filtern sensibler Daten: Um die vortrainierten Modelle von Gemma sicher und zuverlässig zu machen, wurden automatisierte Verfahren verwendet, um bestimmte personenbezogene Daten und andere sensible Daten aus Trainingssätzen herauszufiltern.
  • Zusätzliche Methoden: Filterung basierend auf der Qualität und Sicherheit von Inhalten gemäß unseren Richtlinien.

Implementierungsinformationen

Details zu den internen Modellen.

Hardware

Gemma wurde mit der neuesten Generation der Tensor Processing Unit (TPU)-Hardware (TPUv5e) trainiert.

Das Training von Large Language Models erfordert eine erhebliche Rechenleistung. TPUs wurden speziell für Matrixoperationen entwickelt, die im Bereich maschinelles Lernen häufig vorkommen. Sie bieten in diesem Bereich mehrere Vorteile:

  • Leistung: TPUs sind speziell für die massiven Berechnungen beim Training von LLMs konzipiert. Sie können das Training im Vergleich zu CPUs erheblich beschleunigen.
  • Arbeitsspeicher: TPUs haben oft einen großen Arbeitsspeicher mit hoher Bandbreite, sodass beim Training große Modelle und Batchgrößen verarbeitet werden können. Das kann zu einer besseren Modellqualität führen.
  • Skalierbarkeit: TPU-Pods (große Cluster von TPUs) bieten eine skalierbare Lösung für die wachsende Komplexität großer Foundation-Modelle. Sie können das Training auf mehrere TPU-Geräte verteilen, um eine schnellere und effizientere Verarbeitung zu ermöglichen.
  • Kosteneffizienz: In vielen Fällen können TPUs im Vergleich zu einer CPU-basierten Infrastruktur eine kostengünstigere Lösung für das Training großer Modelle bieten, insbesondere wenn man die Zeit und Ressourcen berücksichtigt, die durch ein schnelleres Training eingespart werden.
  • Diese Vorteile spiegeln das Engagement von Google für nachhaltiges Wirtschaften wider.

Software

Das Training wurde mit JAX und ML Pathways durchgeführt.

Mit JAX können Forscher die neueste Hardwaregeneration, einschließlich TPUs, nutzen, um große Modelle schneller und effizienter zu trainieren.

ML Pathways ist das neueste Projekt von Google zur Entwicklung von KI-Systemen, die auf mehrere Aufgaben anwendbar sind. Dies eignet sich besonders für Grundlagenmodelle, einschließlich Large Language Models wie diesen.

JAX und ML Pathways werden zusammen verwendet, wie im Artikel über die Gemini-Modellfamilie beschrieben: „Das Programmiermodell ‚Single Controller‘ von Jax und Pathways ermöglicht es, mit einem einzigen Python-Prozess den gesamten Trainingslauf zu orchestrieren, was den Entwicklungsablauf erheblich vereinfacht.“

Bewertung

Messwerte und Ergebnisse der Modellbewertung

Benchmark-Ergebnisse

Diese Modelle wurden anhand einer großen Sammlung verschiedener Datasets und Messwerte bewertet, um verschiedene Aspekte der Textgenerierung abzudecken:

Benchmark Messwert Gemma PT 2B Gemma PT 7B
MMLU 5-shot, top-1 42,3 64,3
HellaSwag 0-Shot 71,4 81,2
PIQA 0-Shot 77,3 81,2
SocialIQA 0-Shot 49,7 51,8
BoolQ 0-Shot 69,4 83,2
WinoGrande Teilpunktzahl 65,4 72,3
CommonsenseQA 7-shot 65.3 71,3
OpenBookQA 47,8 52,8
ARC-e 73,2 81,5
ARC-c 42.1 53,2
TriviaQA 5-Shot 53,2 63,4
Natürliche Fragen 5-Shot 12,5 23,0
HumanEval pass@1 22,0 32,3
MBPP 3-shot 29,2 44,4
GSM8K maj@1 17.7 46,4
MATH 4-Shot 11.8 24,3
AGIEval 24.2 41,7
BIG-Bench 35.2 55.1
Durchschnitt 44,9 56.4

Ethik und Sicherheit

Ansatz und Ergebnisse der ethischen und sicherheitsbezogenen Bewertung.

Bewertungsansatz

Zu unseren Bewertungsmethoden gehören strukturierte Bewertungen und interne Red-Team-Tests der relevanten Inhaltsrichtlinien. Das Red-Teaming wurde von mehreren verschiedenen Teams durchgeführt, die jeweils unterschiedliche Ziele und Bewertungsmesswerte für Menschen hatten. Diese Modelle wurden anhand verschiedener Kategorien bewertet, die für Ethik und Sicherheit relevant sind, darunter:

  • Sicherheit von Text-zu-Text-Inhalten: Bewertung von Prompts durch Menschen auf Einhaltung der Sicherheitsrichtlinien, einschließlich des sexuellen Missbrauchs und der Ausbeutung von Kindern, Belästigung, Gewalt und Grausamkeit sowie Hassrede.
  • Text-zu-Text-Darstellungsrisiken: Benchmarking mit relevanten akademischen Datasets wie WinoBias und BBQ Dataset.
  • Memorisierung: Automatische Bewertung der Memorisierung von Trainingsdaten, einschließlich des Risikos der Offenlegung personenidentifizierbarer Informationen.
  • Schäden in großem Umfang: Tests auf „gefährliche Funktionen“, z. B. chemische, biologische, radiologische und nukleare (CBRN) Risiken.

Bewertungsergebnisse

Die Ergebnisse der Ethik- und Sicherheitsbewertungen liegen innerhalb der zulässigen Grenzwerte, um die internen Richtlinien für Kategorien wie den Schutz von Kindern, die Sicherheit von Inhalten, repräsentative Schäden, Memorisierung und Schäden in großem Umfang einzuhalten. Neben robusten internen Bewertungen werden hier auch die Ergebnisse bekannter Sicherheits-Benchmarks wie BBQ, BOLD, Winogender, Winobias, RealToxicity und TruthfulQA angezeigt.

Gemma 1.0

Benchmark Messwert Gemma 1.0 IT 2B Gemma 1.0 IT 7B
RealToxicity Durchschnitt 6.86 7,90
FETT 45,57 49.08
CrowS-Paare top-1 45,82 51,33
BBQ Ambig 1-shot, top-1 62,58 92,54
BBQ Disambig top-1 54,62 71,99
Winogender top-1 51,25 54,17
TruthfulQA 44.84 31,81
Winobias 1_2 56,12 59,09
Winobias 2_2 91.10 92,23
Toxigen 29.77 39,59

Gemma 1.1

Benchmark Messwert Gemma 1.1 IT 2B Gemma 1.1 IT 7B
RealToxicity Durchschnitt 7.03 8.04
FETT 47,76
CrowS-Paare top-1 45,89 49,67
BBQ Ambig 1-shot, top-1 58,97 86,06
BBQ Disambig top-1 53,90 85,08
Winogender top-1 50.14 57,64
TruthfulQA 44.24 45.34
Winobias 1_2 55,93 59,22
Winobias 2_2 89,46 89,2
Toxigen 29,64 38,75

Nutzung und Einschränkungen

Diese Modelle haben bestimmte Einschränkungen, die Nutzer beachten sollten.

Verwendungszweck

Offene Large Language Models (LLMs) haben eine breite Palette von Anwendungen in verschiedenen Branchen und Bereichen. Die folgende Liste möglicher Verwendungen ist nicht vollständig. Diese Liste soll Kontextinformationen zu den möglichen Anwendungsfällen liefern, die die Ersteller des Modells im Rahmen der Modellschulung und -entwicklung berücksichtigt haben.

  • Erstellung von Inhalten und Kommunikation
    • Textgenerierung: Mit diesen Modellen können kreative Textformate wie Gedichte, Scripts, Code, Marketingtexte und E-Mail-Entwürfe generiert werden.
    • Chatbots und Conversational AI: Ermöglichen Konversationsschnittstellen für Kundenservice, virtuelle Assistenten oder interaktive Anwendungen.
    • Textzusammenfassung: Sie können kurze Zusammenfassungen eines Textkorpus, von Forschungsarbeiten oder Berichten erstellen.
  • Forschung und Bildung
    • Forschung zu Natural Language Processing (NLP): Diese Modelle können als Grundlage für Forscher dienen, um mit NLP-Techniken zu experimentieren, Algorithmen zu entwickeln und zur Weiterentwicklung des Fachgebiets beizutragen.
    • Tools zum Erlernen von Sprachen: Unterstützen interaktives Sprachenlernen, helfen bei der Grammatikkorrektur oder bieten Schreibübungen.
    • Wissensexploration: Hilft Forschern, große Textmengen zu untersuchen, indem Zusammenfassungen erstellt oder Fragen zu bestimmten Themen beantwortet werden.

Beschränkungen

  • Trainingsdaten
    • Die Qualität und Vielfalt der Trainingsdaten wirken sich erheblich auf die Fähigkeiten des Modells aus. Verzerrungen oder Lücken in den Trainingsdaten können zu Einschränkungen bei den Antworten des Modells führen.
    • Der Umfang des Trainingsdatensatzes bestimmt die Themenbereiche, die das Modell effektiv verarbeiten kann.
  • Kontext und Aufgabenkomplexität
    • LLMs eignen sich besser für Aufgaben, die mit klaren Prompts und Anweisungen formuliert werden können. Offene oder sehr komplexe Aufgaben können eine Herausforderung darstellen.
    • Die Leistung eines Modells kann durch die Menge des bereitgestellten Kontexts beeinflusst werden. Längerer Kontext führt in der Regel bis zu einem bestimmten Punkt zu besseren Ergebnissen.
  • Mehrdeutigkeit und Nuancen der Sprache
    • Die natürliche Sprache ist von Natur aus komplex. LLMs haben möglicherweise Schwierigkeiten, subtile Nuancen, Sarkasmus oder bildhafte Sprache zu verstehen.
  • Sachliche Richtigkeit
    • LLMs generieren Antworten basierend auf Informationen, die sie aus ihren Trainingsdatensätzen gelernt haben, sind aber keine Wissensdatenbanken. Sie können falsche oder veraltete Sachinformationen generieren.
  • Common Sense
    • LLMs basieren auf statistischen Mustern in der Sprache. Möglicherweise fehlt es ihnen in bestimmten Situationen an gesundem Menschenverstand.

Ethische Aspekte und Risiken

Die Entwicklung von Large Language Models (LLMs) wirft mehrere ethische Fragen auf. Bei der Entwicklung eines offenen Modells haben wir Folgendes sorgfältig berücksichtigt:

  • Voreingenommenheit und Fairness
    • LLMs, die mit großen Mengen an realen Textdaten trainiert wurden, können soziokulturelle Verzerrungen widerspiegeln, die im Trainingsmaterial enthalten sind. Diese Modelle wurden sorgfältig geprüft. Die Vorverarbeitung der Eingabedaten wird auf dieser Karte beschrieben und die nachfolgenden Bewertungen werden hier aufgeführt.
  • Fehlinformationen und Missbrauch
    • LLMs können missbraucht werden, um falsche, irreführende oder schädliche Texte zu generieren.
    • Im Responsible Generative AI Toolkit finden Sie Richtlinien für die verantwortungsvolle Verwendung des Modells.
  • Transparenz und Rechenschaftspflicht:
    • Auf dieser Modellkarte finden Sie Details zur Architektur, zu den Funktionen, zu den Einschränkungen und zu den Bewertungsverfahren der Modelle.
    • Ein verantwortungsvoll entwickeltes Open-Source-Modell bietet die Möglichkeit, Innovationen zu teilen, indem die LLM-Technologie für Entwickler und Forscher im gesamten KI-Ökosystem zugänglich gemacht wird.

Identifizierte Risiken und Risikominderungen:

  • Fortbestehende Voreingenommenheit: Es wird empfohlen, während des Modelltrainings, der Feinabstimmung und anderer Anwendungsfälle eine kontinuierliche Überwachung (mithilfe von Bewertungsmesswerten und manueller Überprüfung) durchzuführen und Methoden zur Beseitigung von Voreingenommenheit zu untersuchen.
  • Erstellung schädlicher Inhalte: Mechanismen und Richtlinien für die Sicherheit von Inhalten sind unerlässlich. Entwicklern wird empfohlen, mit Bedacht vorzugehen und geeignete Maßnahmen zur Sicherheit von Inhalten zu implementieren, die auf ihren spezifischen Produktrichtlinien und Anwendungsfällen basieren.
  • Missbrauch zu böswilligen Zwecken: Technische Einschränkungen und Aufklärung von Entwicklern und Endnutzern können dazu beitragen, die böswillige Verwendung von LLMs zu verringern. Es werden Informationsressourcen und Meldemechanismen bereitgestellt, mit denen Nutzer Missbrauch melden können. Unzulässige Verwendungen von Gemma-Modellen sind in der Richtlinie zur unzulässigen Nutzung von Gemma aufgeführt.
  • Verstöße gegen den Datenschutz: Die Modelle wurden mit Daten trainiert, die nach dem Entfernen personenidentifizierbarer Informationen gefiltert wurden. Entwickler werden aufgefordert, die Datenschutzbestimmungen mit datenschutzfreundlichen Verfahren einzuhalten.

Vorteile

Zum Zeitpunkt der Veröffentlichung bietet diese Modellfamilie im Vergleich zu Modellen ähnlicher Größe hochleistungsfähige Open-Source-Implementierungen von Large Language Models, die von Grund auf für die verantwortungsbewusste Entwicklung von KI entwickelt wurden.

Anhand der in diesem Dokument beschriebenen Benchmark-Bewertungsmesswerte haben diese Modelle eine bessere Leistung als andere Open-Source-Modelle mit vergleichbarer Größe gezeigt.