Gemma-Modellkarte

Model Page (Modellseite): Gemma

Ressourcen und technische Dokumentation:

Nutzungsbedingungen: Nutzungsbedingungen

Autoren: Google

Modellinformationen

Zusammenfassende Beschreibung und kurze Definition der Ein- und Ausgaben.

Beschreibung

Gemma ist eine Familie leichtgewichtiger, hochmoderner offener Modelle von Google, basieren auf derselben Forschung und Technologie, die auch für die Erstellung der Gemini-Modelle verwendet wurde. Es handelt sich um Large Language Models, die nur Text zu Text und Decoder verwenden, mit offenen Gewichten, vortrainierten Varianten und auf Anweisungen abgestimmten Varianten. Gemma Modelle eignen sich gut für eine Vielzahl von Textgenerierungsaufgaben, einschließlich das Beantworten von Fragen, Zusammenfassen und Schlussfolgern. Ihre relativ kleine Größe in Umgebungen mit begrenzten Ressourcen wie einen Laptop, Desktop-Computer oder Ihre eigene Cloud-Infrastruktur nutzen, hochmodernen KI-Modellen zu entwickeln und Innovationen für alle zu fördern.

Ein- und Ausgaben

  • Eingabe:Textstring, z. B. eine Frage, ein Prompt oder ein Dokument in der sie zusammengefasst sind.
  • Ausgabe:Generierter englischsprachiger Text als Antwort auf die Eingabe, z. B. als Antwort auf eine Frage oder als Zusammenfassung eines Dokuments.

Zitation

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
    year={2024}
}

Modelldaten

Für das Modelltraining verwendete Daten und die Art und Weise, wie sie verarbeitet wurden.

Trainings-Dataset

Diese Modelle wurden mit einem Dataset von Textdaten trainiert, das eine Vielzahl insgesamt 6 Billionen Tokens. Dies sind die Hauptkomponenten:

  • Webdokumente: Durch eine vielfältige Sammlung von Webtexten wird sichergestellt, dass das Modell exponiert ist. auf eine breite Palette linguistischer Stile, Themen und Vokabeln. Hauptsächlich englischsprachigen Inhalten.
  • Code: Wenn das Modell programmiert ist, kann es die Syntax und Muster von Programmiersprachen, die die Generierung von Code oder Code-bezogene Fragen zu verstehen.
  • Mathematik: Das Training von mathematischem Text hilft dem Modell, logisches Denken zu lernen. Logik, symbolische Darstellung und mathematische Abfragen.

Die Kombination dieser verschiedenen Datenquellen ist entscheidend für die Schulung eines Language Model, das eine Vielzahl verschiedener Aufgaben und Texte Formaten.

Datenvorverarbeitung

Dies sind die wichtigsten Methoden der Datenbereinigung und -filterung, die auf das Training angewendet werden. Daten:

  • Filtern von Darstellungen des sexuellen Missbrauchs von Kindern: Strenge Filterung über Darstellungen des sexuellen Missbrauchs von Kindern war die in mehreren Phasen des Datenvorbereitungsprozesses angewendet werden, Ausschluss schädlicher und illegaler Inhalte.
  • Filtern sensibler Daten: Damit vortrainierte Gemma-Modelle sicher und mithilfe von zuverlässigen, automatisierten Techniken bestimmte persönliche und andere sensible Daten aus Trainings-Datasets enthalten.
  • Zusätzliche Methoden: Filtern nach Qualität und Sicherheit von Inhalten gemäß unseren Richtlinien entsprechen.

Informationen zur Implementierung

Details zu den internen Strukturen des Modells.

Hardware

Gemma wurde mit der neuesten Generation von TPU-Hardware (Tensor Processing Unit) (TPUv5e):

Das Training von Large Language Models erfordert eine erhebliche Rechenleistung. TPUs die speziell für Matrixoperationen entwickelt wurden, die beim maschinellen Lernen üblich sind, bieten Vorteile in diesem Bereich:

  • Leistung: TPUs wurden speziell für die Verarbeitung umfangreicher Berechnungen entwickelt beim Training von LLMs. Sie können das Training erheblich beschleunigen als CPUs.
  • Arbeitsspeicher: TPUs haben häufig große Speicherkapazitäten mit hoher Bandbreite, für die Verarbeitung großer Modelle und Batchgrößen während des Trainings. Dies kann bessere Modellqualität.
  • Skalierbarkeit: TPU-Pods (große TPU-Cluster) bieten eine skalierbare Lösung für die wachsende Komplexität großer Foundation Models zu bewältigen. Sie können TPU-Geräte trainieren und so eine schnellere und effizientere Verarbeitung ermöglichen.
  • Kosteneffizienz: In vielen Szenarien können TPUs eine kostengünstigere Lösung bieten, zum Trainieren großer Modelle im Vergleich zu CPU-basierter Infrastruktur, besonders, wenn es um die Zeit- und Ressourcenersparnis geht, .
  • Diese Vorteile stimmen mit den Die Verpflichtung von Google zu nachhaltigem Betrieb.

Software

Das Training wurde mithilfe von JAX und ML Pathways durchgeführt.

Mit JAX können Forscher die neueste Hardware-Generation, einschließlich TPUs, um große Modelle schneller und effizienter zu trainieren.

ML Pathways ist das neueste Projekt von Google zur Entwicklung künstlich intelligenter Systeme. mehrere Aufgaben verallgemeinern können. Sie eignet sich besonders für Foundation Models, einschließlich Large Language Models wie diese.

Zusammen werden JAX- und ML-Pfade wie in den Artikel zur Gemini-Modellfamilie; „the 'Single Controller Programmiermodell von Jax und Pathways ermöglicht ein einzelnes Python- um den gesamten Trainingslauf zu orchestrieren, wodurch die Entwicklungs-Workflow".

Bewertung

Messwerte und Ergebnisse der Modellbewertung.

Benchmarkergebnisse

Diese Modelle wurden anhand einer großen Sammlung verschiedener Datasets Messwerte für verschiedene Aspekte der Textgenerierung:

Benchmark Messwert Gemma PT 2B Gemma PT 7B
MMLU 5-Aufnahmen, Top-1 42,3 64,3
HellaSwag 0-shot 71,4 81,2
PIQA 0-shot 77,3 81,2
SocialIQA 0-shot 49,7 51,8
BoolQ 0-shot 69,4 83,2
WinoGrande Teilbewertung 65,4 72,3
CommonsenseQA 7 Aufnahme 65,3 71,3
OpenBookQA 47,8 52,8
ARC-e 73,2 81,5
ARC-c 42,1 53,2
TriviaQA 5 Aufnahme 53,2 63,4
Natürliche Fragen 5 Aufnahme 12,5 23,0
HumanEval Bestanden@1 22,0 32,3
MBPP Drei Aufnahme 29,2 44,4
GSM8K maj@1 17.7 46,4
MATH 4 Aufnahme 11.8 24,3
AGIEval 24,2 41,7
BIG-Bench 35,2 55,1
Durchschnitt 44,9 56,4

Ethik und Sicherheit

Ansatz und Ergebnisse der Ethik- und Sicherheitsbewertung

Bewertungsansatz

Zu unseren Bewertungsmethoden gehören strukturierte Bewertungen und internes Red Teaming Tests relevanter Inhaltsrichtlinien. Das Red-Team-Einsatz wurde von einer Reihe von Teams mit unterschiedlichen Zielen und Metriken für die menschliche Bewertung. Diese wurden die Modelle anhand verschiedener Kategorien bewertet, Ethik und Sicherheit, einschließlich:

  • Sicherheit von Text-zu-Text-Inhalten: Manuelle Überprüfung von Aufforderungen zur Sicherheit Richtlinien wie sexueller Missbrauch und Ausbeutung von Kindern, Belästigung und Gewalt und Blut und Hassrede.
  • Text-zu-Text-Darstellungen von Schäden: Benchmark mit relevanten akademischen Werten Datasets wie WinoBias und BBQ Dataset.
  • Erinnerung: Automatisierte Bewertung der Erinnerung von Trainingsdaten, einschließlich das Risiko der Offenlegung personenidentifizierbarer Informationen.
  • Erhebliche Schäden: Tests auf „gefährliche Funktionen“, wie chemische, chemische biologischen, radiologischen und nuklearen (CBRN) Risiken.

Bewertungsergebnisse

Die Ergebnisse der Ethik- und Sicherheitsbewertungen liegen innerhalb akzeptabler Grenzwerte um die internen Richtlinien für Kategorien wie „Kinder“ Sicherheit, Sicherheit von Inhalten, Schaden durch Repräsentation, Auswendiglernen, schwerwiegende Schäden. Neben soliden internen Bewertungen Benchmarks wie BBQ, BOLD, Winogender, Winobias, RealToxicity und TruthfulQA werden hier angezeigt.

Gemma 1.0

Benchmark Messwert Gemma 1.0 IT 2B Gemma 1.0 IT 7B
RealToxicity Durchschnitt 6,86 7,90
BOLD 45,57 49,08
Krähenpaare top-1 45,82 51,33
Barbecue Ambig Einzelaufnahme, Top-1 62,58 92,54
Unterscheidung zum Grillen top-1 54,62 71,99
Winogender top-1 51,25 54,17
TruthfulQA 44,84 31,81
Winobias 1_2 56,12 59,09
Winobias 2_2 91,10 92,23
Toxigen 29.77 39,59

Gemma 1.1

Benchmark Messwert Gemma 1.1 IT 2B Gemma 1.1 IT 7B
RealToxicity Durchschnitt 7,03 8,04
BOLD 47,76
Krähenpaare top-1 45,89 49,67
Barbecue Ambig Einzelaufnahme, Top-1 58,97 86,06
Unterscheidung zum Grillen top-1 53,90 85,08
Winogender top-1 50,14 57,64
TruthfulQA 44,24 45,34
Winobias 1_2 55,93 59,22
Winobias 2_2 89,46 89,2
Toxigen 29,64 38,75

Verwendung und Einschränkungen

Diese Modelle unterliegen bestimmten Einschränkungen, die Nutzer kennen sollten.

Verwendungszweck

Offene Large Language Models (LLMs) bieten ein breites Spektrum an Anwendungen in Branchen und Domänen zu verstehen. Die folgende Liste möglicher Verwendungszwecke umfangreich. Diese Liste soll Kontextinformationen zu den möglichen Anwendungsfällen, die die Ersteller des Modells als Teil des Modells in Betracht gezogen haben. Schulung und Entwicklung.

  • Erstellung und Kommunikation von Inhalten
    • Textgenerierung: Mit diesen Modellen können kreative Textformate generiert werden. wie Gedichte, Skripte, Code, Marketingtexte und E-Mail-Entwürfe.
    • Chatbots und Conversational AI: Power Conversational Interfaces für Kunden virtuellen Assistenten oder interaktiven Anwendungen.
    • Textzusammenfassung: Kurze Zusammenfassungen eines Textkorpus, Forschungsergebnisses Artikel oder Berichte.
  • Forschung und Bildung
    • Forschung zur natürlichen Sprachverarbeitung (Natural Language Processing, NLP): Diese Modelle können als Grundlage für Forschende, die NLP-Techniken testen, und zur Weiterentwicklung dieses Gebiets beitragen.
    • Language Learning Tools: Unterstützen Sie interaktives Sprachenlernen, zur Korrektur der Grammatik oder zur Schreibübung.
    • Wissensforschung: Unterstützen Sie Forschende bei der Erkundung großer Textmengen. indem Sie Zusammenfassungen erstellen oder Fragen zu bestimmten Themen beantworten.

Beschränkungen

  • Trainingsdaten
    • Die Qualität und Vielfalt der Trainingsdaten beeinflussen die die Funktionen des Modells nutzen. Verzerrungen oder Lücken in den Trainingsdaten können zu Einschränkungen in den Modellantworten.
    • Der Umfang des Trainings-Datasets bestimmt die Themenbereiche, die das Modell verwenden kann. effektiv zu handhaben.
  • Kontext und Aufgabenkomplexität
    • LLMs sind besser bei Aufgaben, die sich klar und deutlich beschreiben lassen. Anleitung. Offene oder hochkomplexe Aufgaben können eine Herausforderung sein.
    • Die Leistung eines Modells kann durch den Umfang des bereitgestellten Kontexts beeinflusst werden. (längerer Kontext führt in der Regel bis zu einem bestimmten Punkt zu besseren Ergebnissen).
  • Ambiguität und Nuancen der Sprache
    • Natürliche Sprache ist von Natur aus komplex. LLMs haben vielleicht Schwierigkeiten, subtile zu verstehen. Nuancen, Sarkasmus oder symbolische Sprache gesprochen.
  • Sachgenauigkeit
    • LLMs generieren Antworten auf der Grundlage von Informationen, die sie aus ihren Trainings-Datasets, die aber keine Wissensdatenbanken sind. Sie generieren falsche oder veraltete Sachbeschreibungen.
  • Vernunft
    • LLMs stützen sich auf statistische Muster in der Sprache. Möglicherweise fehlt ihnen die Fähigkeit, um in bestimmten Situationen gesunde Begründungen anzuwenden.

Ethische Überlegungen und Risiken

Die Entwicklung von Large Language Models (LLMs) wirft mehrere ethische Bedenken auf. Bei der Erstellung eines offenen Modells haben wir Folgendes sorgfältig berücksichtigt:

  • Voreingenommenheit und Fairness
    • LLMs, die mit umfangreichen, realen Textdaten trainiert wurden, können soziokulturelle Voreingenommenheiten, die im Schulungsmaterial eingebettet sind. Diese Modelle wurden sorgfältig die Vorverarbeitung von Eingabedaten beschrieben und nachträgliche Bewertungen auf dieser Karte gemeldet.
  • Fehlinformationen und Missbrauch
    • LLMs können missbraucht werden, um falsch, irreführende oder schädliche Texte zu generieren.
    • Es werden Richtlinien für eine verantwortungsvolle Nutzung des Modells bereitgestellt, siehe Responsible Generative AI Toolkit
  • Transparenz und Rechenschaftspflicht:
    • Auf dieser Modellkarte sind Details zu den Architektur, Fähigkeiten, Grenzen und Bewertungsprozesse an.
    • Ein verantwortungsbewusst entwickeltes offenes Modell bietet die Möglichkeit, indem wir LLM-Technologie für Entwickelnde und Forschende zugänglich machen. im gesamten KI-Ökosystem.

Identifizierte Risiken und Minderungen:

  • Fortdauern von Voreingenommenheiten: Es wird empfohlen, eine kontinuierliche Überwachung durchzuführen. (anhand von Bewertungsmesswerten, manueller Überprüfung) und dem Erkunden von während des Modelltrainings, der Feinabstimmung und anderer Anwendungsfälle.
  • Erstellung schädlicher Inhalte: Mechanismen und Richtlinien für die Sicherheit von Inhalten sind entscheidend. Entwickler sollten vorsichtig sein und angemessene Sicherheitsmaßnahmen für Inhalte auf der Grundlage der jeweiligen Produktrichtlinien und Anwendungsanwendungsfällen.
  • Missbrauch für böswillige Zwecke: Technische Einschränkungen und Entwickler- und Endnutzer-Aufklärung können dazu beitragen, schädliche LLM-Anwendungen abzumildern. Bildungsressourcen und Meldemechanismen, mit denen Nutzer Missbrauch melden können, sind bereitgestellt. Die unzulässige Verwendung von Gemma-Modellen wird in den Richtlinie zur unzulässigen Nutzung von Gemma.
  • Datenschutzverstöße: Die Modelle wurden mit Daten trainiert, die zum Entfernen personenidentifizierbarer Informationen gefiltert wurden (Personenidentifizierbare Informationen). Entwickler sollten sich an die Datenschutzvorschriften mit datenschutzfreundlichen Methoden.

Vorteile

Zum Zeitpunkt der Veröffentlichung bietet diese Modellfamilie offene Large Language Models, die von Grund auf für Responsibles KI-Entwicklung im Vergleich zu Modellen ähnlicher Größe

Unter Verwendung der in diesem Dokument beschriebenen Benchmark-Bewertungsmesswerte haben nachgewiesen, dass sie eine bessere Leistung als andere offene Modelle in vergleichbarer Größe bieten. Alternativen.