Gemma 2-Modellkarte

Model Page (Modellseite): Gemma

Ressourcen und technische Dokumentation:

Nutzungsbedingungen: Nutzungsbedingungen

Autoren: Google

Modellinformationen

Zusammenfassende Beschreibung und kurze Definition der Ein- und Ausgaben.

Beschreibung

Gemma ist eine Familie leichtgewichtiger, hochmoderner offener Modelle von Google, basieren auf derselben Forschung und Technologie, die auch für die Erstellung der Gemini-Modelle verwendet wurde. Es handelt sich um Large Language Models, die nur Text zu Text und Decoder verwenden, mit offenen Gewichtungen sowohl für vortrainierte als auch für auf Anweisung abgestimmte Varianten. Gemma-Modelle eignen sich gut für eine Vielzahl von Aufgaben zur Textgenerierung, darunter: das Beantworten von Fragen, Zusammenfassen und Schlussfolgern. Ihre relativ kleine Größe in Umgebungen mit begrenzten Ressourcen wie einen Laptop, Desktop-Computer oder Ihre eigene Cloud-Infrastruktur nutzen, hochmodernen KI-Modellen zu entwickeln und Innovationen für alle zu fördern.

Ein- und Ausgaben

  • Eingabe:Textstring, z. B. eine Frage, ein Prompt oder ein Dokument in der sie zusammengefasst sind.
  • Ausgabe:Generierter englischsprachiger Text als Antwort auf die Eingabe, z. B. als Antwort auf eine Frage oder als Zusammenfassung eines Dokuments.

Zitation

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

Modelldaten

Für das Modelltraining verwendete Daten und die Art und Weise, wie sie verarbeitet wurden.

Trainings-Dataset

Diese Modelle wurden mit einem Dataset von Textdaten trainiert, das eine Vielzahl von Quellen. Das 27B-Modell wurde mit 13 Billionen Tokens trainiert, das 9B-Modell wurde das Modell mit 8 Billionen Tokens und das 2-Milliarden-Modell mit 2 Billionen Tokens trainiert. Dies sind die Hauptkomponenten:

  • Webdokumente: Durch eine vielfältige Sammlung von Webtexten wird sichergestellt, dass das Modell exponiert ist. auf eine breite Palette linguistischer Stile, Themen und Vokabeln. Hauptsächlich englischsprachigen Inhalten.
  • Code: Wenn das Modell programmiert ist, kann es die Syntax und Muster von Programmiersprachen, die die Generierung von Code oder Code-bezogene Fragen zu verstehen.
  • Mathematik: Das Training von mathematischem Text hilft dem Modell, logisches Denken zu lernen. Logik, symbolische Darstellung und mathematische Abfragen.

Die Kombination dieser verschiedenen Datenquellen ist entscheidend für die Schulung eines Language Model, das eine Vielzahl verschiedener Aufgaben und Texte Formaten.

Datenvorverarbeitung

Dies sind die wichtigsten Methoden der Datenbereinigung und -filterung, die auf das Training angewendet werden. Daten:

  • Filtern von Darstellungen des sexuellen Missbrauchs von Kindern: Strenge Filterung über Darstellungen des sexuellen Missbrauchs von Kindern war die in mehreren Phasen des Datenvorbereitungsprozesses angewendet werden, Ausschluss schädlicher und illegaler Inhalte.
  • Filtern sensibler Daten: Damit vortrainierte Gemma-Modelle sicher und mithilfe von zuverlässigen, automatisierten Techniken bestimmte persönliche und andere sensible Daten aus Trainings-Datasets enthalten.
  • Zusätzliche Methoden: Filtern nach Qualität und Sicherheit von Inhalten gemäß unseren Richtlinien entsprechen.

Informationen zur Implementierung

Details zu den internen Strukturen des Modells.

Hardware

Gemma wurde mit der neuesten Generation von Tensor Processing Unit (TPU)-Hardware (TPUv5p).

Das Training von Large Language Models erfordert eine erhebliche Rechenleistung. TPUs die speziell für Matrixoperationen entwickelt wurden, die beim maschinellen Lernen üblich sind, bieten Vorteile in diesem Bereich:

  • Leistung: TPUs wurden speziell für die Verarbeitung umfangreicher Berechnungen entwickelt beim Training von LLMs. Sie können das Training erheblich beschleunigen als CPUs.
  • Arbeitsspeicher: TPUs haben häufig große Speicherkapazitäten mit hoher Bandbreite, für die Verarbeitung großer Modelle und Batchgrößen während des Trainings. Dies kann bessere Modellqualität.
  • Skalierbarkeit: TPU-Pods (große TPU-Cluster) bieten eine skalierbare Lösung für die wachsende Komplexität großer Foundation Models zu bewältigen. Sie können TPU-Geräte trainieren und so eine schnellere und effizientere Verarbeitung ermöglichen.
  • Kosteneffizienz: In vielen Szenarien können TPUs eine kostengünstigere Lösung bieten, zum Trainieren großer Modelle im Vergleich zu CPU-basierter Infrastruktur, besonders, wenn es um die Zeit- und Ressourcenersparnis geht, .
  • Diese Vorteile stimmen mit den Die Verpflichtung von Google zu nachhaltigem Betrieb.

Software

Das Training wurde mithilfe von JAX und ML Pathways durchgeführt.

Mit JAX können Forscher die neueste Hardware-Generation, einschließlich TPUs, um große Modelle schneller und effizienter zu trainieren.

ML Pathways ist das neueste Projekt von Google zur Entwicklung künstlich intelligenter Systeme. mehrere Aufgaben verallgemeinern können. Sie eignet sich besonders für Foundation Models, einschließlich Large Language Models wie diese.

Zusammen werden JAX- und ML-Pfade wie in den Artikel zur Gemini-Modellfamilie; „the 'Single Controller Programmiermodell von Jax und Pathways ermöglicht ein einzelnes Python- um den gesamten Trainingslauf zu orchestrieren, wodurch die Entwicklungs-Workflow".

Bewertung

Messwerte und Ergebnisse der Modellbewertung.

Benchmarkergebnisse

Diese Modelle wurden anhand einer großen Sammlung verschiedener Datasets Messwerte für verschiedene Aspekte der Textgenerierung:

Benchmark Messwert Gemma 2 PT 2B Gemma 2 PT 9B Gemma 2 PT 27B
MMLU 5-Aufnahmen, Top-1 51,3 71,3 75,2
HellaSwag 10-shot 73,0 81,9 86,4
PIQA 0-shot 77,8 81,7 83,2
SocialIQA 0-shot 51,9 53,4 53,7
BoolQ 0-shot 72,5 84,2 84,8
WinoGrande Teilbewertung 70,9 80,6 83,7
ARC-e 0-shot 80,1 88,0 88,6
ARC-c 25 Aufnahme 55,4 68,4 71,4
TriviaQA 5 Aufnahme 59,4 76,6 83,7
Natürliche Fragen 5 Aufnahme 16,7 29,2 34,5
HumanEval Bestanden@1 17.7 40,2 51,8
MBPP Drei Aufnahme 29,6 52,4 62,6
GSM8K 5-shot, maj@1 23,9 68,6 74,0
MATH 4 Aufnahme 15.0 36,6 42,3
AGIEval 3–5-Aufnahmen 30,6 52,8 55,1
DROP Drei Aufnahme, F1 52,0 69,4 72,2
BIG-Bench 3-shot, CoT 41,9 68,2 74,9

Ethik und Sicherheit

Ansatz und Ergebnisse der Ethik- und Sicherheitsbewertung

Bewertungsansatz

Zu unseren Bewertungsmethoden gehören strukturierte Bewertungen und internes Red Teaming Tests relevanter Inhaltsrichtlinien. Das Red-Team-Einsatz wurde von einer Reihe von Teams mit unterschiedlichen Zielen und Metriken für die menschliche Bewertung. Diese wurden die Modelle anhand verschiedener Kategorien bewertet, Ethik und Sicherheit, einschließlich:

  • Sicherheit von Text-zu-Text-Inhalten: Manuelle Überprüfung von Aufforderungen zur Sicherheit Richtlinien wie sexueller Missbrauch und Ausbeutung von Kindern, Belästigung und Gewalt und Blut und Hassrede.
  • Text-zu-Text-Darstellungen von Schäden: Benchmark mit relevanten akademischen Werten Datasets wie WinoBias und BBQ Dataset.
  • Erinnerung: Automatisierte Bewertung der Erinnerung von Trainingsdaten, einschließlich das Risiko der Offenlegung personenidentifizierbarer Informationen.
  • Erhebliche Schäden: Tests auf „gefährliche Funktionen“, wie chemische, chemische biologischen, radiologischen und nuklearen (CBRN) Risiken.

Bewertungsergebnisse

Die Ergebnisse der Ethik- und Sicherheitsbewertungen liegen innerhalb akzeptabler Grenzwerte um die internen Richtlinien für Kategorien wie „Kinder“ Sicherheit, Sicherheit von Inhalten, Schaden durch Repräsentation, Auswendiglernen, schwerwiegende Schäden. Neben soliden internen Bewertungen können bekannte Sicherheitsmechanismen Benchmarks wie BBQ, BOLD, Winogender, Winobias, RealToxicity und TruthfulQA werden hier angezeigt.

Gemma 2.0

Benchmark Messwert Gemma 2 IT 2B Gemma 2 IT 9B Gemma 2 IT 27B
RealToxicity Durchschnitt 8,16 8,25 8,84
Krähenpaare top-1 37,67 37,47 36,67
Barbecue Ambig Einzelaufnahme, Top-1 83,20 88,58 85,99
Unterscheidung zum Grillen top-1 69,31 82,67 86,94
Winogender top-1 52,91 79,17 77,22
TruthfulQA 43,72 50,27 51,60
Winobias 1_2 59,28 78,09 81,94
Winobias 2_2 88,57 95,32 97,22
Toxigen 48,32 39,30 38,42

Bewertung gefährlicher Fähigkeiten

Bewertungsansatz

Wir haben eine Reihe gefährlicher Fähigkeiten untersucht:

  • Anstößige Internetsicherheit:Damit lässt sich das Missbrauchspotenzial des Modells in Cybersicherheits-Kontexte zu lernen, nutzten wir sowohl öffentlich zugängliche CTF-Plattformen (Capture-the-Flag) wie InterCode-CTF und Hack the Box sowie intern entwickelte CTF-Herausforderungen. Diese Bewertungen messen die die Fähigkeit des Modells, Schwachstellen auszunutzen und sich unbefugten Zugriff simulierten Umgebungen.
  • Selbstverbreitung:Wir haben die Kapazität des Modells für durch die Entwicklung von Aufgaben, die den Erwerb von Ressourcen, Code Ausführung und Interaktion mit Remote-Systemen. Diese Bewertungen bewerten die Fähigkeit des Modells zur unabhängigen Replikation und Verteilung.
  • Persuasion: Damit wird die Fähigkeit des Modells zur Überzeugungsarbeit und Menschen Überzeugungsarbeit durchgeführt haben. Diese Studien umfassten Szenarien, die messen, ob das Modell eine Beziehung aufbauen, und bestimmte Handlungen von den Teilnehmenden herbeiführen.

Bewertungsergebnisse

Alle Bewertungen werden ausführlich beschrieben in Frontier-Modelle auf gefährliche Funktionen evaluieren und kurz in der Technischer Bericht zu Gemma 2

Bewertung Funktion Gemma 2 IT 27B
InterCode-CTF Anstößige Cybersicherheit Herausforderungen rund um die Uhr
Internes CTF Anstößige Cybersicherheit 1/13 Herausforderungen
Hack the Box Anstößige Cybersicherheit 0/13 Herausforderungen
Frühwarnung zur Selbstverbreitung Selbstverbreitung 1/10 Herausforderungen
Anstößiger Zauberspruch Überzeugungsarbeit Prozentsatz der Teilnehmenden, die zustimmen: Zu 81% interessant, 75% würden wieder sprechen, 80% stellten eine persönliche Verbindung her
Auf Links klicken Überzeugungsarbeit 34% der Teilnehmenden
Informationen suchen Überzeugungsarbeit 9% der Teilnehmenden
Code ausführen Überzeugungsarbeit 11% der Teilnehmenden
Money Talks Überzeugungsarbeit 3,72 £ Durchschnitt für Spende
Das Web der Lügen Überzeugungsarbeit 18% bedeuten eine Verschiebung hin zum richtigen Glauben, 1% die Verschiebung hin zu falsche Überzeugung

Verwendung und Einschränkungen

Diese Modelle unterliegen bestimmten Einschränkungen, die Nutzer kennen sollten.

Verwendungszweck

Offene Large Language Models (LLMs) bieten ein breites Spektrum an Anwendungen in Branchen und Domänen zu verstehen. Die folgende Liste möglicher Verwendungszwecke umfangreich. Diese Liste soll Kontextinformationen zu den möglichen Anwendungsfällen, die die Ersteller des Modells als Teil des Modells in Betracht gezogen haben. Schulung und Entwicklung.

  • Erstellung und Kommunikation von Inhalten
    • Textgenerierung: Mit diesen Modellen können kreative Textformate generiert werden. wie Gedichte, Skripte, Code, Marketingtexte und E-Mail-Entwürfe.
    • Chatbots und Conversational AI: Power Conversational Interfaces für Kunden virtuellen Assistenten oder interaktiven Anwendungen.
    • Textzusammenfassung: Kurze Zusammenfassungen eines Textkorpus, Forschungsergebnisses Artikel oder Berichte.
  • Forschung und Bildung
    • Forschung zur natürlichen Sprachverarbeitung (Natural Language Processing, NLP): Diese Modelle können als Grundlage für Forschende, die NLP-Techniken testen, und zur Weiterentwicklung dieses Gebiets beitragen.
    • Language Learning Tools: Unterstützen Sie interaktives Sprachenlernen, zur Korrektur der Grammatik oder zur Schreibübung.
    • Wissensforschung: Unterstützen Sie Forschende bei der Erkundung großer Textmengen. indem Sie Zusammenfassungen erstellen oder Fragen zu bestimmten Themen beantworten.

Beschränkungen

  • Trainingsdaten
    • Die Qualität und Vielfalt der Trainingsdaten beeinflussen die die Funktionen des Modells nutzen. Verzerrungen oder Lücken in den Trainingsdaten können zu Einschränkungen in den Modellantworten.
    • Der Umfang des Trainings-Datasets bestimmt die Themenbereiche, die das Modell verwenden kann. effektiv zu handhaben.
  • Kontext und Aufgabenkomplexität
    • LLMs sind besser bei Aufgaben, die sich klar und deutlich beschreiben lassen. Anleitung. Offene oder hochkomplexe Aufgaben können eine Herausforderung sein.
    • Die Leistung eines Modells kann durch den Umfang des bereitgestellten Kontexts beeinflusst werden. (längerer Kontext führt in der Regel bis zu einem bestimmten Punkt zu besseren Ergebnissen).
  • Ambiguität und Nuancen der Sprache
    • Natürliche Sprache ist von Natur aus komplex. LLMs haben vielleicht Schwierigkeiten, subtile zu verstehen. Nuancen, Sarkasmus oder symbolische Sprache gesprochen.
  • Sachgenauigkeit
    • LLMs generieren Antworten auf der Grundlage von Informationen, die sie aus ihren Trainings-Datasets, die aber keine Wissensdatenbanken sind. Sie generieren falsche oder veraltete Sachbeschreibungen.
  • Vernunft
    • LLMs stützen sich auf statistische Muster in der Sprache. Möglicherweise fehlt ihnen die Fähigkeit, um in bestimmten Situationen gesunde Begründungen anzuwenden.

Ethische Überlegungen und Risiken

Die Entwicklung von Large Language Models (LLMs) wirft mehrere ethische Bedenken auf. Bei der Erstellung eines offenen Modells haben wir Folgendes sorgfältig berücksichtigt:

  • Voreingenommenheit und Fairness
    • LLMs, die mit umfangreichen, realen Textdaten trainiert wurden, können soziokulturelle Voreingenommenheiten, die im Schulungsmaterial eingebettet sind. Diese Modelle wurden sorgfältig die Vorverarbeitung von Eingabedaten beschrieben und nachträgliche Bewertungen auf dieser Karte gemeldet.
  • Fehlinformationen und Missbrauch
    • LLMs können missbraucht werden, um falsch, irreführende oder schädliche Texte zu generieren.
    • Es werden Richtlinien für eine verantwortungsvolle Nutzung des Modells bereitgestellt, siehe Responsible Generative AI Toolkit
  • Transparenz und Rechenschaftspflicht:
    • Auf dieser Modellkarte sind Details zu den Architektur, Fähigkeiten, Grenzen und Bewertungsprozesse an.
    • Ein verantwortungsbewusst entwickeltes offenes Modell bietet die Möglichkeit, indem wir LLM-Technologie für Entwickelnde und Forschende zugänglich machen. im gesamten KI-Ökosystem.

Identifizierte Risiken und Minderungen:

  • Fortdauern von Voreingenommenheiten: Es wird empfohlen, eine kontinuierliche Überwachung durchzuführen. (anhand von Bewertungsmesswerten, manueller Überprüfung) und dem Erkunden von während des Modelltrainings, der Feinabstimmung und anderer Anwendungsfälle.
  • Erstellung schädlicher Inhalte: Mechanismen und Richtlinien für die Sicherheit von Inhalten sind entscheidend. Entwickler sollten vorsichtig sein und angemessene Sicherheitsmaßnahmen für Inhalte auf der Grundlage der jeweiligen Produktrichtlinien und Anwendungsanwendungsfällen.
  • Missbrauch für böswillige Zwecke: Technische Einschränkungen und Entwickler- und Endnutzer-Aufklärung können dazu beitragen, schädliche LLM-Anwendungen abzumildern. Bildungsressourcen und Meldemechanismen, mit denen Nutzer Missbrauch melden können, sind bereitgestellt. Die unzulässige Verwendung von Gemma-Modellen wird in den Richtlinie zur unzulässigen Nutzung von Gemma.
  • Datenschutzverstöße: Die Modelle wurden mit Daten trainiert, die zum Entfernen personenidentifizierbarer Informationen gefiltert wurden (Personenidentifizierbare Informationen). Entwickler sollten sich an die Datenschutzvorschriften mit datenschutzfreundlichen Methoden.

Vorteile

Zum Zeitpunkt der Veröffentlichung bietet diese Modellfamilie offene Large Language Models, die von Grund auf für Responsibles KI-Entwicklung im Vergleich zu Modellen ähnlicher Größe

Unter Verwendung der in diesem Dokument beschriebenen Benchmark-Bewertungsmesswerte haben nachgewiesen, dass sie eine bessere Leistung als andere offene Modelle in vergleichbarer Größe bieten. Alternativen.