Gemma-Modellkarte

Modellseite: Gemma

Ressourcen und technische Dokumentation:

Nutzungsbedingungen: Nutzungsbedingungen

Autoren: Google

Modellinformationen

Zusammenfassung und kurze Definition der Ein- und Ausgaben

Beschreibung

Gemma ist eine Familie leichter, hochmoderner offener Modelle von Google, die auf derselben Forschung und Technologie basieren, die auch für die Erstellung der Gemini-Modelle verwendet wurden. Es sind Text-zu-Text-, Decoder-basierte Large Language Models, die auf Englisch verfügbar sind und offene Gewichte, vortrainierte Varianten und auf die Anweisungen abgestimmte Varianten haben. Gemma-Modelle eignen sich gut für eine Vielzahl von Aufgaben zur Textgenerierung, einschließlich Fragenbeantwortung, Zusammenfassung und Logik. Ihre relativ kleine Größe ermöglicht es, sie in Umgebungen mit begrenzten Ressourcen wie einem Laptop, Computer oder Ihrer eigenen Cloud-Infrastruktur bereitzustellen. Dadurch wird der Zugriff auf hochmoderne KI-Modelle demokratisiert und Innovationen für alle gefördert.

Ein- und Ausgaben

  • Eingabe: Textstring, z. B. eine Frage, eine Aufforderung oder ein Dokument, das zusammengefasst werden soll.
  • Ausgabe:Als Antwort auf die Eingabe wird englischsprachiger Text generiert, z. B. eine Antwort auf eine Frage oder eine Zusammenfassung eines Dokuments.

Zitation

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
    year={2024}
}

Modelldaten

Für das Modelltraining verwendete Daten und die Art und Weise, wie die Daten verarbeitet wurden.

Trainings-Dataset

Diese Modelle wurden mit einem Dataset von Textdaten trainiert, das eine Vielzahl von Quellen mit insgesamt 6 Billionen Tokens umfasst. Dies sind die Hauptkomponenten:

  • Webdokumente: Eine vielfältige Sammlung von Webtexten sorgt dafür, dass das Modell einer Vielzahl von linguistischen Stilen, Themen und Vokabeln ausgesetzt ist. Hauptsächlich englischsprachige Inhalte.
  • Code: Wenn das Modell Code zur Verfügung gestellt wird, kann es die Syntax und die Muster von Programmiersprachen erlernen, wodurch seine Fähigkeit verbessert wird, Code zu generieren oder codebezogene Fragen zu verstehen.
  • Mathematik: Das Training mit mathematischem Text hilft dem Modell, logisches Denken und symbolische Darstellung zu erlernen und mathematische Fragen zu beantworten.

Die Kombination dieser verschiedenen Datenquellen ist entscheidend, um ein leistungsstarkes Sprachmodell zu trainieren, das eine Vielzahl verschiedener Aufgaben und Textformate verarbeiten kann.

Datenvorverarbeitung

Dies sind die wichtigsten Datenbereinigungs- und Filtermethoden, die auf die Trainingsdaten angewendet werden:

  • Filterung von Darstellungen des sexuellen Missbrauchs von Kindern: Der strenge Filter für Darstellungen des sexuellen Missbrauchs von Kindern wurde in mehreren Phasen der Datenvorbereitung angewendet, um den Ausschluss schädlicher und illegaler Inhalte sicherzustellen.
  • Filterung sensibler Daten: Damit vortrainierte Gemma-Modelle sicher und zuverlässig sind, wurden automatisierte Techniken verwendet, um bestimmte personenbezogene Daten und andere sensible Daten aus Trainings-Datasets herauszufiltern.
  • Zusätzliche Methoden: Filtern nach Qualität und Sicherheit der Inhalte gemäß unseren Richtlinien.

Informationen zur Implementierung

Details zu den internen Strukturen des Modells.

Hardware

Gemma wurde mit der neuesten Generation von Tensor Processing Unit (TPU)-Hardware (TPUv5e) trainiert.

Das Training von Large Language Models erfordert eine erhebliche Rechenleistung. TPUs, die speziell für die beim maschinellen Lernen üblichen Matrixvorgänge entwickelt wurden, bieten in diesem Bereich mehrere Vorteile:

  • Leistung: TPUs wurden speziell für die Verarbeitung der umfangreichen Berechnungen entwickelt, die zum Trainieren von LLMs erforderlich sind. Sie können das Training im Vergleich zu CPUs erheblich beschleunigen.
  • Speicher: TPUs verfügen oft über große Mengen an Arbeitsspeicher mit hoher Bandbreite, sodass große Modelle und Batchgrößen während des Trainings verarbeitet werden können. Dies kann zu einer besseren Modellqualität führen.
  • Skalierbarkeit: TPU-Pods (große TPU-Cluster) bieten eine skalierbare Lösung, um die wachsende Komplexität großer Foundation Models zu bewältigen. Sie können das Training auf mehrere TPU-Geräte verteilen, um eine schnellere und effizientere Verarbeitung zu ermöglichen.
  • Kosteneffizienz: In vielen Szenarien können TPUs eine kostengünstigere Lösung zum Trainieren großer Modelle im Vergleich zur CPU-basierten Infrastruktur bereitstellen, insbesondere wenn man berücksichtigt, wie viel Zeit und Ressourcen durch ein schnelleres Training eingespart werden können.
  • Diese Vorteile stehen im Einklang mit den Verpflichtungen von Google für einen nachhaltigen Betrieb.

Software

Das Training erfolgte mit JAX und ML Pathways.

Mit JAX können Forscher die neueste Hardwaregeneration, einschließlich TPUs, für ein schnelleres und effizienteres Training großer Modelle nutzen.

ML Pathways ist das neueste Projekt von Google zur Erstellung künstlich intelligenter Systeme, die in der Lage sind, mehrere Aufgaben zu verallgemeinern. Diese eignet sich besonders für Foundation Models, einschließlich Large Language Models wie diesen.

Gemeinsam werden JAX- und ML-Pfade verwendet, wie im Artikel über die Gemini-Modellfamilie beschrieben. „Das Programmiermodell mit einzelnem Controller von Jax und Pfaden ermöglicht einen einzigen Python-Prozess, um den gesamten Trainingslauf zu orchestrieren, was den Entwicklungsworkflow erheblich vereinfacht.“

Bewertung

Messwerte und Ergebnisse für die Modellbewertung.

Benchmarkergebnisse

Diese Modelle wurden anhand einer großen Sammlung verschiedener Datasets und Messwerte bewertet, um verschiedene Aspekte der Textgenerierung abzudecken:

Benchmark Messwert Gemma PT 2B Gemma PT 7B
MMLU 5-shot, Top-1 42,3 64,3
HellaSwag 0-Shot 71,4 81,2
PIQA 0-Shot 77,3 81,2
SocialIQA 0-Shot 49,7 51,8
BoolQ 0-Shot 69,4 83,2
WinoGrande Teilbewertung 65,4 72,3
CommonsenseQA 7-shot 65,3 71,3
OpenBookQA 47,8 52,8
ARC-e 73,2 81,5
ARC-C 42,1 53,2
TriviaQA 5-Shot 53,2 63,4
Natürliche Fragen 5-Shot 12,5 23,0
HumanEval Pass@1 22 32,3
MBPP 3-Aufnahme 29,2 44,4
GSM8K Maj@1 17.7 46,4
MATH 4-Shot 11.8 24,3
AGIEval 24,2 41,7
BIG-Bench 35,2 55,1
Durchschnitt 44,9 56,40

Ethik und Sicherheit

Ansatz und Ergebnisse der Bewertung von Ethik und Sicherheit

Bewertungsansatz

Unsere Bewertungsmethoden umfassen strukturierte Auswertungen und interne Red-Team-Tests relevanter Inhaltsrichtlinien. Red-Team-Einsätze wurden von verschiedenen Teams durchgeführt, die jeweils unterschiedliche Ziele und menschliche Bewertungsmesswerte verfolgten. Diese Modelle wurden anhand verschiedener Kategorien bewertet, die für Ethik und Sicherheit relevant sind, darunter:

  • Sicherheit von Text-to-Text-Inhalten: Manuelle Überprüfung von Prompts zu Sicherheitsrichtlinien, einschließlich des sexuellen Missbrauchs und der Ausbeutung von Kindern, Belästigung, Gewalt und Blut sowie Hassrede.
  • Text-to-Text-Darstellungen von Harms: Benchmarking anhand relevanter akademischer Datasets wie WinoBias und BBQ-Dataset.
  • Auswendiglernen: Automatisierte Bewertung des Merkens von Trainingsdaten, einschließlich des Risikos der Offenlegung personenidentifizierbarer Informationen.
  • Schwerwiegende Schäden: Tests auf „gefährliche Ressourcen“ wie chemische, biologische, radiologische und nukleare Risiken (CBRN)

Bewertungsergebnisse

Die Ergebnisse von Bewertungen zu Ethik und Sicherheit liegen innerhalb akzeptabler Grenzwerte, wenn es um die Erfüllung interner Richtlinien für Kategorien wie Kinderschutz, Sicherheit von Inhalten, Darstellungsschäden, Auswendiglernen und schwerwiegende Schäden geht. Zusätzlich zu zuverlässigen internen Bewertungen werden hier die Ergebnisse bekannter Sicherheits-Benchmarks wie BBQ, BOLD, Winogender, Winobias, RealToxicity und TruthfulQA angezeigt.

Gemma 1.0

Benchmark Messwert Gemma 1.0 IT 2B Gemma 1.0 IT 7B
RealToxicity Durchschnitt 6,86 7,90
FETT 45,57 49,08
Krähen-Paare top-1 45,82 51,33
BBQ Ambig 1-Shot, Top-1 62,58 92,54
Grillparty top-1 54,62 71,99
Winogender top-1 51,25 54,17
TruthfulQA 44,84 31,81
Winobias 1_2 56,12 59,09
Winobias 2_2 91,10 92,23
Toxigen 29.77 39,59

Gemma 1.1

Benchmark Messwert Gemma 1.1 IT 2B Gemma 1.1 IT 7B
RealToxicity Durchschnitt 7,03 8,04
FETT 47,76
Krähen-Paare top-1 45,89 49,67
BBQ Ambig 1-Shot, Top-1 58,97 86,06
Grillparty top-1 53,90 85,08
Winogender top-1 50,14 57,64
TruthfulQA 44,24 45,34
Winobias 1_2 55,93 59,22
Winobias 2_2 89,46 89,2
Toxigen 29,64 38,75

Nutzung und Einschränkungen

Diese Modelle unterliegen bestimmten Einschränkungen, deren Nutzer sich bewusst sein sollten.

Verwendungszweck

Open Large Language Models (LLMs) haben ein breites Spektrum an Anwendungen in verschiedenen Branchen und Domains. Die folgende Liste möglicher Anwendungsfälle ist nicht vollständig. Mit dieser Liste erhalten Sie Kontextinformationen zu den möglichen Anwendungsfällen, die die Modellersteller im Rahmen des Modelltrainings und der Modellentwicklung in Betracht gezogen haben.

  • Erstellen von Inhalten und Kommunikation
    • Textgenerierung: Mit diesen Modellen können kreative Textformate wie Gedichte, Skripte, Code, Marketingtexte und E-Mail-Entwürfe generiert werden.
    • Chatbots und Conversational AI: Ermöglichen Sie dialogorientierte Schnittstellen für den Kundenservice, virtuelle Assistenten oder interaktive Anwendungen.
    • Textzusammenfassung: Erstellen Sie prägnante Zusammenfassungen eines Textkorpus, von Forschungsarbeiten oder Berichten.
  • Forschung und Bildung
    • Forschung zu Natural Language Processing (NLP): Diese Modelle können als Grundlage für Forschende dienen, mit NLP-Techniken zu experimentieren, Algorithmen zu entwickeln und zum Fortschritt in diesem Gebiet beizutragen.
    • Language Learning Tools (Sprachlerntools): Sie unterstützen interaktives Sprachenlernen, unterstützen die Grammatikkorrektur oder bieten Schreibübungen.
    • Wissensexploration: Unterstützen Sie Forscher bei der Untersuchung von großen Textpassagen, indem Sie Zusammenfassungen erstellen oder Fragen zu bestimmten Themen beantworten.

Beschränkungen

  • Trainingsdaten
    • Die Qualität und Vielfalt der Trainingsdaten wirkt sich erheblich auf die Funktionen des Modells aus. Verzerrungen oder Lücken in den Trainingsdaten können zu Einschränkungen der Antworten des Modells führen.
    • Der Umfang des Trainings-Datasets bestimmt, welche Themenbereiche das Modell effektiv bearbeiten kann.
  • Kontext und Komplexität der Aufgaben
    • LLMs eignen sich besser für Aufgaben, die mit klaren Aufforderungen und Anweisungen umrahmt werden können. Offene oder hochkomplexe Aufgaben können eine Herausforderung darstellen.
    • Die Leistung eines Modells kann durch den Umfang des bereitgestellten Kontextes beeinflusst werden. Ein längerer Kontext führt in der Regel bis zu einem bestimmten Punkt zu besseren Ausgaben.
  • Ambiguität und Abstufung der Sprache
    • Natürliche Sprache ist von Natur aus komplex. LLMs haben manchmal Schwierigkeiten, feine Nuancen, Sarkasmus oder symbolische Sprache zu verstehen.
  • Sachliche Richtigkeit
    • LLMs generieren Antworten auf der Grundlage von Informationen, die sie aus ihren Trainings-Datasets gewonnen haben, sind aber keine Wissensdatenbanken. Sie können falsche oder veraltete Faktenaussagen enthalten.
  • gesunder Menschenverstand
    • LLMs stützen sich auf statistische Muster in der Sprache. Möglicherweise sind sie in bestimmten Situationen nicht in der Lage, gesunden Menschenverstand anzuwenden.

Ethische Überlegungen und Risiken

Die Entwicklung von Large Language Models (LLMs) wirft mehrere ethische Bedenken auf. Bei der Erstellung eines offenen Modells haben wir Folgendes sorgfältig bedacht:

  • Voreingenommenheit und Fairness
    • LLMs, die mit umfangreichen Textdaten aus der realen Welt trainiert wurden, können soziokulturelle Voreingenommenheiten widerspiegeln, die im Schulungsmaterial eingebettet sind. Diese Modelle wurden sorgfältig geprüft, wie die beschriebene Vorverarbeitung von Eingabedaten und die nachfolgenden Bewertungen, die in dieser Karte aufgezeichnet wurden.
  • Fehlinformationen und Missbrauch
    • LLMs können missbraucht werden, um falschen, irreführenden oder schädlichen Text zu generieren.
    • Richtlinien für die verantwortungsvolle Verwendung des Modells finden Sie im Responsible Generative AI Toolkit.
  • Transparenz und Rechenschaftspflicht:
    • Auf dieser Modellkarte werden Details zur Architektur, zu den Funktionen, Beschränkungen und Bewertungsprozessen des Modells zusammengefasst.
    • Ein verantwortungsbewusst entwickeltes offenes Modell bietet die Möglichkeit, Innovationen zu teilen, indem die LLM-Technologie für Entwickler und Forschende in der KI-Umgebung zugänglich gemacht wird.

Identifizierte Risiken und Minderung:

  • Beibehaltung von Verzerrungen: Es wird empfohlen, ein kontinuierliches Monitoring (mithilfe von Bewertungsmesswerten, manuelle Überprüfung) und die Erkundung von De-Verzerrungstechniken beim Modelltraining, bei der Feinabstimmung und in anderen Anwendungsfällen durchzuführen.
  • Erstellung schädlicher Inhalte: Mechanismen und Richtlinien für die Sicherheit von Inhalten sind unerlässlich. Entwickler sollten daher vorsichtig sein und angemessene Sicherheitsmaßnahmen für Inhalte auf der Grundlage ihrer spezifischen Produktrichtlinien und Anwendungsfälle implementieren.
  • Missbrauch für böswillige Zwecke: Technische Einschränkungen und die Schulung von Entwicklern und Endnutzern können dazu beitragen, die Vorbeugung gegen schädliche Anwendungen von LLMs zu verhindern. Es stehen Informationsressourcen und Meldemechanismen zur Verfügung, mit denen Nutzer Missbrauch melden können. Die unzulässige Verwendung von Gemma-Modellen wird in der Richtlinie zur unzulässigen Nutzung von Gemma beschrieben.
  • Datenschutzverstöße: Modelle wurden mit Daten trainiert, die gefiltert wurden, um personenidentifizierbare Informationen zu entfernen. Entwickler werden dazu angehalten, die Datenschutzbestimmungen mit datenschutzfreundlichen Verfahren einzuhalten.

Vorteile

Zum Zeitpunkt der Veröffentlichung bietet diese Modellfamilie im Vergleich zu Modellen ähnlicher Größe leistungsstarke Open-Large-Language-Modellimplementierungen, die von Grund auf für die Entwicklung verantwortungsbewusster KI entwickelt wurden.

Anhand der in diesem Dokument beschriebenen Benchmark-Bewertungsmesswerte haben sich herausgestellt, dass diese Modelle im Vergleich zu anderen, vergleichbaren offenen Modellalternativen eine bessere Leistung bieten.