Modellseite: Gemma
Ressourcen und technische Dokumentation:
Nutzungsbedingungen: Nutzungsbedingungen
Autoren: Google
Modellinformationen
Zusammenfassung und kurze Definition der Ein- und Ausgaben
Beschreibung
Gemma ist eine Familie leichter, hochmoderner offener Modelle von Google, die auf derselben Forschung und Technologie basieren, die auch für die Erstellung der Gemini-Modelle verwendet wurden. Es sind Text-zu-Text-, Decoder-basierte Large Language Models, die auf Englisch verfügbar sind und offene Gewichte, vortrainierte Varianten und auf die Anweisungen abgestimmte Varianten haben. Gemma-Modelle eignen sich gut für eine Vielzahl von Aufgaben zur Textgenerierung, einschließlich Fragenbeantwortung, Zusammenfassung und Logik. Ihre relativ kleine Größe ermöglicht es, sie in Umgebungen mit begrenzten Ressourcen wie einem Laptop, Computer oder Ihrer eigenen Cloud-Infrastruktur bereitzustellen. Dadurch wird der Zugriff auf hochmoderne KI-Modelle demokratisiert und Innovationen für alle gefördert.
Ein- und Ausgaben
- Eingabe: Textstring, z. B. eine Frage, eine Aufforderung oder ein Dokument, das zusammengefasst werden soll.
- Ausgabe:Als Antwort auf die Eingabe wird englischsprachiger Text generiert, z. B. eine Antwort auf eine Frage oder eine Zusammenfassung eines Dokuments.
Zitation
@article{gemma_2024,
title={Gemma},
url={https://www.kaggle.com/m/3301},
DOI={10.34740/KAGGLE/M/3301},
publisher={Kaggle},
author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
year={2024}
}
Modelldaten
Für das Modelltraining verwendete Daten und die Art und Weise, wie die Daten verarbeitet wurden.
Trainings-Dataset
Diese Modelle wurden mit einem Dataset von Textdaten trainiert, das eine Vielzahl von Quellen mit insgesamt 6 Billionen Tokens umfasst. Dies sind die Hauptkomponenten:
- Webdokumente: Eine vielfältige Sammlung von Webtexten sorgt dafür, dass das Modell einer Vielzahl von linguistischen Stilen, Themen und Vokabeln ausgesetzt ist. Hauptsächlich englischsprachige Inhalte.
- Code: Wenn das Modell Code zur Verfügung gestellt wird, kann es die Syntax und die Muster von Programmiersprachen erlernen, wodurch seine Fähigkeit verbessert wird, Code zu generieren oder codebezogene Fragen zu verstehen.
- Mathematik: Das Training mit mathematischem Text hilft dem Modell, logisches Denken und symbolische Darstellung zu erlernen und mathematische Fragen zu beantworten.
Die Kombination dieser verschiedenen Datenquellen ist entscheidend, um ein leistungsstarkes Sprachmodell zu trainieren, das eine Vielzahl verschiedener Aufgaben und Textformate verarbeiten kann.
Datenvorverarbeitung
Dies sind die wichtigsten Datenbereinigungs- und Filtermethoden, die auf die Trainingsdaten angewendet werden:
- Filterung von Darstellungen des sexuellen Missbrauchs von Kindern: Der strenge Filter für Darstellungen des sexuellen Missbrauchs von Kindern wurde in mehreren Phasen der Datenvorbereitung angewendet, um den Ausschluss schädlicher und illegaler Inhalte sicherzustellen.
- Filterung sensibler Daten: Damit vortrainierte Gemma-Modelle sicher und zuverlässig sind, wurden automatisierte Techniken verwendet, um bestimmte personenbezogene Daten und andere sensible Daten aus Trainings-Datasets herauszufiltern.
- Zusätzliche Methoden: Filtern nach Qualität und Sicherheit der Inhalte gemäß unseren Richtlinien.
Informationen zur Implementierung
Details zu den internen Strukturen des Modells.
Hardware
Gemma wurde mit der neuesten Generation von Tensor Processing Unit (TPU)-Hardware (TPUv5e) trainiert.
Das Training von Large Language Models erfordert eine erhebliche Rechenleistung. TPUs, die speziell für die beim maschinellen Lernen üblichen Matrixvorgänge entwickelt wurden, bieten in diesem Bereich mehrere Vorteile:
- Leistung: TPUs wurden speziell für die Verarbeitung der umfangreichen Berechnungen entwickelt, die zum Trainieren von LLMs erforderlich sind. Sie können das Training im Vergleich zu CPUs erheblich beschleunigen.
- Speicher: TPUs verfügen oft über große Mengen an Arbeitsspeicher mit hoher Bandbreite, sodass große Modelle und Batchgrößen während des Trainings verarbeitet werden können. Dies kann zu einer besseren Modellqualität führen.
- Skalierbarkeit: TPU-Pods (große TPU-Cluster) bieten eine skalierbare Lösung, um die wachsende Komplexität großer Foundation Models zu bewältigen. Sie können das Training auf mehrere TPU-Geräte verteilen, um eine schnellere und effizientere Verarbeitung zu ermöglichen.
- Kosteneffizienz: In vielen Szenarien können TPUs eine kostengünstigere Lösung zum Trainieren großer Modelle im Vergleich zur CPU-basierten Infrastruktur bereitstellen, insbesondere wenn man berücksichtigt, wie viel Zeit und Ressourcen durch ein schnelleres Training eingespart werden können.
- Diese Vorteile stehen im Einklang mit den Verpflichtungen von Google für einen nachhaltigen Betrieb.
Software
Das Training erfolgte mit JAX und ML Pathways.
Mit JAX können Forscher die neueste Hardwaregeneration, einschließlich TPUs, für ein schnelleres und effizienteres Training großer Modelle nutzen.
ML Pathways ist das neueste Projekt von Google zur Erstellung künstlich intelligenter Systeme, die in der Lage sind, mehrere Aufgaben zu verallgemeinern. Diese eignet sich besonders für Foundation Models, einschließlich Large Language Models wie diesen.
Gemeinsam werden JAX- und ML-Pfade verwendet, wie im Artikel über die Gemini-Modellfamilie beschrieben. „Das Programmiermodell mit einzelnem Controller von Jax und Pfaden ermöglicht einen einzigen Python-Prozess, um den gesamten Trainingslauf zu orchestrieren, was den Entwicklungsworkflow erheblich vereinfacht.“
Bewertung
Messwerte und Ergebnisse für die Modellbewertung.
Benchmarkergebnisse
Diese Modelle wurden anhand einer großen Sammlung verschiedener Datasets und Messwerte bewertet, um verschiedene Aspekte der Textgenerierung abzudecken:
Benchmark | Messwert | Gemma PT 2B | Gemma PT 7B |
---|---|---|---|
MMLU | 5-shot, Top-1 | 42,3 | 64,3 |
HellaSwag | 0-Shot | 71,4 | 81,2 |
PIQA | 0-Shot | 77,3 | 81,2 |
SocialIQA | 0-Shot | 49,7 | 51,8 |
BoolQ | 0-Shot | 69,4 | 83,2 |
WinoGrande | Teilbewertung | 65,4 | 72,3 |
CommonsenseQA | 7-shot | 65,3 | 71,3 |
OpenBookQA | 47,8 | 52,8 | |
ARC-e | 73,2 | 81,5 | |
ARC-C | 42,1 | 53,2 | |
TriviaQA | 5-Shot | 53,2 | 63,4 |
Natürliche Fragen | 5-Shot | 12,5 | 23,0 |
HumanEval | Pass@1 | 22 | 32,3 |
MBPP | 3-Aufnahme | 29,2 | 44,4 |
GSM8K | Maj@1 | 17.7 | 46,4 |
MATH | 4-Shot | 11.8 | 24,3 |
AGIEval | 24,2 | 41,7 | |
BIG-Bench | 35,2 | 55,1 | |
Durchschnitt | 44,9 | 56,40 |
Ethik und Sicherheit
Ansatz und Ergebnisse der Bewertung von Ethik und Sicherheit
Bewertungsansatz
Unsere Bewertungsmethoden umfassen strukturierte Auswertungen und interne Red-Team-Tests relevanter Inhaltsrichtlinien. Red-Team-Einsätze wurden von verschiedenen Teams durchgeführt, die jeweils unterschiedliche Ziele und menschliche Bewertungsmesswerte verfolgten. Diese Modelle wurden anhand verschiedener Kategorien bewertet, die für Ethik und Sicherheit relevant sind, darunter:
- Sicherheit von Text-to-Text-Inhalten: Manuelle Überprüfung von Prompts zu Sicherheitsrichtlinien, einschließlich des sexuellen Missbrauchs und der Ausbeutung von Kindern, Belästigung, Gewalt und Blut sowie Hassrede.
- Text-to-Text-Darstellungen von Harms: Benchmarking anhand relevanter akademischer Datasets wie WinoBias und BBQ-Dataset.
- Auswendiglernen: Automatisierte Bewertung des Merkens von Trainingsdaten, einschließlich des Risikos der Offenlegung personenidentifizierbarer Informationen.
- Schwerwiegende Schäden: Tests auf „gefährliche Ressourcen“ wie chemische, biologische, radiologische und nukleare Risiken (CBRN)
Bewertungsergebnisse
Die Ergebnisse von Bewertungen zu Ethik und Sicherheit liegen innerhalb akzeptabler Grenzwerte, wenn es um die Erfüllung interner Richtlinien für Kategorien wie Kinderschutz, Sicherheit von Inhalten, Darstellungsschäden, Auswendiglernen und schwerwiegende Schäden geht. Zusätzlich zu zuverlässigen internen Bewertungen werden hier die Ergebnisse bekannter Sicherheits-Benchmarks wie BBQ, BOLD, Winogender, Winobias, RealToxicity und TruthfulQA angezeigt.
Gemma 1.0
Benchmark | Messwert | Gemma 1.0 IT 2B | Gemma 1.0 IT 7B |
---|---|---|---|
RealToxicity | Durchschnitt | 6,86 | 7,90 |
FETT | 45,57 | 49,08 | |
Krähen-Paare | top-1 | 45,82 | 51,33 |
BBQ Ambig | 1-Shot, Top-1 | 62,58 | 92,54 |
Grillparty | top-1 | 54,62 | 71,99 |
Winogender | top-1 | 51,25 | 54,17 |
TruthfulQA | 44,84 | 31,81 | |
Winobias 1_2 | 56,12 | 59,09 | |
Winobias 2_2 | 91,10 | 92,23 | |
Toxigen | 29.77 | 39,59 |
Gemma 1.1
Benchmark | Messwert | Gemma 1.1 IT 2B | Gemma 1.1 IT 7B |
---|---|---|---|
RealToxicity | Durchschnitt | 7,03 | 8,04 |
FETT | 47,76 | ||
Krähen-Paare | top-1 | 45,89 | 49,67 |
BBQ Ambig | 1-Shot, Top-1 | 58,97 | 86,06 |
Grillparty | top-1 | 53,90 | 85,08 |
Winogender | top-1 | 50,14 | 57,64 |
TruthfulQA | 44,24 | 45,34 | |
Winobias 1_2 | 55,93 | 59,22 | |
Winobias 2_2 | 89,46 | 89,2 | |
Toxigen | 29,64 | 38,75 |
Nutzung und Einschränkungen
Diese Modelle unterliegen bestimmten Einschränkungen, deren Nutzer sich bewusst sein sollten.
Verwendungszweck
Open Large Language Models (LLMs) haben ein breites Spektrum an Anwendungen in verschiedenen Branchen und Domains. Die folgende Liste möglicher Anwendungsfälle ist nicht vollständig. Mit dieser Liste erhalten Sie Kontextinformationen zu den möglichen Anwendungsfällen, die die Modellersteller im Rahmen des Modelltrainings und der Modellentwicklung in Betracht gezogen haben.
- Erstellen von Inhalten und Kommunikation
- Textgenerierung: Mit diesen Modellen können kreative Textformate wie Gedichte, Skripte, Code, Marketingtexte und E-Mail-Entwürfe generiert werden.
- Chatbots und Conversational AI: Ermöglichen Sie dialogorientierte Schnittstellen für den Kundenservice, virtuelle Assistenten oder interaktive Anwendungen.
- Textzusammenfassung: Erstellen Sie prägnante Zusammenfassungen eines Textkorpus, von Forschungsarbeiten oder Berichten.
- Forschung und Bildung
- Forschung zu Natural Language Processing (NLP): Diese Modelle können als Grundlage für Forschende dienen, mit NLP-Techniken zu experimentieren, Algorithmen zu entwickeln und zum Fortschritt in diesem Gebiet beizutragen.
- Language Learning Tools (Sprachlerntools): Sie unterstützen interaktives Sprachenlernen, unterstützen die Grammatikkorrektur oder bieten Schreibübungen.
- Wissensexploration: Unterstützen Sie Forscher bei der Untersuchung von großen Textpassagen, indem Sie Zusammenfassungen erstellen oder Fragen zu bestimmten Themen beantworten.
Beschränkungen
- Trainingsdaten
- Die Qualität und Vielfalt der Trainingsdaten wirkt sich erheblich auf die Funktionen des Modells aus. Verzerrungen oder Lücken in den Trainingsdaten können zu Einschränkungen der Antworten des Modells führen.
- Der Umfang des Trainings-Datasets bestimmt, welche Themenbereiche das Modell effektiv bearbeiten kann.
- Kontext und Komplexität der Aufgaben
- LLMs eignen sich besser für Aufgaben, die mit klaren Aufforderungen und Anweisungen umrahmt werden können. Offene oder hochkomplexe Aufgaben können eine Herausforderung darstellen.
- Die Leistung eines Modells kann durch den Umfang des bereitgestellten Kontextes beeinflusst werden. Ein längerer Kontext führt in der Regel bis zu einem bestimmten Punkt zu besseren Ausgaben.
- Ambiguität und Abstufung der Sprache
- Natürliche Sprache ist von Natur aus komplex. LLMs haben manchmal Schwierigkeiten, feine Nuancen, Sarkasmus oder symbolische Sprache zu verstehen.
- Sachliche Richtigkeit
- LLMs generieren Antworten auf der Grundlage von Informationen, die sie aus ihren Trainings-Datasets gewonnen haben, sind aber keine Wissensdatenbanken. Sie können falsche oder veraltete Faktenaussagen enthalten.
- gesunder Menschenverstand
- LLMs stützen sich auf statistische Muster in der Sprache. Möglicherweise sind sie in bestimmten Situationen nicht in der Lage, gesunden Menschenverstand anzuwenden.
Ethische Überlegungen und Risiken
Die Entwicklung von Large Language Models (LLMs) wirft mehrere ethische Bedenken auf. Bei der Erstellung eines offenen Modells haben wir Folgendes sorgfältig bedacht:
- Voreingenommenheit und Fairness
- LLMs, die mit umfangreichen Textdaten aus der realen Welt trainiert wurden, können soziokulturelle Voreingenommenheiten widerspiegeln, die im Schulungsmaterial eingebettet sind. Diese Modelle wurden sorgfältig geprüft, wie die beschriebene Vorverarbeitung von Eingabedaten und die nachfolgenden Bewertungen, die in dieser Karte aufgezeichnet wurden.
- Fehlinformationen und Missbrauch
- LLMs können missbraucht werden, um falschen, irreführenden oder schädlichen Text zu generieren.
- Richtlinien für die verantwortungsvolle Verwendung des Modells finden Sie im Responsible Generative AI Toolkit.
- Transparenz und Rechenschaftspflicht:
- Auf dieser Modellkarte werden Details zur Architektur, zu den Funktionen, Beschränkungen und Bewertungsprozessen des Modells zusammengefasst.
- Ein verantwortungsbewusst entwickeltes offenes Modell bietet die Möglichkeit, Innovationen zu teilen, indem die LLM-Technologie für Entwickler und Forschende in der KI-Umgebung zugänglich gemacht wird.
Identifizierte Risiken und Minderung:
- Beibehaltung von Verzerrungen: Es wird empfohlen, ein kontinuierliches Monitoring (mithilfe von Bewertungsmesswerten, manuelle Überprüfung) und die Erkundung von De-Verzerrungstechniken beim Modelltraining, bei der Feinabstimmung und in anderen Anwendungsfällen durchzuführen.
- Erstellung schädlicher Inhalte: Mechanismen und Richtlinien für die Sicherheit von Inhalten sind unerlässlich. Entwickler sollten daher vorsichtig sein und angemessene Sicherheitsmaßnahmen für Inhalte auf der Grundlage ihrer spezifischen Produktrichtlinien und Anwendungsfälle implementieren.
- Missbrauch für böswillige Zwecke: Technische Einschränkungen und die Schulung von Entwicklern und Endnutzern können dazu beitragen, die Vorbeugung gegen schädliche Anwendungen von LLMs zu verhindern. Es stehen Informationsressourcen und Meldemechanismen zur Verfügung, mit denen Nutzer Missbrauch melden können. Die unzulässige Verwendung von Gemma-Modellen wird in der Richtlinie zur unzulässigen Nutzung von Gemma beschrieben.
- Datenschutzverstöße: Modelle wurden mit Daten trainiert, die gefiltert wurden, um personenidentifizierbare Informationen zu entfernen. Entwickler werden dazu angehalten, die Datenschutzbestimmungen mit datenschutzfreundlichen Verfahren einzuhalten.
Vorteile
Zum Zeitpunkt der Veröffentlichung bietet diese Modellfamilie im Vergleich zu Modellen ähnlicher Größe leistungsstarke Open-Large-Language-Modellimplementierungen, die von Grund auf für die Entwicklung verantwortungsbewusster KI entwickelt wurden.
Anhand der in diesem Dokument beschriebenen Benchmark-Bewertungsmesswerte haben sich herausgestellt, dass diese Modelle im Vergleich zu anderen, vergleichbaren offenen Modellalternativen eine bessere Leistung bieten.