Model Page (Modellseite): Gemma
Ressourcen und technische Dokumentation:
Nutzungsbedingungen: Nutzungsbedingungen
Autoren: Google
Modellinformationen
Zusammenfassende Beschreibung und kurze Definition der Ein- und Ausgaben.
Beschreibung
Gemma ist eine Familie leichtgewichtiger, hochmoderner offener Modelle von Google, basieren auf derselben Forschung und Technologie, die auch für die Erstellung der Gemini-Modelle verwendet wurde. Es handelt sich um Large Language Models, die nur Text zu Text und Decoder verwenden, mit offenen Gewichtungen sowohl für vortrainierte als auch für auf Anweisung abgestimmte Varianten. Gemma-Modelle eignen sich gut für eine Vielzahl von Aufgaben zur Textgenerierung, darunter: das Beantworten von Fragen, Zusammenfassen und Schlussfolgern. Ihre relativ kleine Größe in Umgebungen mit begrenzten Ressourcen wie einen Laptop, Desktop-Computer oder Ihre eigene Cloud-Infrastruktur nutzen, hochmodernen KI-Modellen zu entwickeln und Innovationen für alle zu fördern.
Ein- und Ausgaben
- Eingabe:Textstring, z. B. eine Frage, ein Prompt oder ein Dokument in der sie zusammengefasst sind.
- Ausgabe:Generierter englischsprachiger Text als Antwort auf die Eingabe, z. B. als Antwort auf eine Frage oder als Zusammenfassung eines Dokuments.
Zitation
@article{gemma_2024,
title={Gemma},
url={https://www.kaggle.com/m/3301},
DOI={10.34740/KAGGLE/M/3301},
publisher={Kaggle},
author={Gemma Team},
year={2024}
}
Modelldaten
Für das Modelltraining verwendete Daten und die Art und Weise, wie sie verarbeitet wurden.
Trainings-Dataset
Diese Modelle wurden mit einem Dataset von Textdaten trainiert, das eine Vielzahl von Quellen. Das 27B-Modell wurde mit 13 Billionen Tokens trainiert, das 9B-Modell wurde das Modell mit 8 Billionen Tokens und das 2-Milliarden-Modell mit 2 Billionen Tokens trainiert. Dies sind die Hauptkomponenten:
- Webdokumente: Durch eine vielfältige Sammlung von Webtexten wird sichergestellt, dass das Modell exponiert ist. auf eine breite Palette linguistischer Stile, Themen und Vokabeln. Hauptsächlich englischsprachigen Inhalten.
- Code: Wenn das Modell programmiert ist, kann es die Syntax und Muster von Programmiersprachen, die die Generierung von Code oder Code-bezogene Fragen zu verstehen.
- Mathematik: Das Training von mathematischem Text hilft dem Modell, logisches Denken zu lernen. Logik, symbolische Darstellung und mathematische Abfragen.
Die Kombination dieser verschiedenen Datenquellen ist entscheidend für die Schulung eines Language Model, das eine Vielzahl verschiedener Aufgaben und Texte Formaten.
Datenvorverarbeitung
Dies sind die wichtigsten Methoden der Datenbereinigung und -filterung, die auf das Training angewendet werden. Daten:
- Filtern von Darstellungen des sexuellen Missbrauchs von Kindern: Strenge Filterung über Darstellungen des sexuellen Missbrauchs von Kindern war die in mehreren Phasen des Datenvorbereitungsprozesses angewendet werden, Ausschluss schädlicher und illegaler Inhalte.
- Filtern sensibler Daten: Damit vortrainierte Gemma-Modelle sicher und mithilfe von zuverlässigen, automatisierten Techniken bestimmte persönliche und andere sensible Daten aus Trainings-Datasets enthalten.
- Zusätzliche Methoden: Filtern nach Qualität und Sicherheit von Inhalten gemäß unseren Richtlinien entsprechen.
Informationen zur Implementierung
Details zu den internen Strukturen des Modells.
Hardware
Gemma wurde mit der neuesten Generation von Tensor Processing Unit (TPU)-Hardware (TPUv5p).
Das Training von Large Language Models erfordert eine erhebliche Rechenleistung. TPUs die speziell für Matrixoperationen entwickelt wurden, die beim maschinellen Lernen üblich sind, bieten Vorteile in diesem Bereich:
- Leistung: TPUs wurden speziell für die Verarbeitung umfangreicher Berechnungen entwickelt beim Training von LLMs. Sie können das Training erheblich beschleunigen als CPUs.
- Arbeitsspeicher: TPUs haben häufig große Speicherkapazitäten mit hoher Bandbreite, für die Verarbeitung großer Modelle und Batchgrößen während des Trainings. Dies kann bessere Modellqualität.
- Skalierbarkeit: TPU-Pods (große TPU-Cluster) bieten eine skalierbare Lösung für die wachsende Komplexität großer Foundation Models zu bewältigen. Sie können TPU-Geräte trainieren und so eine schnellere und effizientere Verarbeitung ermöglichen.
- Kosteneffizienz: In vielen Szenarien können TPUs eine kostengünstigere Lösung bieten, zum Trainieren großer Modelle im Vergleich zu CPU-basierter Infrastruktur, besonders, wenn es um die Zeit- und Ressourcenersparnis geht, .
- Diese Vorteile stimmen mit den Die Verpflichtung von Google zu nachhaltigem Betrieb.
Software
Das Training wurde mithilfe von JAX und ML Pathways durchgeführt.
Mit JAX können Forscher die neueste Hardware-Generation, einschließlich TPUs, um große Modelle schneller und effizienter zu trainieren.
ML Pathways ist das neueste Projekt von Google zur Entwicklung künstlich intelligenter Systeme. mehrere Aufgaben verallgemeinern können. Sie eignet sich besonders für Foundation Models, einschließlich Large Language Models wie diese.
Zusammen werden JAX- und ML-Pfade wie in den Artikel zur Gemini-Modellfamilie; „the 'Single Controller Programmiermodell von Jax und Pathways ermöglicht ein einzelnes Python- um den gesamten Trainingslauf zu orchestrieren, wodurch die Entwicklungs-Workflow".
Bewertung
Messwerte und Ergebnisse der Modellbewertung.
Benchmarkergebnisse
Diese Modelle wurden anhand einer großen Sammlung verschiedener Datasets Messwerte für verschiedene Aspekte der Textgenerierung:
Benchmark | Messwert | Gemma 2 PT 2B | Gemma 2 PT 9B | Gemma 2 PT 27B |
---|---|---|---|---|
MMLU | 5-Aufnahmen, Top-1 | 51,3 | 71,3 | 75,2 |
HellaSwag | 10-shot | 73,0 | 81,9 | 86,4 |
PIQA | 0-shot | 77,8 | 81,7 | 83,2 |
SocialIQA | 0-shot | 51,9 | 53,4 | 53,7 |
BoolQ | 0-shot | 72,5 | 84,2 | 84,8 |
WinoGrande | Teilbewertung | 70,9 | 80,6 | 83,7 |
ARC-e | 0-shot | 80,1 | 88,0 | 88,6 |
ARC-c | 25 Aufnahme | 55,4 | 68,4 | 71,4 |
TriviaQA | 5 Aufnahme | 59,4 | 76,6 | 83,7 |
Natürliche Fragen | 5 Aufnahme | 16,7 | 29,2 | 34,5 |
HumanEval | Bestanden@1 | 17.7 | 40,2 | 51,8 |
MBPP | Drei Aufnahme | 29,6 | 52,4 | 62,6 |
GSM8K | 5-shot, maj@1 | 23,9 | 68,6 | 74,0 |
MATH | 4 Aufnahme | 15.0 | 36,6 | 42,3 |
AGIEval | 3–5-Aufnahmen | 30,6 | 52,8 | 55,1 |
DROP | Drei Aufnahme, F1 | 52,0 | 69,4 | 72,2 |
BIG-Bench | 3-shot, CoT | 41,9 | 68,2 | 74,9 |
Ethik und Sicherheit
Ansatz und Ergebnisse der Ethik- und Sicherheitsbewertung
Bewertungsansatz
Zu unseren Bewertungsmethoden gehören strukturierte Bewertungen und internes Red Teaming Tests relevanter Inhaltsrichtlinien. Das Red-Team-Einsatz wurde von einer Reihe von Teams mit unterschiedlichen Zielen und Metriken für die menschliche Bewertung. Diese wurden die Modelle anhand verschiedener Kategorien bewertet, Ethik und Sicherheit, einschließlich:
- Sicherheit von Text-zu-Text-Inhalten: Manuelle Überprüfung von Aufforderungen zur Sicherheit Richtlinien wie sexueller Missbrauch und Ausbeutung von Kindern, Belästigung und Gewalt und Blut und Hassrede.
- Text-zu-Text-Darstellungen von Schäden: Benchmark mit relevanten akademischen Werten Datasets wie WinoBias und BBQ Dataset.
- Erinnerung: Automatisierte Bewertung der Erinnerung von Trainingsdaten, einschließlich das Risiko der Offenlegung personenidentifizierbarer Informationen.
- Erhebliche Schäden: Tests auf „gefährliche Funktionen“, wie chemische, chemische biologischen, radiologischen und nuklearen (CBRN) Risiken.
Bewertungsergebnisse
Die Ergebnisse der Ethik- und Sicherheitsbewertungen liegen innerhalb akzeptabler Grenzwerte um die internen Richtlinien für Kategorien wie „Kinder“ Sicherheit, Sicherheit von Inhalten, Schaden durch Repräsentation, Auswendiglernen, schwerwiegende Schäden. Neben soliden internen Bewertungen können bekannte Sicherheitsmechanismen Benchmarks wie BBQ, BOLD, Winogender, Winobias, RealToxicity und TruthfulQA werden hier angezeigt.
Gemma 2.0
Benchmark | Messwert | Gemma 2 IT 2B | Gemma 2 IT 9B | Gemma 2 IT 27B |
---|---|---|---|---|
RealToxicity | Durchschnitt | 8,16 | 8,25 | 8,84 |
Krähenpaare | top-1 | 37,67 | 37,47 | 36,67 |
Barbecue Ambig | Einzelaufnahme, Top-1 | 83,20 | 88,58 | 85,99 |
Unterscheidung zum Grillen | top-1 | 69,31 | 82,67 | 86,94 |
Winogender | top-1 | 52,91 | 79,17 | 77,22 |
TruthfulQA | 43,72 | 50,27 | 51,60 | |
Winobias 1_2 | 59,28 | 78,09 | 81,94 | |
Winobias 2_2 | 88,57 | 95,32 | 97,22 | |
Toxigen | 48,32 | 39,30 | 38,42 |
Bewertung gefährlicher Fähigkeiten
Bewertungsansatz
Wir haben eine Reihe gefährlicher Fähigkeiten untersucht:
- Anstößige Internetsicherheit:Damit lässt sich das Missbrauchspotenzial des Modells in Cybersicherheits-Kontexte zu lernen, nutzten wir sowohl öffentlich zugängliche CTF-Plattformen (Capture-the-Flag) wie InterCode-CTF und Hack the Box sowie intern entwickelte CTF-Herausforderungen. Diese Bewertungen messen die die Fähigkeit des Modells, Schwachstellen auszunutzen und sich unbefugten Zugriff simulierten Umgebungen.
- Selbstverbreitung:Wir haben die Kapazität des Modells für durch die Entwicklung von Aufgaben, die den Erwerb von Ressourcen, Code Ausführung und Interaktion mit Remote-Systemen. Diese Bewertungen bewerten die Fähigkeit des Modells zur unabhängigen Replikation und Verteilung.
- Persuasion: Damit wird die Fähigkeit des Modells zur Überzeugungsarbeit und Menschen Überzeugungsarbeit durchgeführt haben. Diese Studien umfassten Szenarien, die messen, ob das Modell eine Beziehung aufbauen, und bestimmte Handlungen von den Teilnehmenden herbeiführen.
Bewertungsergebnisse
Alle Bewertungen werden ausführlich beschrieben in Frontier-Modelle auf gefährliche Funktionen evaluieren und kurz in der Technischer Bericht zu Gemma 2
Bewertung | Funktion | Gemma 2 IT 27B |
---|---|---|
InterCode-CTF | Anstößige Cybersicherheit | Herausforderungen rund um die Uhr |
Internes CTF | Anstößige Cybersicherheit | 1/13 Herausforderungen |
Hack the Box | Anstößige Cybersicherheit | 0/13 Herausforderungen |
Frühwarnung zur Selbstverbreitung | Selbstverbreitung | 1/10 Herausforderungen |
Anstößiger Zauberspruch | Überzeugungsarbeit | Prozentsatz der Teilnehmenden, die zustimmen: Zu 81% interessant, 75% würden wieder sprechen, 80% stellten eine persönliche Verbindung her |
Auf Links klicken | Überzeugungsarbeit | 34% der Teilnehmenden |
Informationen suchen | Überzeugungsarbeit | 9% der Teilnehmenden |
Code ausführen | Überzeugungsarbeit | 11% der Teilnehmenden |
Money Talks | Überzeugungsarbeit | 3,72 £ Durchschnitt für Spende |
Das Web der Lügen | Überzeugungsarbeit | 18% bedeuten eine Verschiebung hin zum richtigen Glauben, 1% die Verschiebung hin zu falsche Überzeugung |
Verwendung und Einschränkungen
Diese Modelle unterliegen bestimmten Einschränkungen, die Nutzer kennen sollten.
Verwendungszweck
Offene Large Language Models (LLMs) bieten ein breites Spektrum an Anwendungen in Branchen und Domänen zu verstehen. Die folgende Liste möglicher Verwendungszwecke umfangreich. Diese Liste soll Kontextinformationen zu den möglichen Anwendungsfällen, die die Ersteller des Modells als Teil des Modells in Betracht gezogen haben. Schulung und Entwicklung.
- Erstellung und Kommunikation von Inhalten
- Textgenerierung: Mit diesen Modellen können kreative Textformate generiert werden. wie Gedichte, Skripte, Code, Marketingtexte und E-Mail-Entwürfe.
- Chatbots und Conversational AI: Power Conversational Interfaces für Kunden virtuellen Assistenten oder interaktiven Anwendungen.
- Textzusammenfassung: Kurze Zusammenfassungen eines Textkorpus, Forschungsergebnisses Artikel oder Berichte.
- Forschung und Bildung
- Forschung zur natürlichen Sprachverarbeitung (Natural Language Processing, NLP): Diese Modelle können als Grundlage für Forschende, die NLP-Techniken testen, und zur Weiterentwicklung dieses Gebiets beitragen.
- Language Learning Tools: Unterstützen Sie interaktives Sprachenlernen, zur Korrektur der Grammatik oder zur Schreibübung.
- Wissensforschung: Unterstützen Sie Forschende bei der Erkundung großer Textmengen. indem Sie Zusammenfassungen erstellen oder Fragen zu bestimmten Themen beantworten.
Beschränkungen
- Trainingsdaten
- Die Qualität und Vielfalt der Trainingsdaten beeinflussen die die Funktionen des Modells nutzen. Verzerrungen oder Lücken in den Trainingsdaten können zu Einschränkungen in den Modellantworten.
- Der Umfang des Trainings-Datasets bestimmt die Themenbereiche, die das Modell verwenden kann. effektiv zu handhaben.
- Kontext und Aufgabenkomplexität
- LLMs sind besser bei Aufgaben, die sich klar und deutlich beschreiben lassen. Anleitung. Offene oder hochkomplexe Aufgaben können eine Herausforderung sein.
- Die Leistung eines Modells kann durch den Umfang des bereitgestellten Kontexts beeinflusst werden. (längerer Kontext führt in der Regel bis zu einem bestimmten Punkt zu besseren Ergebnissen).
- Ambiguität und Nuancen der Sprache
- Natürliche Sprache ist von Natur aus komplex. LLMs haben vielleicht Schwierigkeiten, subtile zu verstehen. Nuancen, Sarkasmus oder symbolische Sprache gesprochen.
- Sachgenauigkeit
- LLMs generieren Antworten auf der Grundlage von Informationen, die sie aus ihren Trainings-Datasets, die aber keine Wissensdatenbanken sind. Sie generieren falsche oder veraltete Sachbeschreibungen.
- Vernunft
- LLMs stützen sich auf statistische Muster in der Sprache. Möglicherweise fehlt ihnen die Fähigkeit, um in bestimmten Situationen gesunde Begründungen anzuwenden.
Ethische Überlegungen und Risiken
Die Entwicklung von Large Language Models (LLMs) wirft mehrere ethische Bedenken auf. Bei der Erstellung eines offenen Modells haben wir Folgendes sorgfältig berücksichtigt:
- Voreingenommenheit und Fairness
- LLMs, die mit umfangreichen, realen Textdaten trainiert wurden, können soziokulturelle Voreingenommenheiten, die im Schulungsmaterial eingebettet sind. Diese Modelle wurden sorgfältig die Vorverarbeitung von Eingabedaten beschrieben und nachträgliche Bewertungen auf dieser Karte gemeldet.
- Fehlinformationen und Missbrauch
- LLMs können missbraucht werden, um falsch, irreführende oder schädliche Texte zu generieren.
- Es werden Richtlinien für eine verantwortungsvolle Nutzung des Modells bereitgestellt, siehe Responsible Generative AI Toolkit
- Transparenz und Rechenschaftspflicht:
- Auf dieser Modellkarte sind Details zu den Architektur, Fähigkeiten, Grenzen und Bewertungsprozesse an.
- Ein verantwortungsbewusst entwickeltes offenes Modell bietet die Möglichkeit, indem wir LLM-Technologie für Entwickelnde und Forschende zugänglich machen. im gesamten KI-Ökosystem.
Identifizierte Risiken und Minderungen:
- Fortdauern von Voreingenommenheiten: Es wird empfohlen, eine kontinuierliche Überwachung durchzuführen. (anhand von Bewertungsmesswerten, manueller Überprüfung) und dem Erkunden von während des Modelltrainings, der Feinabstimmung und anderer Anwendungsfälle.
- Erstellung schädlicher Inhalte: Mechanismen und Richtlinien für die Sicherheit von Inhalten sind entscheidend. Entwickler sollten vorsichtig sein und angemessene Sicherheitsmaßnahmen für Inhalte auf der Grundlage der jeweiligen Produktrichtlinien und Anwendungsanwendungsfällen.
- Missbrauch für böswillige Zwecke: Technische Einschränkungen und Entwickler- und Endnutzer-Aufklärung können dazu beitragen, schädliche LLM-Anwendungen abzumildern. Bildungsressourcen und Meldemechanismen, mit denen Nutzer Missbrauch melden können, sind bereitgestellt. Die unzulässige Verwendung von Gemma-Modellen wird in den Richtlinie zur unzulässigen Nutzung von Gemma.
- Datenschutzverstöße: Die Modelle wurden mit Daten trainiert, die zum Entfernen personenidentifizierbarer Informationen gefiltert wurden (Personenidentifizierbare Informationen). Entwickler sollten sich an die Datenschutzvorschriften mit datenschutzfreundlichen Methoden.
Vorteile
Zum Zeitpunkt der Veröffentlichung bietet diese Modellfamilie offene Large Language Models, die von Grund auf für Responsibles KI-Entwicklung im Vergleich zu Modellen ähnlicher Größe
Unter Verwendung der in diesem Dokument beschriebenen Benchmark-Bewertungsmesswerte haben nachgewiesen, dass sie eine bessere Leistung als andere offene Modelle in vergleichbarer Größe bieten. Alternativen.