Gemma – Offene Modelle
Eine Familie leichter, hochmoderner offener Modelle, die auf derselben Forschung und Technologie basieren, die auch für die Erstellung der Gemini-Modelle verwendet werden
Von Grund auf verantwortungsvoll
Diese Modelle umfassen umfassende Sicherheitsmaßnahmen und tragen durch sorgfältig ausgewählte Datasets und strenge Feinabstimmung zu verantwortungsvollen und vertrauenswürdigen KI-Lösungen bei.
Unübertroffene Leistung bei Größe
Gemma-Modelle erzielen mit ihren Größen von 2 Milliarden und 7 Milliarden (2 Milliarden und 7 Milliarden) außergewöhnliche Benchmark-Ergebnisse und übertreffen einige größere offene Modelle sogar.
Flexibles Framework
Keras 3.0 bietet nahtlose Kompatibilität mit JAX, TensorFlow und PyTorch, sodass Sie je nach Aufgabe mühelos Frameworks auswählen und wechseln können.
Gemma-Modellvarianten
Kurzanleitungen für Entwickler
Kurzanleitungen für Partner
Weitere Partnerleitfäden folgen demnächst.
Benchmarks
Gemma setzt neue Maßstäbe in Bezug auf Leistung und Größe im Vergleich zu beliebten Modellen wie Llama 2 und Mistral 7B.
5-shot, Top-1
MMLU
Die MMLU-Benchmark ist ein Test, der den Umfang des Wissens und der Problemlösungsfähigkeiten misst, die von Large Language Models während des Vortrainings erworben werden.
0-shot
HellaSwag
Die HellaSwag-Benchmark fordert die Fähigkeit eines Sprachmodells auf, gesunde Logik zu verstehen und anzuwenden, indem es das logischste Ende einer Geschichte auswählt.
0-shot
PIQA
Mit der PIQA-Benchmark wird die Fähigkeit eines Sprachmodells getestet, körperlichen gesunden Menschenverstand zu verstehen und anzuwenden. Dazu werden Fragen zu alltäglichen physischen Interaktionen beantwortet.
0-shot
SIQA
Die SIQA-Benchmark bewertet das Verständnis eines Sprachmodells für soziale Interaktionen und den gesunden Menschenverstand, indem Fragen zu den Handlungen von Menschen und deren sozialen Auswirkungen gestellt werden.
0-shot
Boolq
Mit dem BoolQ-Benchmark wird die Fähigkeit eines Sprachmodells getestet, mit Ja/Nein-Fragen auf natürliche Weise (in unaufgeforderten und uneingeschränkten Einstellungen generiert) mit Ja/Nein-Fragen zu antworten. Dabei wird die Fähigkeit der Modelle getestet, reale Inferenzaufgaben in natürlicher Sprache auszuführen.
Teilbewertung
Winogrande
Die Winogrande-Benchmark testet die Fähigkeit eines Language Model, mehrdeutige Lücken mit binären Optionen zu lösen, für die eine generalisierte, gesunde Logik erforderlich ist.
7-shot
CQA
Im Rahmen der CQA-Benchmark wird die Leistung von Language Models bei Multiple-Choice-Fragen bewertet, wobei verschiedene Arten von allgemeinem Wissen erforderlich sind.
OBQA
Im Rahmen der OBQA-Benchmark wird die Fähigkeit eines Language Models bewertet, fortgeschrittene Fragen mithilfe von mehrstufigen Begründungen, gesunden Menschenverstand und Rich-Text-Verständnissen zu beantworten. Die Bewertung erfolgt anhand von offenen Buchprüfungen.
ARC-e
Beim ARC-e-Benchmark werden die fortgeschrittenen Fragen eines Sprachmodells mit echten Multiple-Choice-Fragen für die Grundschule getestet.
ARC-C
Die ARC-c-Benchmark ist eine fokussiertere Untergruppe des ARC-e-Datasets, die nur Fragen enthält, die von gängigen Algorithmen für die Abrufbasis und das gemeinsame Auftreten von Wörtern falsch beantwortet wurden.
5-Shot
TriviaQA
In der TriviaQA-Benchmark wird das Leseverständnis verdreifacht.
Pass@1
HumanEval
Die HumanEval-Benchmark testet die Fähigkeiten eines Sprachmodells zur Codegenerierung, indem bewertet wird, ob die Lösungen funktionale Einheitentests für Programmierprobleme bestehen.
3-Aufnahme
MBPP
Mit der MBPP-Benchmark wird die Fähigkeit eines Sprachmodells zur Lösung grundlegender Python-Programmierprobleme getestet. Dabei liegt der Schwerpunkt auf grundlegenden Programmierkonzepten und der Verwendung von Standardbibliotheken.
Maj@1
GSM8K
Mit dem GSM8K-Benchmark wird die Fähigkeit eines Sprachmodells getestet, mathematische Aufgaben für Klassenstufen zu lösen, die häufig mehrere Logikschritte erfordern.
4-Shot
MATH
Die MATH-Benchmark bewertet die Fähigkeit eines Sprachmodells, komplexe mathematische Textaufgaben zu lösen, wobei Logik, mehrstufige Problemlösungen und das Verständnis mathematischer Konzepte erforderlich sind.
AGIEval
Der AGIEval-Benchmark testet die allgemeine Intelligenz eines Sprachmodells mithilfe von Fragen, die aus realen Prüfungen abgeleitet wurden, um die intellektuellen Fähigkeiten der Menschen (Hochschulaufnahmeprüfungen, Juraprüfungen usw.) zu beurteilen.
BBH
Die Benchmark von BBH (BIG-Bench Hard) konzentriert sich auf Aufgaben, die über die Fähigkeiten aktueller Sprachmodelle hinausgehen, und testen dabei ihre Grenzen in verschiedenen Logik- und Verständnisbereichen.
100 %
75 %
50 %
25 %
0 %
100 %
75 %
50 %
25 %
0 %
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
b
LLAMA-2
7b
Gemma
7b
Gemma
2b
Mistral
7b
LLAMA-2
b
LLAMA-2
7b
*Weitere Informationen zur Leistung bei anderen Methoden finden Sie im technischen Bericht.
Sieh dir Gemma noch heute an
Gemma-Modelle sind in all deinen Lieblingsmodellen erhältlich.
Responsible AI-Entwicklung
Verantwortungsbewusstsein von Grund auf
Sie werden mit sorgfältig ausgewählten Daten vortrainiert, aber oben auf die Sicherheit abgestimmt, um eine sichere und verantwortungsvolle KI-Entwicklung auf der Grundlage von Gemma-Modellen zu ermöglichen.
Robuste und transparente Bewertung
Umfassende Bewertungen und transparente Berichterstellung decken Modelleinschränkungen auf, um für jeden Anwendungsfall einen verantwortungsvollen Ansatz zu verfolgen.
Verantwortungsbewusste Entwicklung fördern
Das Responsible Generative AI Toolkit unterstützt Entwickler beim Entwerfen und Implementieren von Best Practices für Responsible AI.
Für Google Cloud optimiert
Mit Gemma-Modellen in Google Cloud können Sie das Modell mit den vollständig verwalteten Tools von Vertex AI oder der selbstverwalteten Option von GKE umfassend an Ihre spezifischen Anforderungen anpassen und in einer flexiblen und kosteneffizienten KI-optimierten Infrastruktur bereitstellen.
Akademische Forschung mit Google Cloud-Guthaben beschleunigen
Vor Kurzem ist die Bewerbungsfrist für das Academic Research Program beendet. Mit Google Cloud-Guthaben möchten wir Forschende dabei unterstützen, mit Gemma-Modellen die Grenzen der wissenschaftlichen Entdeckung zu erweitern. Wir sind gespannt auf die bahnbrechende Forschung, die sich aus dieser Initiative ergibt.
Werden Sie Teil der Community
Tauschen Sie sich mit anderen in der Community der ML-Modelle aus und teilen Sie Ihr Wissen mit anderen.
Wettbewerb um den besten KI-Assistenten für ML-Entwickler*innen
Kaggle veranstaltet einen Wettbewerb, in dem Teilnehmer Gemma-Modelle verwenden, um die besten KI-Assistenten für ML-Engineering-Aufgaben zu erstellen. Die Gewinner werden auf der Google I/O bekannt gegeben.
Am Wettbewerb teilnehmen