Gemma – Offene Modelle

Eine Familie leichter, hochmoderner offener Modelle, die auf derselben Forschung und Technologie basieren, die auch für die Erstellung der Gemini-Modelle verwendet werden

Logo: Gemma Models

Von Grund auf verantwortungsvoll

Diese Modelle umfassen umfassende Sicherheitsmaßnahmen und tragen durch sorgfältig ausgewählte Datasets und strenge Feinabstimmung zu verantwortungsvollen und vertrauenswürdigen KI-Lösungen bei.

Logo: Gemma Models

Unübertroffene Leistung bei Größe

Gemma-Modelle erzielen mit ihren Größen von 2 Milliarden und 7 Milliarden (2 Milliarden und 7 Milliarden) außergewöhnliche Benchmark-Ergebnisse und übertreffen einige größere offene Modelle sogar.

Logo: Gemma Models

Flexibles Framework

Keras 3.0 bietet nahtlose Kompatibilität mit JAX, TensorFlow und PyTorch, sodass Sie je nach Aufgabe mühelos Frameworks auswählen und wechseln können.

Benchmarks

Gemma setzt neue Maßstäbe in Bezug auf Leistung und Größe im Vergleich zu beliebten Modellen wie Llama 2 und Mistral 7B.

5-shot, Top-1

MMLU

Die MMLU-Benchmark ist ein Test, der den Umfang des Wissens und der Problemlösungsfähigkeiten misst, die von Large Language Models während des Vortrainings erworben werden.

0-shot

HellaSwag

Die HellaSwag-Benchmark fordert die Fähigkeit eines Sprachmodells auf, gesunde Logik zu verstehen und anzuwenden, indem es das logischste Ende einer Geschichte auswählt.

0-shot

PIQA

Mit der PIQA-Benchmark wird die Fähigkeit eines Sprachmodells getestet, körperlichen gesunden Menschenverstand zu verstehen und anzuwenden. Dazu werden Fragen zu alltäglichen physischen Interaktionen beantwortet.

0-shot

SIQA

Die SIQA-Benchmark bewertet das Verständnis eines Sprachmodells für soziale Interaktionen und den gesunden Menschenverstand, indem Fragen zu den Handlungen von Menschen und deren sozialen Auswirkungen gestellt werden.

0-shot

Boolq

Mit dem BoolQ-Benchmark wird die Fähigkeit eines Sprachmodells getestet, mit Ja/Nein-Fragen auf natürliche Weise (in unaufgeforderten und uneingeschränkten Einstellungen generiert) mit Ja/Nein-Fragen zu antworten. Dabei wird die Fähigkeit der Modelle getestet, reale Inferenzaufgaben in natürlicher Sprache auszuführen.

Teilbewertung

Winogrande

Die Winogrande-Benchmark testet die Fähigkeit eines Language Model, mehrdeutige Lücken mit binären Optionen zu lösen, für die eine generalisierte, gesunde Logik erforderlich ist.

7-shot

CQA

Im Rahmen der CQA-Benchmark wird die Leistung von Language Models bei Multiple-Choice-Fragen bewertet, wobei verschiedene Arten von allgemeinem Wissen erforderlich sind.

OBQA

Im Rahmen der OBQA-Benchmark wird die Fähigkeit eines Language Models bewertet, fortgeschrittene Fragen mithilfe von mehrstufigen Begründungen, gesunden Menschenverstand und Rich-Text-Verständnissen zu beantworten. Die Bewertung erfolgt anhand von offenen Buchprüfungen.

ARC-e

Beim ARC-e-Benchmark werden die fortgeschrittenen Fragen eines Sprachmodells mit echten Multiple-Choice-Fragen für die Grundschule getestet.

ARC-C

Die ARC-c-Benchmark ist eine fokussiertere Untergruppe des ARC-e-Datasets, die nur Fragen enthält, die von gängigen Algorithmen für die Abrufbasis und das gemeinsame Auftreten von Wörtern falsch beantwortet wurden.

5-Shot

TriviaQA

In der TriviaQA-Benchmark wird das Leseverständnis verdreifacht.

Pass@1

HumanEval

Die HumanEval-Benchmark testet die Fähigkeiten eines Sprachmodells zur Codegenerierung, indem bewertet wird, ob die Lösungen funktionale Einheitentests für Programmierprobleme bestehen.

3-Aufnahme

MBPP

Mit der MBPP-Benchmark wird die Fähigkeit eines Sprachmodells zur Lösung grundlegender Python-Programmierprobleme getestet. Dabei liegt der Schwerpunkt auf grundlegenden Programmierkonzepten und der Verwendung von Standardbibliotheken.

Maj@1

GSM8K

Mit dem GSM8K-Benchmark wird die Fähigkeit eines Sprachmodells getestet, mathematische Aufgaben für Klassenstufen zu lösen, die häufig mehrere Logikschritte erfordern.

4-Shot

MATH

Die MATH-Benchmark bewertet die Fähigkeit eines Sprachmodells, komplexe mathematische Textaufgaben zu lösen, wobei Logik, mehrstufige Problemlösungen und das Verständnis mathematischer Konzepte erforderlich sind.

AGIEval

Der AGIEval-Benchmark testet die allgemeine Intelligenz eines Sprachmodells mithilfe von Fragen, die aus realen Prüfungen abgeleitet wurden, um die intellektuellen Fähigkeiten der Menschen (Hochschulaufnahmeprüfungen, Juraprüfungen usw.) zu beurteilen.

BBH

Die Benchmark von BBH (BIG-Bench Hard) konzentriert sich auf Aufgaben, die über die Fähigkeiten aktueller Sprachmodelle hinausgehen, und testen dabei ihre Grenzen in verschiedenen Logik- und Verständnisbereichen.

100 %

75 %

50 %

25 %

0 %

100 %

75 %

50 %

25 %

0 %

Gemma

7b

64,3

Gemma

2b

42,3

Mistral

7b

62,5

LLAMA-2

b

54,8

LLAMA-2

7b

45,3

Gemma

7b

81,2

Gemma

2b

71,4

Mistral

7b

81

LLAMA-2

b

80,7

LLAMA-2

7b

77,2

Gemma

7b

81,2

Gemma

2b

77,3

Mistral

7b

82,2

LLAMA-2

b

80,5

LLAMA-2

7b

78,8

Gemma

7b

51,8

Gemma

2b

49,7

Mistral

7b

47,0*

LLAMA-2

b

50,3

LLAMA-2

7b

48,3

Gemma

7b

83,2

Gemma

2b

69,42

Mistral

7b

83,2*

LLAMA-2

b

81,7

LLAMA-2

7b

77,4

Gemma

7b

72,3

Gemma

2b

65,4

Mistral

7b

74,2

LLAMA-2

b

72,8

LLAMA-2

7b

69,2

Gemma

7b

71,3

Gemma

2b

65,3

Mistral

7b

66,3*

LLAMA-2

b

67,3

LLAMA-2

7b

57,8

Gemma

7b

52,8

Gemma

2b

47,8

Mistral

7b

52,2

LLAMA-2

b

57

LLAMA-2

7b

58,6

Gemma

7b

81,5

Gemma

2b

73,2

Mistral

7b

80,5

LLAMA-2

b

77,3

LLAMA-2

7b

75,2

Gemma

7b

53,2

Gemma

2b

42,06

Mistral

7b

54,9

LLAMA-2

b

49,4

LLAMA-2

7b

45,9

Gemma

7b

63,4

Gemma

2b

53,2

Mistral

7b

62,5

LLAMA-2

b

79,6

LLAMA-2

7b

72,1

Gemma

7b

32,3

Gemma

2b

22

Mistral

7b

26,2

LLAMA-2

b

18,3

LLAMA-2

7b

12,8

Gemma

7b

44,4

Gemma

2b

29,2

Mistral

7b

40,2*

LLAMA-2

b

30,6

LLAMA-2

7b

20,8

Gemma

7b

46,4

Gemma

2b

17.7

Mistral

7b

35,4*

LLAMA-2

b

28,7

LLAMA-2

7b

14,6

Gemma

7b

24,3

Gemma

2b

11.8

Mistral

7b

12.7

LLAMA-2

b

3,9

LLAMA-2

7b

2.5

Gemma

7b

41,7

Gemma

2b

24,2

Mistral

7b

41,2*

LLAMA-2

b

39,1

LLAMA-2

7b

29,3

Gemma

7b

55,1

Gemma

2b

35,2

Mistral

7b

56,1*

LLAMA-2

b

39,4

LLAMA-2

7b

32,6

*Weitere Informationen zur Leistung bei anderen Methoden finden Sie im technischen Bericht.

Responsible AI-Entwicklung

Verantwortungsbewusstsein von Grund auf

Sie werden mit sorgfältig ausgewählten Daten vortrainiert, aber oben auf die Sicherheit abgestimmt, um eine sichere und verantwortungsvolle KI-Entwicklung auf der Grundlage von Gemma-Modellen zu ermöglichen.

Robuste und transparente Bewertung

Umfassende Bewertungen und transparente Berichterstellung decken Modelleinschränkungen auf, um für jeden Anwendungsfall einen verantwortungsvollen Ansatz zu verfolgen.

Verantwortungsbewusste Entwicklung fördern

Das Responsible Generative AI Toolkit unterstützt Entwickler beim Entwerfen und Implementieren von Best Practices für Responsible AI.

Symbol: Google Cloud

Für Google Cloud optimiert

Mit Gemma-Modellen in Google Cloud können Sie das Modell mit den vollständig verwalteten Tools von Vertex AI oder der selbstverwalteten Option von GKE umfassend an Ihre spezifischen Anforderungen anpassen und in einer flexiblen und kosteneffizienten KI-optimierten Infrastruktur bereitstellen.

Akademische Forschung mit Google Cloud-Guthaben beschleunigen

Vor Kurzem ist die Bewerbungsfrist für das Academic Research Program beendet. Mit Google Cloud-Guthaben möchten wir Forschende dabei unterstützen, mit Gemma-Modellen die Grenzen der wissenschaftlichen Entdeckung zu erweitern. Wir sind gespannt auf die bahnbrechende Forschung, die sich aus dieser Initiative ergibt.

Wir halten Sie über zukünftige Möglichkeiten auf dem Laufenden, mit denen Sie Ihre Forschung mit Google Cloud voranbringen können.

Werden Sie Teil der Community

Tauschen Sie sich mit anderen in der Community der ML-Modelle aus und teilen Sie Ihr Wissen mit anderen.

Wettbewerb um den besten KI-Assistenten für ML-Entwickler*innen

Kaggle veranstaltet einen Wettbewerb, in dem Teilnehmer Gemma-Modelle verwenden, um die besten KI-Assistenten für ML-Engineering-Aufgaben zu erstellen. Die Gewinner werden auf der Google I/O bekannt gegeben.

Am Wettbewerb teilnehmen
Kaggle-Wettbewerbstrophäe