Symbol für „Von Grund auf verantwortungsbewusst“

Von Grund auf verantwortungsvoll

Durch umfassende Sicherheitsmaßnahmen tragen diese Modelle dazu bei, verantwortungsbewusste und vertrauenswürdige KI-Lösungen durch ausgewählte Datensätze und eine strenge Optimierung zu ermöglichen.

Symbol für unschlagbare Leistung

Unerreichte Leistung bei Größe

Gemma-Modelle erzielen bei den Größen 2 Mrd., 7 Mrd., 9 Mrd. und 27 Mrd. hervorragende Benchmark-Ergebnisse und übertreffen sogar einige größere offene Modelle.

Flexibles Framework

Flexible Bereitstellung

Mit Keras, JAX, MediaPipe, PyTorch, Hugging Face und anderen Tools nahtlos auf Mobilgeräten, im Web und in der Cloud bereitstellen

Gemma 2 testen

Gemma 2 wurde für eine überragende Leistung und unübertroffene Effizienz neu entwickelt und optimiert für blitzschnelle Inferenzen auf verschiedener Hardware.

5-Shot

MMLU

Der MMLU-Benchmark ist ein Test, mit dem das Wissen und die Problemlösungsfähigkeiten gemessen werden, die Large Language Models während des Vortrainings erwerben.

25 Aufnahme

ARC-C

Der ARC-c-Benchmark ist eine fokussiertere Teilmenge des ARC-e-Datasets, die nur Fragen enthält, die von gängigen Algorithmen (Retrieval-basierte und Wortkooccurrence) falsch beantwortet wurden.

5-Shot

GSM8K

Mit dem GSM8K-Benchmark wird die Fähigkeit eines Sprachmodells getestet, Mathematikaufgaben auf der Grundschulebene zu lösen, die häufig mehrere Schritte der Argumentation erfordern.

3-5-Shot

AGIEval

Der AGIEval-Benchmark testet die allgemeine Intelligenz eines Sprachmodells anhand von Fragen, die aus realen Prüfungen stammen, die die intellektuellen Fähigkeiten von Menschen bewerten sollen.

3-Shot, CoT

BBH

Der BBH-Benchmark (BIG-Bench Hard) konzentriert sich auf Aufgaben, die über die Fähigkeiten der aktuellen Sprachmodelle hinausgehen, und testet ihre Grenzen in verschiedenen Bereichen der Argumentation und des Verständnisses.

3-Shot, F1

DROP

DROP ist ein Leseverständnis-Benchmark, der eine diskrete Argumentation über Absätze erfordert.

5-Shot

Winogrande

Mit dem Winogrande-Benchmark wird die Fähigkeit eines Sprachmodells getestet, mehrdeutige Lückenfüllungsaufgaben mit binären Optionen zu lösen, die allgemeines gesundes Menschenverstand erfordern.

10-Shot

HellaSwag

Der HellaSwag-Benchmark stellt die Fähigkeit eines Sprachmodells auf die Probe, gesunden Menschenverstand zu verstehen und anzuwenden, indem es das logischste Ende einer Geschichte auswählt.

4-Shot

MATH

MATH prüft die Fähigkeit eines Sprachmodells, komplexe mathematische Textaufgaben zu lösen, die Schlussfolgerungen, mehrstufige Problemlösungen und das Verständnis mathematischer Konzepte erfordern.

0-Shot

ARC-e

Der ARC-e-Benchmark testet die Fähigkeiten eines Sprachmodells bei der Beantwortung fortgeschrittener Fragen mit echten Multiple-Choice-Fragen aus der Grundschule.

0-Shot

PIQA

Der PIQA-Benchmark testet die Fähigkeit eines Language Models, physikalisches Allgemeinwissen zu verstehen und anzuwenden, indem es Fragen zu alltäglichen physischen Interaktionen beantwortet.

0-Shot

SIQA

Der SIQA-Benchmark bewertet das Verständnis eines Sprachmodells für soziale Interaktionen und sozialen gesunden Menschenverstand, indem Fragen zu den Handlungen von Menschen und ihren sozialen Auswirkungen gestellt werden.

0-Shot

Boolq

Mit dem BoolQ-Benchmark wird die Fähigkeit eines Sprachmodells getestet, natürlich vorkommende Ja/Nein-Fragen zu beantworten. So wird die Fähigkeit des Modells getestet, in der Praxis Aufgaben zur natürlichen Sprachinference auszuführen.

5-Shot

TriviaQA

Der TriviaQA-Benchmark testet das Leseverständnis mit Dreiergruppen aus Frage, Antwort und Beleg.

5-Shot

NQ

Mit dem NQ-Benchmark (Natural Questions) wird die Fähigkeit eines Sprachmodells getestet, Antworten in vollständigen Wikipedia-Artikeln zu finden und zu verstehen. Dabei werden realistische Szenarien für die Beantwortung von Fragen simuliert.

pass@1

HumanEval

Der HumanEval-Benchmark testet die Codegenerierungsfähigkeiten eines Sprachmodells, indem er bewertet, ob seine Lösungen funktionale Unit-Tests für Programmierprobleme bestehen.

3-shot

MBPP

Mit dem MBPP-Benchmark wird die Fähigkeit eines Sprachmodells getestet, grundlegende Python-Programmierprobleme zu lösen. Dabei liegt der Schwerpunkt auf grundlegenden Programmierkonzepten und der Verwendung der Standardbibliothek.

100 %

75 %

50 %

25 %

0 %

100 %

75 %

50 %

25 %

0 %

Gemma 1

2,5 Mrd.

42,3

Gemma 2

2,6 Mrd.

51.3

Mistral

7B

62,5

LLAMA 3

8 Mrd.

66,6

Gemma 1

7B

64,4

Gemma 2

9 Mrd.

71,3

Gemma 2

27B

75,2

Gemma 1

2,5 Mrd.

48,5

Gemma 2

2,6 Mrd.

55,4

Mistral

7B

60.5

LLAMA 3

8 Mrd.

59,2

Gemma 1

7B

61.1

Gemma 2

9 Mrd.

68,4

Gemma 2

27B

71,4

Gemma 1

2,5 Mrd.

15.1

Gemma 2

2,6 Mrd.

23,9

Mistral

7B

39,6

LLAMA 3

8 Mrd.

45,7

Gemma 1

7B

51,8

Gemma 2

9 Mrd.

68,6

Gemma 2

27B

74,0

Gemma 1

2,5 Mrd.

24.2

Gemma 2

2,6 Mrd.

30,6

Mistral

7B

44,0

LLAMA 3

8 Mrd.

45,9

Gemma 1

7B

44,9

Gemma 2

9 Mrd.

52,8

Gemma 2

27B

55.1

Gemma 1

2,5 Mrd.

35.2

Gemma 2

2,6 Mrd.

41,9

Mistral

7B

56,0

LLAMA 3

8 Mrd.

61.1

Gemma 1

7B

59,0

Gemma 2

9 Mrd.

68,2

Gemma 2

27B

74,9

Gemma 1

2,5 Mrd.

48,5

Gemma 2

2,6 Mrd.

52,0

Mistral

7B

63,8

LLAMA 3

8 Mrd.

58,4

Gemma 1

7B

56,3

Gemma 2

9 Mrd.

69,4

Gemma 2

27B

74,2

Gemma 1

2,5 Mrd.

66,8

Gemma 2

2,6 Mrd.

70,9

Mistral

7B

78,5

LLAMA 3

8 Mrd.

76,1

Gemma 1

7B

79,0

Gemma 2

9 Mrd.

80,6

Gemma 2

27B

83,7

Gemma 1

2,5 Mrd.

71,7

Gemma 2

2,6 Mrd.

73,0

Mistral

7B

83

LLAMA 3

8 Mrd.

82,0

Gemma 1

7B

82,3

Gemma 2

9 Mrd.

81,9

Gemma 2

27B

86,4

Gemma 1

2,5 Mrd.

11.8

Gemma 2

2,6 Mrd.

15.0

Mistral

7B

12.7

Gemma 1

7B

24,3

Gemma 2

9 Mrd.

36,6

Gemma 2

27B

42,3

Gemma 1

2,5 Mrd.

73,2

Gemma 2

2,6 Mrd.

80,1

Mistral

7B

80,5

Gemma 1

7B

81,5

Gemma 2

9 Mrd.

88,0

Gemma 2

27B

88,6

Gemma 1

2,5 Mrd.

77,3

Gemma 2

2,6 Mrd.

77,8

Mistral

7B

82,2

Gemma 1

7B

81,2

Gemma 2

9 Mrd.

81,7

Gemma 2

27B

83,2

Gemma 1

2,5 Mrd.

49,7

Gemma 2

2,6 Mrd.

51,9

Mistral

7B

47,0

Gemma 1

7B

51,8

Gemma 2

9 Mrd.

53,4

Gemma 2

27B

53,7

Gemma 1

2,5 Mrd.

69,4

Gemma 2

2,6 Mrd.

72,5

Mistral

7B

83,2

Gemma 1

7B

83,2

Gemma 2

9 Mrd.

84,2

Gemma 2

27B

84,8

Gemma 1

2,5 Mrd.

53,2

Gemma 2

2,6 Mrd.

59,4

Mistral

7B

62,5

Gemma 1

7B

63,4

Gemma 2

9 Mrd.

76,6

Gemma 2

27B

83,7

Gemma 1

2,5 Mrd.

12,5

Gemma 2

2,6 Mrd.

16.7

Mistral

7B

23.2

Gemma 1

7B

23,0

Gemma 2

9 Mrd.

29,2

Gemma 2

27B

34,5

Gemma 1

2,5 Mrd.

22,0

Gemma 2

2,6 Mrd.

17.7

Mistral

7B

26,2

Gemma 1

7B

32,3

Gemma 2

9 Mrd.

40,2

Gemma 2

27B

51,8

Gemma 1

2,5 Mrd.

29,2

Gemma 2

2,6 Mrd.

29,6

Mistral

7B

40,2

Gemma 1

7B

44,4

Gemma 2

9 Mrd.

52,4

Gemma 2

27B

62,6

*Dies sind die Benchmarks für die vorab trainierten Modelle. Details zur Leistung mit anderen Methoden finden Sie im technischen Bericht.

PaliGemma 2 Neu

PaliGemma 2 bietet den Gemma 2-Sprachmodellen leicht anpassbare Funktionen für maschinelles Sehen. So können eine Vielzahl von Anwendungen entwickelt werden, die Text- und Bildverständnis kombinieren.

DataGemma

DataGemma sind die ersten offenen Modelle, die LLMs mit umfangreichen realen Daten aus Google Data Commons verbinden.

Gemma-Umfang

Gemma Scope bietet Forschern eine beispiellose Transparenz in die Entscheidungsfindungsprozesse unserer Gemma 2-Modelle.

Gemmaverse

Ein umfangreiches Ökosystem aus von der Community erstellten Gemma-Modellen und ‑Tools, die Sie bei der Entwicklung innovativer Lösungen unterstützen

Modelle bereitstellen

Bereitstellungsziel auswählen

Symbol „Mobilgerät bereitstellen“Mobilgeräte

On-Device-Bereitstellung mit Google AI Edge

Direkt auf Geräten bereitstellen, um eine geringe Latenz und Offlinefunktionen zu ermöglichen. Ideal für Anwendungen, die Echtzeitreaktionsfähigkeit und Datenschutz erfordern, z. B. mobile Apps, IoT-Geräte und eingebettete Systeme.

Web-SymbolWeb

Nahtlose Einbindung in Webanwendungen

Erweitern Sie Ihre Websites und Webdienste mit erweiterten KI-Funktionen, um interaktive Funktionen, personalisierte Inhalte und intelligente Automatisierung zu ermöglichen.

Symbol: CloudCloud

Mühelos mit Cloud-Infrastruktur skalieren

Nutzen Sie die Skalierbarkeit und Flexibilität der Cloud, um große Bereitstellungen, anspruchsvolle Arbeitslasten und komplexe KI-Anwendungen zu bewältigen.

Globale Kommunikation ermöglichen

Nehmen Sie an unserem globalen Kaggle-Wettbewerb teil. Gemma-Modellvarianten für eine bestimmte Sprache oder einen bestimmten kulturellen Aspekt erstellen