Offene Gemma-Modelle

Eine Familie leichter, hochmoderner offener Modelle, die auf derselben Forschung und Technologie basieren, die auch für die Erstellung der Gemini-Modelle verwendet wurde

<ph type="x-smartling-placeholder"></ph> Jetzt starten
Symbol „Von Grund auf verantwortungsbewusst“

Von Grund auf verantwortungsbewusst

Mit umfassenden Sicherheitsmaßnahmen tragen diese Modelle durch sorgfältig zusammengestellte Datasets und eine gründliche Feinabstimmung zu verantwortungsbewussten und vertrauenswürdigen KI-Lösungen bei.

Symbol für unübertroffene Leistung

Unübertroffene Leistung bei jeder Größe

Gemma-Modelle erzielen mit 2B, 7B, 9B und 27 Mrd. Größen außergewöhnliche Benchmark-Ergebnisse und übertreffen einige größere offene Modelle.

Flexibles Framework

Flexibles Framework

Keras 3.0 ist nahtlos mit JAX, TensorFlow und PyTorch kompatibel, sodass Sie mühelos Frameworks auswählen und je nach Aufgabe wechseln können.

Jetzt neu:
Gemma 2

Gemma 2 wurde für überragende Leistung und unübertroffene Effizienz optimiert und optimiert für blitzschnelle Inferenz auf unterschiedlicher Hardware.

<ph type="x-smartling-placeholder"></ph> Gemma 2 in Google AI Studio testen

5 Aufnahme

MMLU

Die MMLU-Benchmark ist ein Test, der das Umfang des Wissens und der Problemlösungsfähigkeiten misst, die von Large Language Models während des Vortrainings erworben wurden.

25 Aufnahme

ARC-C

Der ARC-c-Benchmark ist eine spezifischere Teilmenge des ARC-e-Datasets, die nur Fragen enthält, die von gängigen Algorithmen („Retrieval-Base“ und „Co-Vorkommen“) falsch beantwortet wurden.

5 Aufnahme

GSM8K

Mit dem GSM8K-Benchmark wird die Fähigkeit eines Sprachmodells getestet, mathematische Aufgaben für Schuljahre zu lösen, für die häufig mehrere Begründungen erforderlich sind.

3–5-Aufnahmen

AGIEval

Der AGIEval-Benchmark testet die allgemeine Intelligenz eines Sprachmodells anhand von Fragen aus realen Prüfungen zur Bewertung der menschlichen geistigen Fähigkeiten.

3-shot, CoT

BBH

Der BBH-Benchmark (BIG-Bench Hard) konzentriert sich auf Aufgaben, die über die Fähigkeiten der aktuellen Sprachmodelle hinausgehen, und testet ihre Grenzen über verschiedene Logik- und Verständnisbereiche hinweg.

Drei Aufnahme, F1

DROP

DROP ist eine Benchmark für das Leseverständnis, die diskrete Schlussfolgerungen über Absätze hinweg erfordert.

5 Aufnahme

Winogrande

Der Winogrande-Benchmark testet die Fähigkeit eines Language Models, mehrdeutige Ausfüllaufgaben mit binären Optionen zu lösen, die allgemeine allgemeine Begründungen erfordern.

10-shot

HellaSwag

Der HellaSwag-Benchmark fordert die Fähigkeit eines Sprachmodells, gesunde Schlussfolgerungen zu verstehen und anzuwenden, indem das logische Ende einer Geschichte ausgewählt wird.

4 Aufnahme

MATH

MATH bewertet die Fähigkeit eines Language Models, komplexe mathematische Textaufgaben zu lösen, die logisches Denken, eine mehrstufige Problemlösung und ein Verständnis mathematischer Konzepte erfordern.

0-shot

ARC-e

Der ARC-e-Benchmark testet die fortgeschrittenen Fähigkeiten eines Sprachmodells zum Beantworten von Fragen mit echten Multiple-Choice-Fragen für Schüler und Studenten.

0-shot

PIQA

Der PIQA-Benchmark testet die Fähigkeit eines Sprachmodells, physisches allgemeines Wissen zu verstehen und anzuwenden, indem Fragen zu alltäglichen physischen Interaktionen beantwortet werden.

0-shot

SIQA

Der SIQA-Benchmark bewertet das Verständnis eines Language Models von sozialen Interaktionen und sozialem gesundem Menschenverstand, indem Fragen zu den Handlungen von Nutzern und ihren sozialen Auswirkungen gestellt werden.

0-shot

Boolq

Mit dem BoolQ-Benchmark wird die Fähigkeit eines Sprachmodells zur Beantwortung natürlich auftretender Ja-/Nein-Fragen getestet. Dabei wird getestet, ob das Modell reale Inferenzaufgaben für natürliche Sprache ausführen kann.

5 Aufnahme

TriviaQA

Der TriviaQA-Benchmark testet das Leseverständnis mithilfe von Dreifach-Fragen/Antworten/Beweisen.

5 Aufnahme

NQ

Der NQ-Benchmark (Natürliche Fragen) testet die Fähigkeit eines Sprachmodells, Antworten in ganzen Wikipedia-Artikeln zu finden und zu verstehen, und simuliert dabei reale Szenarien für die Beantwortung von Fragen.

Bestanden@1

HumanEval

Der HumanEval-Benchmark testet die Fähigkeiten eines Language Models zur Codegenerierung, indem er bewertet, ob seine Lösungen funktionale Einheitentests für Programmierprobleme bestehen.

Drei Aufnahme

MBPP

Der MBPP-Benchmark testet die Fähigkeit eines Sprachmodells, grundlegende Python-Programmierprobleme zu lösen, und konzentriert sich dabei auf grundlegende Programmierkonzepte und die Verwendung von Standardbibliotheken.

100 %

75 %

50 %

25 %

0 %

100 %

75 %

50 %

25 %

0 %

Gemma 1

2,5 Mrd.

42,3

Gemma 2

2,6 Mrd.

51,3

Mistral

7 Mrd.

62,5

LLAMA 3

8 Mrd.

66,6

Gemma 1

7 Mrd.

64,4

Gemma 2

9 Mrd.

71,3

Gemma 2

27 Mrd.

75,2

Gemma 1

2,5 Mrd.

48,5

Gemma 2

2,6 Mrd.

55,4

Mistral

7 Mrd.

60.5

LLAMA 3

8 Mrd.

59,2

Gemma 1

7 Mrd.

61,1

Gemma 2

9 Mrd.

68,4

Gemma 2

27 Mrd.

71,4

Gemma 1

2,5 Mrd.

15.1

Gemma 2

2,6 Mrd.

23,9

Mistral

7 Mrd.

39,6

LLAMA 3

8 Mrd.

45,7

Gemma 1

7 Mrd.

51,8

Gemma 2

9 Mrd.

68,6

Gemma 2

27 Mrd.

74,0

Gemma 1

2,5 Mrd.

24,2

Gemma 2

2,6 Mrd.

30,6

Mistral

7 Mrd.

44,0

LLAMA 3

8 Mrd.

45,9

Gemma 1

7 Mrd.

44,9

Gemma 2

9 Mrd.

52,8

Gemma 2

27 Mrd.

55,1

Gemma 1

2,5 Mrd.

35,2

Gemma 2

2,6 Mrd.

41,9

Mistral

7 Mrd.

56,0

LLAMA 3

8 Mrd.

61,1

Gemma 1

7 Mrd.

59,0

Gemma 2

9 Mrd.

68,2

Gemma 2

27 Mrd.

74,9

Gemma 1

2,5 Mrd.

48,5

Gemma 2

2,6 Mrd.

52,0

Mistral

7 Mrd.

63,8

LLAMA 3

8 Mrd.

58,4

Gemma 1

7 Mrd.

56,3

Gemma 2

9 Mrd.

69,4

Gemma 2

27 Mrd.

74,2

Gemma 1

2,5 Mrd.

66,8

Gemma 2

2,6 Mrd.

70,9

Mistral

7 Mrd.

78,5

LLAMA 3

8 Mrd.

76,1

Gemma 1

7 Mrd.

79,0

Gemma 2

9 Mrd.

80,6

Gemma 2

27 Mrd.

83,7

Gemma 1

2,5 Mrd.

71,7

Gemma 2

2,6 Mrd.

73,0

Mistral

7 Mrd.

83

LLAMA 3

8 Mrd.

82,0

Gemma 1

7 Mrd.

82,3

Gemma 2

9 Mrd.

81,9

Gemma 2

27 Mrd.

86,4

Gemma 1

2,5 Mrd.

11.8

Gemma 2

2,6 Mrd.

15.0

Mistral

7 Mrd.

12.7

Gemma 1

7 Mrd.

24,3

Gemma 2

9 Mrd.

36,6

Gemma 2

27 Mrd.

42,3

Gemma 1

2,5 Mrd.

73,2

Gemma 2

2,6 Mrd.

80,1

Mistral

7 Mrd.

80,5

Gemma 1

7 Mrd.

81,5

Gemma 2

9 Mrd.

88,0

Gemma 2

27 Mrd.

88,6

Gemma 1

2,5 Mrd.

77,3

Gemma 2

2,6 Mrd.

77,8

Mistral

7 Mrd.

82,2

Gemma 1

7 Mrd.

81,2

Gemma 2

9 Mrd.

81,7

Gemma 2

27 Mrd.

83,2

Gemma 1

2,5 Mrd.

49,7

Gemma 2

2,6 Mrd.

51,9

Mistral

7 Mrd.

47,0

Gemma 1

7 Mrd.

51,8

Gemma 2

9 Mrd.

53,4

Gemma 2

27 Mrd.

53,7

Gemma 1

2,5 Mrd.

69,4

Gemma 2

2,6 Mrd.

72,5

Mistral

7 Mrd.

83,2

Gemma 1

7 Mrd.

83,2

Gemma 2

9 Mrd.

84,2

Gemma 2

27 Mrd.

84,8

Gemma 1

2,5 Mrd.

53,2

Gemma 2

2,6 Mrd.

59,4

Mistral

7 Mrd.

62,5

Gemma 1

7 Mrd.

63,4

Gemma 2

9 Mrd.

76,6

Gemma 2

27 Mrd.

83,7

Gemma 1

2,5 Mrd.

12,5

Gemma 2

2,6 Mrd.

16,7

Mistral

7 Mrd.

23.2

Gemma 1

7 Mrd.

23,0

Gemma 2

9 Mrd.

29,2

Gemma 2

27 Mrd.

34,5

Gemma 1

2,5 Mrd.

22,0

Gemma 2

2,6 Mrd.

17.7

Mistral

7 Mrd.

26,2

Gemma 1

7 Mrd.

32,3

Gemma 2

9 Mrd.

40,2

Gemma 2

27 Mrd.

51,8

Gemma 1

2,5 Mrd.

29,2

Gemma 2

2,6 Mrd.

29,6

Mistral

7 Mrd.

40,2

Gemma 1

7 Mrd.

44,4

Gemma 2

9 Mrd.

52,4

Gemma 2

27 Mrd.

62,6

*Dies sind die Benchmarks für die vortrainierten Modelle. Details zur Leistung mit anderen Methoden finden Sie im technischen Bericht.

<ph type="x-smartling-placeholder"></ph> Technischen Bericht lesen

Kurzanleitungen für Entwickler

Gemma-Rezepte

Entdecken Sie eine Sammlung praktischer Rezepte und Beispiele, die die Leistungsfähigkeit und Vielseitigkeit von Gemma für Aufgaben wie Bilduntertitel mit PaliGemma, Codegenerierung mit CodeGemma und das Erstellen von Chatbots mit fein abgestimmten Gemma-Modellen unter Beweis stellen.

<ph type="x-smartling-placeholder"></ph> Los gehts

Verantwortungsbewusste Entwicklung von KI

Verantwortungsbewusstsein von Anfang an

Mit sorgfältig ausgewählten Daten vortrainiert und auf Sicherheit abgestimmt, um eine sichere und verantwortungsvolle KI-Entwicklung basierend auf Gemma-Modellen zu ermöglichen.

Robuste und transparente Bewertung

Umfassende Bewertungen und transparente Berichterstattung zeigen die Grenzen des Modells auf, die für einen verantwortungsvollen Ansatz für jeden Anwendungsfall erforderlich ist.

Verantwortungsvolle Entwicklung fördern

Das Toolkit für Responsible Generative AI unterstützt Entwickler bei der Entwicklung und Implementierung von Best Practices für Responsible AI.

<ph type="x-smartling-placeholder"></ph> Toolkit für Responsible Gen AI
Symbol: Google Cloud

Für Google Cloud optimiert

Mit Gemma-Modellen in Google Cloud können Sie das Modell mit den vollständig verwalteten Tools von Vertex AI oder der selbstverwalteten Option von GKE umfassend an Ihre spezifischen Anforderungen anpassen und in einer flexiblen und kosteneffizienten KI-optimierten Infrastruktur bereitstellen.

<ph type="x-smartling-placeholder"></ph> Weitere Informationen im Google Cloud-Blog

Akademische Forschung mit Google Cloud-Guthaben beschleunigen

Die Bewerbungsfrist für das Academic Research Program wurde vor Kurzem beendet. Mit einem Google Cloud-Guthaben können Forscher mithilfe von Gemma-Modellen die Grenzen der wissenschaftlichen Entdeckung hinaus erweitern. Wir sind gespannt auf die bahnbrechende Forschung, die sich aus dieser Initiative ergibt.

Wir halten Sie über zukünftige Möglichkeiten zur Förderung Ihrer Forschung mit Google Cloud auf dem Laufenden.

Community beitreten

Vernetzen, entdecken und Ihr Wissen mit anderen in der Community für ML-Modelle teilen.