Modèles ouverts Gemma

Une famille de modèles ouverts légers et de pointe conçus à partir des mêmes recherches et technologies que celles utilisées pour créer les modèles Gemini

Logo Gemma Models

Une conception responsable

Ces modèles intègrent des mesures de sécurité complètes et contribuent à garantir des solutions d'IA responsables et fiables grâce à une sélection d'ensembles de données et à des réglages rigoureux.

Logo Gemma Models

Performances inégalées en termes de taille

Les modèles Gemma atteignent des résultats de benchmark exceptionnels avec des tailles de 2 et 7 milliards de dollars, et surpassent même certains modèles ouverts plus volumineux.

Logo Gemma Models

Framework flexible

Avec Keras 3.0, bénéficiez d'une compatibilité totale avec JAX, TensorFlow et PyTorch, ce qui vous permet de choisir et de changer facilement de frameworks en fonction de vos tâches.

Benchmarks

Gemma place la barre encore plus haut en termes de performances en termes de taille par rapport aux modèles populaires tels que Llama 2 et Mistral 7B.

5 plans, top-1

MLU

Le benchmark MMLU est un test qui mesure l'étendue des connaissances et de la capacité à résoudre les problèmes acquises par les grands modèles de langage au cours du pré-entraînement.

0 shot

HellaSwag

Le benchmark HellaSwag remet en question la capacité d'un modèle de langage à comprendre et à appliquer un raisonnement basé sur le bon sens en choisissant la fin la plus logique d'un récit.

0 shot

PIQA

Le benchmark PIQA teste la capacité d'un modèle de langage à comprendre et à appliquer les connaissances physiques du bon sens en répondant à des questions sur les interactions physiques quotidiennes.

0 shot

SIQA

Le benchmark SIQA évalue la compréhension des interactions sociales et du bon sens social par un modèle de langage en posant des questions sur les actions des individus et leurs implications sociales.

0 shot

Boolq

Le benchmark BoolQ teste la capacité d'un modèle de langage à répondre par oui ou non à des questions qui se produisent naturellement (générées dans des paramètres non sollicités et sans contrainte) afin de tester la capacité des modèles à effectuer des tâches d'inférence en langage naturel réelles.

notation partielle

Winogrande

Le benchmark Winogrande teste la capacité d'un modèle de langage à résoudre des tâches ambiguës de remplissage à l'aide d'options binaires, ce qui nécessite un raisonnement de bon sens généralisé.

7 plans

CQA

Le benchmark CQA évalue les performances des modèles de langage dans les systèmes de questions-réponses à choix multiples, qui requièrent différents types de connaissances de bon sens.

OBQA

Le benchmark OBQA évalue la capacité d'un modèle de langage à répondre à des questions avancées avec un raisonnement en plusieurs étapes, des connaissances de bon sens et une compréhension de texte enrichi, modélisées d'après des examens de livre ouvert.

ARC-e

Le benchmark ARC-e teste les compétences avancées d'un modèle de langage en réponse à des questions avec des questions scientifiques à choix multiples et de véritables niveaux scolaires.

ARC-C

Le benchmark ARC-c est un sous-ensemble plus ciblé de l'ensemble de données ARC-e. Il ne contient que des questions auxquelles des algorithmes courants (méthode de récupération et cooccurrence de mots) donnent des réponses incorrectes.

5 plans

TriviaQA

Le benchmark TriviaQA teste les compétences de compréhension en lecture sur des triples questions/réponses/évidences.

carte@1

HumanEval

Le benchmark HumanEval teste les capacités de génération de code d'un modèle de langage en évaluant si ses solutions réussissent les tests unitaires fonctionnels pour les problèmes de programmation.

Trois plans

MBPP

Le benchmark MBPP teste la capacité d'un modèle de langage à résoudre des problèmes de programmation Python élémentaires, en se concentrant sur les concepts fondamentaux de la programmation et l'utilisation standard des bibliothèques.

maj@1

GSM8K

Le benchmark GSM8K teste la capacité d'un modèle de langage à résoudre des problèmes mathématiques au niveau scolaire, qui nécessitent souvent plusieurs étapes de raisonnement.

4 plans

MATH

Le benchmark MATH évalue la capacité d'un modèle de langage à résoudre des problèmes écrits mathématiques complexes, nécessitant un raisonnement, une résolution de problèmes en plusieurs étapes et une compréhension des concepts mathématiques.

AGIEval

Le benchmark AGIEval teste l'intelligence générale d'un modèle de langage à l'aide de questions issues d'examens concrets conçus pour évaluer les capacités intellectuelles humaines (examens d'entrée à l'université, examens de droit, etc.).

BBH

Le benchmark BBH (BIG-Bench Hard) se concentre sur des tâches qui dépassent les capacités des modèles de langage actuels, en testant leurs limites dans différents domaines de raisonnement et de compréhension.

100 %

75 %

50 %

25 %

0 %

100 %

75 %

50 %

25 %

0 %

Gemma

7b

64,3

Gemma

2b

42.3

Mistral

7b

62,5

LLAMA-2

13 Mrds

54,8

LLAMA-2

7b

45,3

Gemma

7b

81,2

Gemma

2b

71,4

Mistral

7b

81,0

LLAMA-2

13 Mrds

80,7

LLAMA-2

7b

77,2

Gemma

7b

81,2

Gemma

2b

77,3

Mistral

7b

82,2

LLAMA-2

13 Mrds

80,5

LLAMA-2

7b

78,8

Gemma

7b

51,8

Gemma

2b

49,7

Mistral

7b

47,0*

LLAMA-2

13 Mrds

50,3

LLAMA-2

7b

48,3

Gemma

7b

83,2

Gemma

2b

69,42

Mistral

7b

83,2*

LLAMA-2

13 Mrds

81,7

LLAMA-2

7b

77,4

Gemma

7b

72,3

Gemma

2b

65,4

Mistral

7b

74,2

LLAMA-2

13 Mrds

72,8

LLAMA-2

7b

69.2

Gemma

7b

71,3

Gemma

2b

65,3

Mistral

7b

66,3*

LLAMA-2

13 Mrds

67,3

LLAMA-2

7b

57,8

Gemma

7b

52,8

Gemma

2b

47,8

Mistral

7b

52,2

LLAMA-2

13 Mrds

57,0

LLAMA-2

7b

58,6

Gemma

7b

81,5

Gemma

2b

73,2

Mistral

7b

80,5

LLAMA-2

13 Mrds

77,3

LLAMA-2

7b

75,2

Gemma

7b

53.2

Gemma

2b

42,06

Mistral

7b

54,9

LLAMA-2

13 Mrds

49,4

LLAMA-2

7b

45.9

Gemma

7b

63,4

Gemma

2b

53.2

Mistral

7b

62,5

LLAMA-2

13 Mrds

79,6

LLAMA-2

7b

72,1

Gemma

7b

32,3

Gemma

2b

22.0

Mistral

7b

26,2

LLAMA-2

13 Mrds

18,3

LLAMA-2

7b

12,8

Gemma

7b

44,4

Gemma

2b

29,2

Mistral

7b

40,2*

LLAMA-2

13 Mrds

30,6

LLAMA-2

7b

20,8

Gemma

7b

46,4

Gemma

2b

17.7

Mistral

7b

35,4*

LLAMA-2

13 Mrds

28,7

LLAMA-2

7b

14,6

Gemma

7b

24,3

Gemma

2b

11.8

Mistral

7b

12.7

LLAMA-2

13 Mrds

3.9

LLAMA-2

7b

2.5

Gemma

7b

41,7

Gemma

2b

24,2

Mistral

7b

41,2*

LLAMA-2

13 Mrds

39,1

LLAMA-2

7b

29,3

Gemma

7b

55.1

Gemma

2b

35,2

Mistral

7b

56,1*

LLAMA-2

13 Mrds

39,4

LLAMA-2

7b

32,6

*Consultez le rapport technique pour en savoir plus sur les performances obtenues avec d'autres méthodologies.

Développement d'IA responsable

Responsabilité dès la conception

Ce programme pré-entraîné sur des données soigneusement sélectionnées et adapté à la sécurité, contribue à favoriser le développement d'IA responsable et sécurisé basé sur des modèles Gemma.

Évaluation fiable et transparente

Des évaluations complètes et des rapports transparents révèlent les limites du modèle pour adopter une approche responsable pour chaque cas d'utilisation.

Pour un développement responsable

Le kit d'IA générative responsable aide les développeurs à concevoir et à mettre en œuvre de bonnes pratiques d'IA responsable.

Icône Google Cloud

Optimisé pour Google Cloud

Avec les modèles Gemma sur Google Cloud, vous pouvez personnaliser en profondeur le modèle en fonction de vos besoins spécifiques grâce aux outils entièrement gérés de Vertex AI ou à l'option autogérée de GKE, et le déployer sur une infrastructure flexible et économique optimisée par l'IA.

Accélérer la recherche universitaire avec les crédits Google Cloud

Le programme de recherche universitaire a récemment terminé sa période de candidature et accorde des crédits Google Cloud pour aider les chercheurs à repousser les limites de la découverte scientifique grâce aux modèles Gemma. Nous avons hâte de découvrir les avancées révolutionnaires de cette initiative.

Tenez-vous informé des futures opportunités d'approfondir vos recherches avec Google Cloud.

Rejoindre la communauté

Échangez, explorez et partagez vos connaissances avec d'autres membres de la communauté des modèles de ML.

Participez au concours de création du meilleur assistant d'IA pour les ingénieurs en ML

Kaggle organise un concours mettant les participants au défi d'utiliser des modèles Gemma afin de créer les meilleurs assistants d'IA pour les tâches d'ingénierie de ML. Les lauréats seront annoncés lors de Google I/O.

Participer au concours
Trophée de compétition Kaggle