Consultez le dépôt des livres de recettes Gemma pour des exemples de génération et de réglage ! En savoir plus

Cette page a été traduite par l'API Cloud Translation.

Fiche de modèle Gemma 3

Page du modèle: Gemma

Ressources et documentation technique:

Conditions d'utilisation: Conditions

Auteurs: Google DeepMind

Infos sur le modèle

Description récapitulative et brève définition des entrées et des sorties.

Description

Gemma est une famille de modèles ouverts, légers et à la pointe de la technologie de Google, basés sur les mêmes recherches et technologies que celles utilisées pour créer les modèles Gemini. Les modèles Gemma 3 sont multimodaux. Ils gèrent les entrées textuelles et les images, et génèrent des sorties textuelles, avec des poids ouverts pour les variantes pré-entraînées et les variantes adaptées aux instructions. Gemma 3 dispose d'une grande fenêtre de contexte de 128 ko, d'une compatibilité multilingue dans plus de 140 langues et est disponible dans plus de tailles que les versions précédentes. Les modèles Gemma 3 sont adaptés à diverses tâches de génération de texte et de compréhension des images, y compris les réponses aux questions, la synthèse et le raisonnement. Leur taille relativement petite permet de les déployer dans des environnements aux ressources limitées, tels que des ordinateurs portables, des ordinateurs de bureau ou votre propre infrastructure cloud. Cela permet de démocratiser l'accès aux modèles d'IA de pointe et de favoriser l'innovation pour tous.

Entrées et sorties

Entrée :
- Chaîne de texte, telle qu'une question, une requête ou un document à résumer
- Images, normalisées à une résolution de 896 x 896 et encodées en 256 jetons chacune
- Contexte d'entrée total de 128 ko pour les tailles 4 octets, 12 octets et 27 octets, et de 32 ko pour la taille 1 octet
Résultat :
- Texte généré en réponse à l'entrée, comme une réponse à une question, une analyse du contenu d'une image ou un résumé d'un document
- Contexte de sortie total pouvant atteindre 128 ko pour les tailles de 4 octets, 12 octets et 27 octets, et 32 ko pour la taille de 1 octet par requête, en soustrayant les jetons d'entrée de la requête

Citation

@article{gemma_2025,
    title={Gemma 3},
    url={https://arxiv.org/abs/2503.19786},
    publisher={Google DeepMind},
    author={Gemma Team},
    year={2025}
}

Modéliser les données

Données utilisées pour l'entraînement du modèle et mode de traitement des données

Ensemble de données d'entraînement

Ces modèles ont été entraînés sur un ensemble de données textuelles qui comprend un large éventail de sources. Le modèle 27 milliards a été entraîné avec 14 milliards de jetons, le modèle 12 milliards avec 12 milliards de jetons, le modèle 4 milliards avec 4 milliards de jetons et le modèle 1 milliard avec 2 milliards de jetons. La date limite de connaissance des données d'entraînement était août 2024. Voici les principaux composants:

Documents Web: une collection variée de textes Web garantit que le modèle est exposé à un large éventail de styles linguistiques, de sujets et de vocabulaire. L'ensemble de données d'entraînement inclut du contenu dans plus de 140 langues.
Code: exposer le modèle au code lui permet d'apprendre la syntaxe et les schémas des langages de programmation, ce qui améliore sa capacité à générer du code et à comprendre les questions liées au code.
Mathématiques: l'entraînement sur du texte mathématique aide le modèle à apprendre le raisonnement logique, la représentation symbolique et à répondre aux requêtes mathématiques.
Images: un large éventail d'images permet au modèle d'effectuer des tâches d'analyse d'images et d'extraction de données visuelles.

La combinaison de ces différentes sources de données est essentielle pour entraîner un modèle multimodal puissant capable de gérer une grande variété de tâches et de formats de données différents.

Prétraitement des données

Voici les principales méthodes de nettoyage et de filtrage des données appliquées aux données d'entraînement:

Filtrage des contenus d'abus sexuels sur mineurs: un filtrage rigoureux des contenus d'abus sexuels sur mineurs a été appliqué à plusieurs étapes du processus de préparation des données afin d'exclure les contenus nuisibles et illégaux.
Filtrage des données sensibles: pour rendre les modèles pré-entraînés de Gemma sûrs et fiables, des techniques automatisées ont été utilisées pour filtrer certaines informations personnelles et d'autres données sensibles des ensembles d'entraînement.
Autres méthodes: filtrage en fonction de la qualité et de la sécurité des contenus, conformément à nos Règles.

Informations d'implémentation

Informations sur les composants internes du modèle.

Matériel

Gemma a été entraînée à l'aide de matériel Tensor Processing Unit (TPU) (TPUv4p, TPUv5p et TPUv5e). L'entraînement de modèles de vision-langage (VLM) nécessite une puissance de calcul importante. Les TPU, conçus spécifiquement pour les opérations matricielles courantes dans le machine learning, offrent plusieurs avantages dans ce domaine:

Performances: les TPU sont spécialement conçus pour gérer les calculs massifs impliqués dans l'entraînement des VLM. Ils peuvent accélérer considérablement l'entraînement par rapport aux processeurs.
Mémoire: les TPU sont souvent fournis avec de grandes quantités de mémoire à haut débit, ce qui permet de gérer de grands modèles et de grandes tailles de lots lors de l'entraînement. Cela peut améliorer la qualité du modèle.
Évolutivité: les pods TPU (grands clusters de TPU) offrent une solution évolutive pour gérer la complexité croissante des grands modèles de base. Vous pouvez répartir l'entraînement sur plusieurs appareils TPU pour un traitement plus rapide et plus efficace.
Économie: dans de nombreux cas, les TPU peuvent fournir une solution plus économique pour l'entraînement de grands modèles par rapport à l'infrastructure basée sur les processeurs, en particulier en tenant compte du temps et des ressources économisés grâce à un entraînement plus rapide.
Ces avantages sont conformes aux engagements de Google en matière de développement durable.

Logiciel

L'entraînement a été effectué à l'aide de JAX et de ML Pathways.

JAX permet aux chercheurs de profiter de la dernière génération de matériel, y compris des TPU, pour un entraînement plus rapide et plus efficace de grands modèles. ML Pathways est le dernier effort de Google visant à créer des systèmes d'intelligence artificielle capables de généraliser sur plusieurs tâches. Cela convient particulièrement aux modèles de base, y compris aux grands modèles de langage comme ceux-ci.

Ensemble, JAX et ML Pathways sont utilisés comme décrit dans l'article sur la famille de modèles Gemini : "Le modèle de programmation "single controller" de Jax et Pathways permet à un seul processus Python d'orchestrer l'ensemble de l'exécution d'entraînement, ce qui simplifie considérablement le workflow de développement."

Évaluation

Métriques et résultats d'évaluation du modèle.

Résultats du benchmark

Ces modèles ont été évalués par rapport à un grand nombre d'ensembles de données et de métriques différents pour couvrir différents aspects de la génération de texte. Les résultats d'évaluation marqués de IT sont destinés aux modèles optimisés par instruction. Les résultats d'évaluation marqués de PT sont destinés aux modèles pré-entraînés.

Raisonnement et factualité

Benchmark	n-shot	Gemma 3 IT 1B	Gemma 3 IT 4B	Gemma 3 IT 12B	Gemma 3 IT 27B
GPQA Diamant	Zero-shot	19.2	30,8	40,9	42.4
SimpleQA	Zero-shot	2.2	4.0	6,3	10,0
FACTS Grounding	-	36,4	70.1	75,8	74.9
BIG-Bench Hard	Zero-shot	39.1	72.2	85,7	87,6
BIG-Bench Extra Hard	Zero-shot	7.2	11.0	16.3	19.3
IFEval	Zero-shot	80,2	90,2	88,9	90,4

Benchmark	n-shot	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
HellaSwag	10 coups	62,3	77.2	84,2	85,6
BoolQ	Zero-shot	63.2	72.3	78,8	82,4
PIQA	Zero-shot	73,8	79,6	81,8	83,3
SocialIQA	Zero-shot	48.9	51,9	53,4	54,9
TriviaQA	5 tirs	39,8	65,8	78,2	85,5
Questions naturelles	5 tirs	9,48	20.0	31,4	36.1
ARC-c	25 coups	38,4	56,2	68,9	70,6
ARC-e	Zero-shot	73	82,4	88,3	89
WinoGrande	5 tirs	58.2	64,7	74,3	78,8
BIG-Bench Hard	few-shot	28,4	50,9	72,6	77,7
DROP	1 shot	42.4	60.1	72.2	77.2

Sciences, technologies, ingénierie, mathématiques et code

Benchmark	n-shot	Gemma 3 IT 1B	Gemma 3 IT 4B	Gemma 3 IT 12B	Gemma 3 IT 27B
MMLU (Pro)	Zero-shot	14.7	43,6	60,6	67,5
LiveCodeBench	Zero-shot	1.9	12,6	24,6	29,7
Bird-SQL (version en développement)	-	6.4	36,3	47,9	54,4
Mathématiques	Zero-shot	48.0	75,6	83,8	89
HiddenMath	Zero-shot	15.8	43.0	54,5	60,3
MBPP	3 coups	35.2	63.2	73	74,4
HumanEval	Zero-shot	41,5	71,3	85,4	87,8
Natural2Code	Zero-shot	56	70,3	80,7	84,5
GSM8K	Zero-shot	62,8	89,2	94,4	95,9

Benchmark	n-shot	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
MMLU	5 tirs	59,6	74,5	78,6
MMLU (Pro COT)	5 tirs	29,2	45.3	52,2
AGIEval	3-5-shot	42.1	57,4	66,2
MATH	4 coups	24.2	43,3	50
GSM8K	8 coups	38,4	71	82,6
GPQA	5 tirs	15,0	25,4	24,3
MBPP	3 coups	46	60,4	65,6
HumanEval	Zero-shot	36	45.7	48,8

Solution multilingue

Benchmark	n-shot	Gemma 3 IT 1B	Gemma 3 IT 4B	Gemma 3 IT 12B	Gemma 3 IT 27B
Global-MMLU-Lite	Zero-shot	34,2	54,5	69,5	75,1
ECLeKTic	Zero-shot	1.4	4.6	10.3	16.7
WMT24++	Zero-shot	35,9	46,8	51,6	53,4

Benchmark	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
MGSM	2,04	34.7	64.3	74,3
Global-MMLU-Lite	24,9	57	69,4	75,7
WMT24++ (ChrF)	36,7	48,4	53,9	55,7
FloRes	29,5	39,2	46	48,8
XQuAD (toutes)	43,9	68	74,5	76,8
ECLeKTic	4,69	11.0	17.2	24,4
IndicGenBench	41,4	57,2	61,7	63,4

Multimode

Benchmark	Gemma 3 IT 4B	Gemma 3 IT 12B	Gemma 3 IT 27B
MMMU (val)	48,8	59,6	64,9
DocVQA	75,8	87,1	86,6
InfoVQA	50	64,9	70,6
TextVQA	57,8	67,7	65.1
AI2D	74,8	84,2	84,5
ChartQA	68,8	75,7	78.0
VQAv2 (val)	62,4	71,6	71
MathVista (testmini)	50	62,9	67,6

Benchmark	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
COCOcap	102	111	116
DocVQA (val)	72,8	82,3	85,6
InfoVQA (val)	44.1	54,8	59,4
MMMU (pt)	39,2	50,3	56,1
TextVQA (val)	58,9	66.5	68,6
RealWorldQA	45,5	52,2	53,9
ReMI	27,3	38.5	44,8
AI2D	63.2	75,2	79
ChartQA	63,6	74,7	76,3
VQAv2	63,9	71,2	72,9
BLINK	38.0	35,9	39,6
OKVQA	51	58,7	60.2
TallyQA	42,5	51,8	54.3
Visual Question Answering SpatialSense	50,9	60	59,4
CountBenchQA	26.1	17,8	68

Éthique et sécurité

Approche et résultats de l'évaluation de l'éthique et de la sécurité

Approche d'évaluation

Nos méthodes d'évaluation incluent des évaluations structurées et des tests internes de red teaming sur les règles de contenu pertinentes. La simulation d'attaque a été menée par plusieurs équipes différentes, chacune ayant des objectifs et des métriques d'évaluation humaines différents. Ces modèles ont été évalués en fonction d'un certain nombre de catégories différentes liées à l'éthique et à la sécurité, y compris les suivantes:

Sécurité des enfants: évaluation des requêtes de conversion de texte en texte et d'image en texte couvrant les règles de sécurité des enfants, y compris les abus sexuels et l'exploitation des enfants.
Sécurité du contenu:évaluation des requêtes de conversion de texte en texte et d'image en texte couvrant les règles de sécurité, y compris le harcèlement, la violence et l'incitation à la haine.
Dommages liés à la représentation: évaluation des requêtes de conversion de texte en texte et d'image en texte couvrant les règles de sécurité, y compris les biais, les stéréotypes, et les associations ou inexactitudes nuisibles.

En plus des évaluations au niveau du développement, nous effectuons des "évaluations d'assurance", qui sont nos évaluations internes "à distance" pour la prise de décision en matière de gouvernance des responsabilités. Elles sont menées séparément de l'équipe de développement du modèle pour éclairer la prise de décision concernant la publication. Les résultats généraux sont communiqués à l'équipe de modélisation, mais les ensembles d'invites sont conservés pour éviter le surajustement et préserver la capacité des résultats à éclairer la prise de décision. Les résultats de l'évaluation de l'assurance sont communiqués à notre Conseil pour la responsabilité et la sécurité dans le cadre de l'examen de la version.

Résultats de l'évaluation

Pour tous les domaines des tests de sécurité, nous avons constaté des améliorations majeures dans les catégories de sécurité pour les enfants, de sécurité des contenus et de préjudices représentationnels par rapport aux modèles Gemma précédents. Tous les tests ont été effectués sans filtres de sécurité pour évaluer les capacités et les comportements du modèle. Pour le texte-image et le texte-image, et pour toutes les tailles de modèle, le modèle a généré un nombre minimal d'infractions aux règles et a montré des améliorations significatives par rapport aux performances des modèles Gemma précédents en termes d'inférences non fondées. Une limite de nos évaluations était qu'elles n'incluaient que des invites en anglais.

Utilisation et limites

Ces modèles présentent certaines limites que les utilisateurs doivent connaître.

Utilisation prévue

Les modèles de vision-langage (VLM) ouverts ont de nombreuses applications dans différents secteurs et domaines. La liste suivante des utilisations potentielles n'est pas exhaustive. L'objectif de cette liste est de fournir des informations contextuelles sur les cas d'utilisation possibles que les créateurs de modèles ont pris en compte lors de l'entraînement et du développement du modèle.

Création de contenu et communication
- Génération de texte: ces modèles peuvent être utilisés pour générer des formats de texte créatifs tels que des poèmes, des scripts, du code, des textes marketing et des brouillons d'e-mails.
- Chatbots et IA conversationnelle: alimentez les interfaces conversationnelles pour le service client, les assistants virtuels ou les applications interactives.
- Synthèse de texte: génère des résumés concis d'un corpus de texte, d'articles de recherche ou de rapports.
- Extraction de données d'image: ces modèles peuvent être utilisés pour extraire, interpréter et résumer les données visuelles pour les communications textuelles.
Recherche et enseignement
- Recherche sur le traitement du langage naturel (TLN) et les modèles de langage virtuel: ces modèles peuvent servir de base aux chercheurs pour tester les techniques de VLM et de TLN, développer des algorithmes et contribuer au développement du domaine.
- Outils d'apprentissage des langues: permettent de proposer des expériences d'apprentissage des langues interactives, de corriger la grammaire ou de s'entraîner à écrire.
- Exploration des connaissances: aide les chercheurs à explorer de grands volumes de texte en générant des résumés ou en répondant à des questions sur des sujets spécifiques.

Limites

Données d'entraînement
- La qualité et la diversité des données d'entraînement ont une influence significative sur les capacités du modèle. Les biais ou les écarts dans les données d'entraînement peuvent entraîner des limites dans les réponses du modèle.
- La portée de l'ensemble de données d'entraînement détermine les domaines que le modèle peut gérer efficacement.
Contexte et complexité de la tâche
- Les modèles sont plus efficaces pour les tâches qui peuvent être définies à l'aide de requêtes et d'instructions claires. Les tâches ouvertes ou très complexes peuvent être difficiles.
- Les performances d'un modèle peuvent être influencées par la quantité de contexte fournie (un contexte plus long conduit généralement à de meilleurs résultats, jusqu'à un certain point).
Ambiguïté et nuances du langage
- Le langage naturel est intrinsèquement complexe. Les modèles peuvent avoir du mal à saisir les nuances subtiles, le sarcasme ou le langage figuratif.
Précision factuelle
- Les modèles génèrent des réponses en fonction des informations qu'ils ont apprises à partir de leurs ensembles de données d'entraînement, mais ils ne sont pas des bases de connaissances. Ils peuvent générer des déclarations factuelles incorrectes ou obsolètes.
Common Sense
- Les modèles s'appuient sur des schémas statistiques dans le langage. Il peut lui manquer la capacité d'appliquer un raisonnement de bon sens dans certaines situations.

Considérations éthiques et risques

Le développement de modèles de vision-langage (VLM) soulève plusieurs problèmes éthiques. Pour créer un modèle ouvert, nous avons pris en compte les points suivants:

Biais et équité
- Les VLM entraînés sur des données textuelles et imagées réelles à grande échelle peuvent refléter des biais socioculturels intégrés au matériel de formation. Ces modèles ont fait l'objet d'un examen minutieux, le prétraitement des données d'entrée a été décrit et les évaluations ultérieures ont été signalées dans cette fiche.
Informations incorrectes et utilisation abusive
- Les VLM peuvent être utilisés de manière abusive pour générer du texte faux, trompeur ou nuisible.
- Des consignes sont fournies pour une utilisation responsable du modèle. Consultez le kit d'IA générative responsable.
Transparence et responsabilité :
- Cette fiche de modèle résume les informations sur l'architecture, les fonctionnalités, les limites et les processus d'évaluation des modèles.
- Un modèle ouvert développé de manière responsable offre la possibilité de partager l'innovation en rendant la technologie VLM accessible aux développeurs et aux chercheurs de l'écosystème de l'IA.

Risques identifiés et mesures d'atténuation:

Perpétuation des biais: nous vous encourageons à effectuer une surveillance continue (à l'aide de métriques d'évaluation et d'examens humains) et à explorer des techniques de débiasage lors de l'entraînement, du réglage fin et d'autres cas d'utilisation des modèles.
Génération de contenus nuisibles: des mécanismes et des consignes de sécurité des contenus sont essentiels. Les développeurs sont encouragés à faire preuve de prudence et à mettre en place des mesures de sécurité appropriées pour le contenu en fonction des règles spécifiques de leurs produits et des cas d'utilisation de leurs applications.
Usage à des fins malveillantes: les limites techniques et la formation des développeurs et des utilisateurs finaux peuvent aider à limiter les applications malveillantes des VLM. Des ressources pédagogiques et des mécanismes de signalement sont fournis pour permettre aux utilisateurs de signaler les utilisations abusives. Les utilisations interdites des modèles Gemma sont décrites dans le Règlement sur les utilisations interdites de Gemma.
Non-respect de la confidentialité: les modèles ont été entraînés sur des données filtrées pour supprimer certaines informations personnelles et d'autres données sensibles. Les développeurs sont encouragés à respecter les réglementations sur la confidentialité à l'aide de techniques protégeant la confidentialité.

Avantages

Au moment de la publication, cette famille de modèles fournit des implémentations de modèles de vision et de langage ouverts hautes performances conçues dès le départ pour le développement d'une IA responsable, par rapport aux modèles de taille similaire.

En utilisant les métriques d'évaluation de référence décrites dans ce document, ces modèles ont démontré qu'ils offraient des performances supérieures à celles d'autres alternatives de modèles ouverts de taille comparable.