Fiche du modèle Gemma 4

Bannière Gemma 4

Hugging Face | GitHub | Blog de lancement | Documentation
Licence : Apache 2.0 | Auteurs : Google DeepMind

Gemma est une famille de modèles ouverts conçus par Google DeepMind. Les modèles Gemma 4 sont multimodaux. Ils traitent les entrées de texte et d'image (l'audio est pris en charge sur les petits modèles) et génèrent des sorties de texte. Cette version inclut des modèles à poids ouverts dans les variantes pré-entraînée et ajustée aux instructions. Gemma 4 dispose d'une fenêtre de contexte pouvant contenir jusqu'à 256 000 jetons et est compatible avec plus de 140 langues.

Dotée d'architectures denses et Mixture-of-Experts (MoE), Gemma 4 est parfaitement adaptée aux tâches telles que la génération de texte, le codage et le raisonnement. Les modèles sont disponibles en quatre tailles distinctes : E2B, E4B, 26B A4B et 31B. Leur taille variée leur permet d'être déployés dans des environnements allant des téléphones haut de gamme aux ordinateurs portables et aux serveurs, démocratisant ainsi l'accès à l'IA de pointe.

Gemma 4 introduit des fonctionnalités et des avancées architecturales clés :

  • Raisonnement : tous les modèles de la famille sont conçus comme des outils de raisonnement très performants, avec des modes de réflexion configurables.

  • Multimodalité étendue : traite le texte, les images avec prise en charge du format et de la résolution variables (tous les modèles), les vidéos et l'audio (fonctionnalité native des modèles E2B et E4B).

  • Architectures diverses et efficaces : propose des variantes denses et Mixture-of-Experts (MoE) de différentes tailles pour un déploiement évolutif.

  • Optimisé pour les appareils : les modèles plus petits sont spécialement conçus pour une exécution locale efficace sur les ordinateurs portables et les appareils mobiles.

  • Fenêtre de contexte plus grande : les petits modèles disposent d'une fenêtre de contexte de 128 000, tandis que les modèles moyens prennent en charge 256 000.

  • Capacités de codage et agentiques améliorées : améliore considérablement les benchmarks de codage grâce à la prise en charge native de l'appel de fonctions, ce qui permet d'alimenter des agents autonomes très performants.

  • Prise en charge native des invites système : Gemma 4 introduit la prise en charge native du rôle system, ce qui permet des conversations plus structurées et contrôlables.

Présentation des modèles

Les modèles Gemma 4 sont conçus pour offrir des performances de pointe à chaque taille, en ciblant les scénarios de déploiement allant des appareils mobiles et de périphérie (E2B, E4B) aux GPU grand public et aux stations de travail (26B A4B, 31B). Ils sont particulièrement adaptés au raisonnement, aux workflows agentiques, au codage et à la compréhension multimodale.

Les modèles utilisent un mécanisme d'attention hybride qui entrelace l'attention locale à fenêtre glissante avec l'attention globale complète, en veillant à ce que la couche finale soit toujours globale. Cette conception hybride offre la vitesse de traitement et la faible empreinte mémoire d'un modèle léger, sans sacrifier la conscience approfondie requise pour les tâches complexes à contexte long. Pour optimiser la mémoire pour les contextes longs, les couches globales disposent de clés et de valeurs unifiées, et appliquent Proportional RoPE (p-RoPE).

Modèles denses

Propriété E2B E4B 31B Dense
Nombre total de paramètres 2,3 milliards de paramètres effectifs (5,1 milliards avec les embeddings) 4,5 milliards de paramètres effectifs (8 milliards avec les embeddings) 30,7 milliards
Calques 35 42 60
Fenêtre coulissante 512 jetons 512 jetons 1 024 jetons
Longueur du contexte 128 000 jetons 128 000 jetons 256 000 jetons
Taille du vocabulaire 262 k 262 k 262 k
Modalités acceptées Texte, image, audio Texte, image, audio Texte, image
Paramètres de l'encodeur Vision ~ 150 M ~ 150 M ~550 M
Paramètres de l'encodeur audio ~300 M ~300 M Pas de son

Le "E" dans E2B et E4B signifie "paramètres effectifs". Les modèles plus petits intègrent des embeddings par couche (PLE, Per-Layer Embeddings) pour maximiser l'efficacité des paramètres dans les déploiements sur l'appareil. Au lieu d'ajouter des calques ou des paramètres au modèle, PLE attribue à chaque calque de décodeur son propre petit embedding pour chaque jeton. Ces tables d'intégration sont volumineuses, mais ne sont utilisées que pour des recherches rapides. C'est pourquoi le nombre de paramètres effectif est beaucoup plus petit que le nombre total.

Modèle MoE (Mixture of Experts)

Propriété 26B A4B MoE
Nombre total de paramètres 25,2 Mds
Paramètres actifs 3,8 milliards
Calques 30
Fenêtre coulissante 1 024 jetons
Longueur du contexte 256 000 jetons
Taille du vocabulaire 262 k
Nombre d'experts 8 actifs / 128 au total et 1 partagé
Modalités acceptées Texte, image
Paramètres de l'encodeur Vision ~550 M

Le "A" de 26B A4B signifie "paramètres actifs", par opposition au nombre total de paramètres que contient le modèle. En n'activant qu'un sous-ensemble de 4 milliards de paramètres lors de l'inférence, le modèle Mixture-of-Experts s'exécute beaucoup plus rapidement que ses 26 milliards de paramètres totaux ne le suggèrent. Il s'agit donc d'un excellent choix pour une inférence rapide par rapport au modèle dense de 31 milliards de paramètres, car il s'exécute presque aussi rapidement qu'un modèle de 4 milliards de paramètres.

Résultats du benchmark

Ces modèles ont été évalués par rapport à une grande collection de différents ensembles de données et métriques pour couvrir différents aspects de la génération de texte. Les résultats d'évaluation indiqués dans le tableau concernent les modèles ajustés aux instructions.

Gemma 4 31B Gemma 4 26B A4B Gemma 4 E4B Gemma 4 E2B Gemma 3 27B (sans réflexion)
MMLU Pro 85,2 % 82,6 % 69,4 % 60 % 67,6 %
AIME 2026 no tools 89,2 % 88,3 % 42,5 % 37,5 % 20,8 %
LiveCodeBench v6 80 % 77,1 % 52,0 % 44 % 29,1 %
ELO Codeforces 2150 1718 940 633 110
GPQA Diamond 84,3 % 82,3 % 58,6 % 43,4 % 42,4 %
Tau2 (moyenne sur 3) 76,9 % 68,2 % 42,2 % 24,5 % 16,2 %
HLE sans outils 19,5 % 8,7 % - - -
HLE avec la recherche 26,5 % 17,2 % - - -
BigBench Extra Hard 74,4 % 64.8% 33,1 % 21,9 % 19,3 %
MMMLU 88,4 % 86,3 % 76,6 % 67,4 % 70,7 %
Vision
MMMU Pro 76,9 % 73,8 % 52,6 % 44,2 % 49,7 %
OmniDocBench 1.5 (distance d'édition moyenne, plus la valeur est faible, mieux c'est) 0,131 0,149 0.181 0,290 0.365
MATH-Vision 85,6 % 82,4 % 59,5 % 52,4 % 46 %
MedXPertQA MM 61,3 % 58,1 % 28,7 % 23,5 % -
Audio
CoVoST - - 35.54 33.47 -
FLEURS (plus la valeur est faible, mieux c'est) - - 0,08 0.09 -
Contexte long
MRCR v2 8 aiguilles 128k (moyenne) 66,4 % 44,1 % 25,4 % 19,1 % 13,5 %

Fonctionnalités principales

Les modèles Gemma 4 gèrent un large éventail de tâches liées au texte, à la vision et à l'audio. Voici ses principales fonctionnalités :

  • Réflexion : mode de raisonnement intégré qui permet au modèle de réfléchir étape par étape avant de répondre.
  • Contexte long : fenêtres de contexte pouvant contenir jusqu'à 128 000 jetons (E2B/E4B) et 256 000 jetons (26B A4B/31B).
  • Compréhension des images : détection d'objets, analyse de documents/PDF, compréhension d'écrans et d'UI, compréhension de graphiques, OCR (y compris multilingue), reconnaissance de l'écriture manuscrite et pointage. Les images peuvent être traitées avec des résolutions et des formats variables.
  • Compréhension des vidéos : analysez les vidéos en traitant des séquences d'images.
  • Entrée multimodale entrelacée : mélangez librement du texte et des images dans n'importe quel ordre au sein d'une même requête.
  • Appel de fonction : prise en charge native de l'utilisation structurée des outils, permettant des workflows d'agent.
  • Codage : génération, complétion et correction de code.
  • Multilingue : prise en charge prête à l'emploi de plus de 35 langues, pré-entraînée sur plus de 140 langues.
  • Audio (E2B et E4B uniquement) : reconnaissance vocale automatique et traduction de la parole en texte traduit dans plusieurs langues.

Premiers pas

Vous pouvez utiliser tous les modèles Gemma 4 avec la dernière version de Transformers. Pour commencer, installez les dépendances nécessaires dans votre environnement :

pip install -U transformers torch accelerate

Une fois que tout est installé, vous pouvez charger le modèle avec le code ci-dessous :

import torch
from transformers import AutoProcessor, AutoModelForCausalLM

MODEL_ID = "google/gemma-4-E2B-it"

# Load model
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    dtype=torch.bfloat16,
    device_map="auto"
)

Une fois le modèle chargé, vous pouvez commencer à générer des résultats :

# Prompt
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Write a short joke about saving RAM."},
]

# Process input
text = processor.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False
)
inputs = processor(text=text, return_tensors="pt").to(model.device)
input_len = inputs["input_ids"].shape[-1]

# Generate output
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)

# Parse thinking
processor.parse_response(response)

Pour activer le raisonnement, définissez enable_thinking=True. La fonction parse_response se chargera d'analyser le résultat de la réflexion.

Bonnes pratiques

Pour optimiser les performances, utilisez les configurations et les bonnes pratiques suivantes :

1. Paramètres d'échantillonnage

Utilisez la configuration d'échantillonnage standardisée suivante pour tous les cas d'utilisation :

  • temperature=1.0
  • top_p=0.95
  • top_k=64

2. Configuration du mode de réflexion

Par rapport à Gemma 3, les modèles utilisent les rôles standards system, assistant et user. Pour gérer correctement le processus de réflexion, utilisez les jetons de contrôle suivants :

  • Déclencheur de réflexion : la réflexion est activée en incluant le jeton <|think|> au début du prompt système. Pour désactiver la réflexion, supprimez le jeton.
  • Génération standard : lorsque la réflexion est activée, le modèle affiche son raisonnement interne, suivi de la réponse finale, selon la structure suivante : <|channel>thought\n[Raisonnement interne]<channel|>
  • Comportement de réflexion désactivé : pour tous les modèles, à l'exception des variantes E2B et E4B, si la réflexion est désactivée, le modèle génère toujours les tags, mais avec un bloc de réflexion vide : <|channel>thought\n<channel|>[Réponse finale]

Notez que de nombreuses bibliothèques, comme Transformers et llama.cpp, gèrent pour vous les complexités du modèle de chat.

3. Conversations multitours

  • Aucun contenu de réflexion dans l'historique : dans les conversations multitours, la sortie du modèle historique ne doit inclure que la réponse finale. Les réflexions des tours précédents du modèle ne doivent pas être ajoutées avant le début du tour suivant de l'utilisateur.

4. Ordre des modalités

  • Pour optimiser les performances avec les entrées multimodales, placez le contenu image et/ou audio avant le texte dans votre requête.

5. Résolution d'image variable

En plus des formats variables, Gemma 4 prend en charge la résolution d'image variable grâce à un budget de jetons visuels configurable, qui contrôle le nombre de jetons utilisés pour représenter une image. Un budget de jetons plus élevé préserve davantage de détails visuels au prix d'un calcul supplémentaire, tandis qu'un budget plus faible permet une inférence plus rapide pour les tâches qui ne nécessitent pas une compréhension précise.

  • Les budgets de jetons acceptés sont les suivants : 70, 140, 280, 560 et 1 120.
    • Utilisez des budgets plus faibles pour la classification, le sous-titrage ou la compréhension des vidéos, où une inférence plus rapide et le traitement de nombreuses images l'emportent sur les détails précis.
    • Utilisez des budgets plus élevés pour les tâches telles que l'OCR, l'analyse de documents ou la lecture de petits textes.

6. Audio

Utilisez les structures de requête suivantes pour le traitement audio :

  • Reconnaissance vocale audio
Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
*   Only output the transcription, with no newlines.
*   When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.
  • Traduction automatique de la parole (AST)
Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

7. Durée des contenus audio et vidéo

Tous les modèles acceptent les entrées d'image et peuvent traiter les vidéos sous forme de frames, tandis que les modèles E2B et E4B acceptent également les entrées audio. La durée maximale de l'audio est de 30 secondes. La vidéo peut durer jusqu'à 60 secondes, en supposant que les images soient traitées à raison d'une image par seconde.

Données du modèle

Données utilisées pour l'entraînement du modèle et la façon dont elles ont été traitées

Ensemble de données d'entraînement

Notre ensemble de données de pré-entraînement est une vaste collection de données variées couvrant un large éventail de domaines et de modalités, y compris des documents Web, du code, des images et de l'audio, avec une date limite de janvier 2025. Voici les principaux composants :

  • Documents Web : une collection variée de textes Web permet au modèle d'être exposé à un large éventail de styles linguistiques, de thèmes et de vocabulaire. L'ensemble de données d'entraînement inclut du contenu dans plus de 140 langues.
  • Code : l'exposition du modèle au code l'aide à apprendre la syntaxe et les modèles des langages de programmation, ce qui améliore sa capacité à générer du code et à comprendre les questions liées au code.
  • Mathématiques : l'entraînement sur des textes mathématiques aide le modèle à apprendre le raisonnement logique, la représentation symbolique et à répondre aux requêtes mathématiques.
  • Images : un large éventail d'images permet au modèle d'effectuer des tâches d'analyse d'images et d'extraction de données visuelles.

La combinaison de ces diverses sources de données est essentielle pour entraîner un modèle multimodal puissant capable de gérer une grande variété de tâches et de formats de données.

Prétraitement des données

Voici les principales méthodes de nettoyage et de filtrage des données appliquées aux données d'entraînement :

  • Filtrage des contenus d'abus sexuels sur mineurs : un filtrage rigoureux des contenus d'abus sexuels sur mineurs a été appliqué à plusieurs étapes du processus de préparation des données pour garantir l'exclusion des contenus nuisibles et illégaux.
  • Filtrage des données sensibles : pour rendre les modèles pré-entraînés Gemma sûrs et fiables, des techniques automatisées ont été utilisées pour filtrer certaines informations personnelles et d'autres données sensibles des ensembles d'entraînement.
  • Méthodes supplémentaires : filtrage basé sur la qualité et la sécurité du contenu conformément à nos règles.

Éthique et sécurité

À mesure que les modèles ouverts deviennent essentiels à l'infrastructure des entreprises, la provenance et la sécurité sont primordiales. Développé par Google DeepMind, Gemma 4 est soumis aux mêmes évaluations de sécurité rigoureuses que nos modèles Gemini propriétaires.

Approche d'évaluation

Les modèles Gemma 4 ont été développés en partenariat avec les équipes internes chargées de la sécurité et de l'IA responsable. Nous avons effectué diverses évaluations automatiques et humaines pour améliorer la sécurité du modèle. Ces évaluations sont conformes aux principes de Google en matière d'IA, ainsi qu'aux règles de sécurité, qui visent à empêcher nos modèles d'IA générative de générer des contenus nuisibles, y compris :

  • Contenus liés à l'exploitation et aux abus sexuels sur mineurs
  • Contenus dangereux (par exemple, incitation au suicide ou instructions pour des activités pouvant causer des dommages réels)
  • Contenu à caractère sexuel explicite
  • Incitation à la haine (par exemple, déshumanisation des membres de groupes protégés)
  • Harcèlement (par exemple, incitation à la violence contre des personnes)

Résultats de l'évaluation

Pour tous les domaines de tests de sécurité, nous avons constaté des améliorations majeures dans toutes les catégories de sécurité du contenu par rapport aux modèles Gemma précédents. Dans l'ensemble, les modèles Gemma 4 surpassent largement les modèles Gemma 3 et 3n en termes d'amélioration de la sécurité, tout en maintenant un faible taux de refus injustifiés. Tous les tests ont été effectués sans filtres de sécurité pour évaluer les capacités et les comportements du modèle. Pour les tâches de texte à texte et d'image à texte, et pour toutes les tailles de modèle, le modèle a produit un minimum de cas de non-respect des règles et a montré des améliorations significatives par rapport aux performances des modèles Gemma précédents.

Utilisation et limites

Ces modèles présentent certaines limites que les utilisateurs doivent connaître.

Utilisation prévue

Les modèles multimodaux (capables de traiter la vision, le langage et/ou l'audio) ont un large éventail d'applications dans divers secteurs et domaines. La liste suivante des utilisations potentielles n'est pas exhaustive. L'objectif de cette liste est de fournir des informations contextuelles sur les cas d'utilisation possibles que les créateurs du modèle ont pris en compte lors de l'entraînement et du développement du modèle.

  • Création et communication de contenu
    • Génération de texte : ces modèles peuvent être utilisés pour générer des formats de texte créatifs tels que des poèmes, des scripts, du code, des textes marketing et des brouillons d'e-mails.
    • Chatbots et IA conversationnelle : alimentez les interfaces conversationnelles pour le service client, les assistants virtuels ou les applications interactives.
    • Synthèse de texte : générez des résumés concis d'un corpus de texte, d'articles de recherche ou de rapports.
    • Extraction de données d'image : ces modèles peuvent être utilisés pour extraire, interpréter et résumer des données visuelles pour les communications textuelles.
    • Traitement et interaction audio : les modèles plus petits (E2B et E4B) peuvent analyser et interpréter les entrées audio, ce qui permet les interactions et les transcriptions vocales.
  • Recherche et enseignement
    • Recherche sur le traitement du langage naturel (TLN) et les VLM : ces modèles peuvent servir de base aux chercheurs pour expérimenter les techniques VLM et de traitement du langage naturel, développer des algorithmes et contribuer à l'avancement du domaine.
    • Outils d'apprentissage des langues : permettent de créer des expériences d'apprentissage des langues interactives, en aidant à corriger la grammaire ou en proposant des exercices d'écriture.
      • Exploration des connaissances : aidez les chercheurs à explorer de grands ensembles de texte en générant des résumés ou en répondant à des questions sur des sujets spécifiques.

Limites

  • Données d'entraînement
    • La qualité et la diversité des données d'entraînement ont une influence considérable sur les capacités du modèle. Les biais ou les lacunes dans les données d'entraînement peuvent entraîner des limites dans les réponses du modèle.
    • La portée de l'ensemble de données d'entraînement détermine les domaines que le modèle peut traiter efficacement.
  • Contexte et complexité de la tâche
    • Les modèles fonctionnent bien pour les tâches qui peuvent être formulées avec des requêtes et des instructions claires. Les tâches ouvertes ou très complexes peuvent être difficiles.
    • Les performances d'un modèle peuvent être influencées par la quantité de contexte fournie (un contexte plus long conduit généralement à de meilleurs résultats, jusqu'à un certain point).
  • Ambiguïté et nuances linguistiques
    • Le langage naturel est intrinsèquement complexe. Les modèles peuvent avoir du mal à saisir les nuances subtiles, le sarcasme ou le langage figuré.
  • Précision factuelle
    • Les modèles génèrent des réponses basées sur les informations qu'ils ont apprises à partir de leurs ensembles de données d'entraînement, mais ils ne sont pas des bases de connaissances. Ils peuvent générer des affirmations factuelles incorrectes ou obsolètes.
  • Common Sense
    • Les modèles s'appuient sur des schémas statistiques dans le langage. Ils peuvent manquer de bon sens dans certaines situations.

Considérations et risques éthiques

Le développement de modèles de vision-langage (VLM) soulève plusieurs préoccupations éthiques. Pour créer un modèle ouvert, nous avons soigneusement examiné les points suivants :

  • Biais et équité
    • Les VLM entraînés sur des données textuelles et d'images réelles à grande échelle peuvent refléter des biais socioculturels intégrés dans le matériel d'entraînement. Les modèles Gemma 4 ont été soumis à un examen minutieux, à un prétraitement des données d'entrée et à des évaluations post-entraînement, comme indiqué dans cette fiche, afin de réduire le risque de ces biais.
  • Désinformation et utilisation abusive
    • Les VLM peuvent être utilisés de manière abusive pour générer du texte faux, trompeur ou nuisible.
    • Des consignes sont fournies pour une utilisation responsable du modèle. Consultez la boîte à outils d'IA générative responsable.
  • Transparence et responsabilité
    • Cette fiche de modèle résume des informations sur l'architecture, les capacités, les limites et les processus d'évaluation des modèles.
    • Un modèle ouvert développé de manière responsable permet de partager l'innovation en rendant la technologie VLM accessible aux développeurs et aux chercheurs de l'écosystème de l'IA.

Risques identifiés et stratégies d'atténuation :

  • Génération de contenu nuisible : les mécanismes et les consignes de sécurité du contenu sont essentiels. Nous encourageons les développeurs à faire preuve de prudence et à mettre en place des mesures de protection appropriées concernant le contenu en fonction des règles spécifiques à leurs produits et des cas d'utilisation de leurs applications.
  • Utilisation abusive à des fins malveillantes : les limites techniques et la formation des développeurs et des utilisateurs finaux peuvent contribuer à atténuer les applications malveillantes des LLM. Des ressources pédagogiques et des mécanismes de signalement permettant aux utilisateurs de signaler les utilisations abusives sont fournis.
  • Atteintes à la confidentialité : les modèles ont été entraînés sur des données filtrées pour supprimer certaines informations personnelles et d'autres données sensibles. Nous encourageons les développeurs à respecter les réglementations sur la confidentialité à l'aide de techniques de préservation de la confidentialité.
  • Perpétuation des biais : il est recommandé d'effectuer une surveillance continue (à l'aide de métriques d'évaluation et de révisions humaines) et d'explorer les techniques de suppression des biais lors de l'entraînement et de l'affinage des modèles, ainsi que dans d'autres cas d'utilisation.

Avantages

Au moment de la publication, cette famille de modèles fournit des implémentations de modèles open source de vision et de langage hautes performances, conçues dès le départ pour le développement d'une IA responsable par rapport aux modèles de taille similaire.