Gemma 4 est disponible avec des entrées de texte, audio et image, et une fenêtre de contexte longue allant jusqu'à 256 000 jetons. En savoir plus

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Présentation du modèle Gemma 4

Gemma est une famille de modèles d'intelligence artificielle générative. Vous pouvez les utiliser dans une grande variété de tâches de génération, y compris pour répondre à des questions, résumer et raisonner. Les modèles Gemma sont fournis avec des pondérations ouvertes et permettent une utilisation commerciale responsable. Vous pouvez ainsi les ajuster et les déployer dans vos propres projets et applications.

La famille de modèles Gemma 4 comprend quatre architectures distinctes adaptées à des exigences matérielles spécifiques :

Petites tailles : modèles de paramètres efficaces 2B et 4B conçus pour le déploiement ultra-mobile, en périphérie et dans le navigateur (par exemple, Pixel, Chrome).
Dense : modèle dense puissant de 31 milliards de paramètres qui comble le fossé entre les performances de niveau serveur et l'exécution locale.
Mixture-of-Experts: : modèle MoE de 26 milliards de paramètres très efficace, conçu pour un débit élevé et un raisonnement avancé.
Unifié : modèle d'encodeur sans paramètre de 12 milliards pour les tâches multimodales, qui a remplacé les encodeurs de vision et audio par des projections linéaires directes de l'entrée.

Vous pouvez télécharger les modèles Gemma 4 depuis Kaggle et Hugging Face. Pour en savoir plus sur Gemma 4, consultez la fiche de modèle et le rapport technique. Les versions antérieures des modèles Gemma Core sont également disponibles au téléchargement. Pour en savoir plus, consultez Anciens modèles Gemma.

Obtenir sur Kaggle Obtenir sur Hugging Face

Capacités

Raisonnement : Tous les modèles de la famille sont conçus comme des outils de raisonnement très performants, avec des modes de réflexion configurables.
Multimodalité étendue : traite le texte, les images avec prise en charge de la résolution et du format variables (tous les modèles), les vidéos et l'audio (fonctionnalité native sur les modèles E2B, E4B et 12B).
Fenêtre de contexte plus grande : les petits modèles disposent d'une fenêtre de contexte de 128 000 jetons, tandis que les modèles moyens peuvent en traiter 256 000.
Capacités de codage et agentiques améliorées : améliore considérablement les benchmarks de codage et intègre la prise en charge des appels de fonction, ce qui permet de créer des agents autonomes très performants.
Prise en charge native des invites système : Gemma 4 introduit une prise en charge intégrée du rôle système, ce qui permet des conversations plus structurées et contrôlables.
Prédiction de plusieurs jetons : tous les modèles Gemma 4 (E2B, E4B, 12B, 31B et 26B A4B) incluent un modèle brouillon dédié au décodage spéculatif, ce qui permet d'obtenir une inférence beaucoup plus rapide sans perte de qualité.

Taille des paramètres et quantification

Les modèles Gemma 4 sont disponibles en cinq tailles de paramètres : E2B, E4B, 12B, 31B et 26B-A4B. Les modèles peuvent être utilisés avec leur précision par défaut (16 bits) ou avec une précision inférieure à l'aide de la quantification. Les différentes tailles et précisions représentent un ensemble de compromis pour votre application d'IA. Les modèles avec des paramètres et des nombres de bits plus élevés (précision plus élevée) sont généralement plus performants, mais leur exécution est plus coûteuse en termes de cycles de traitement, de coût de mémoire et de consommation d'énergie. Les modèles avec un nombre de paramètres et de bits plus faible (précision inférieure) ont moins de capacités, mais peuvent être suffisants pour votre tâche d'IA.

Exigences de mémoire pour l'inférence Gemma 4

Le tableau suivant détaille les exigences approximatives en termes de mémoire GPU ou TPU pour exécuter l'inférence avec chaque taille des versions du modèle Gemma 4.

Paramètres	BF16 (16 bits)	SFP8 (8 bits)	Q4_0 (4 bits)	Mobile	Mobile (texte uniquement)
Gemma 4 E2B	11,4 Go	5,7 Go	2,9 Go	1,1 Go	0,84 Go
Gemma 4 E4B	17,9 Go	8,9 Go	4,5 Go	2,5 Go	2,2 Go
Gemma 4 12B	26,7 Go	13,4 Go	6,7 Go	-	-
Gemma 4 26B A4B	57,7 Go	28,8 Go	14,4 Go	-	-
Gemma 4 31B	69,9 Go	34,9 Go	17,5 Go	-	-

Tableau 1. Mémoire GPU ou TPU approximative requise pour charger les modèles Gemma 4 en fonction du nombre de paramètres, du niveau de quantification et de la surcharge de 20% pour le chargement d'éléments supplémentaires. Les versions mobiles utilisent LiteRT-LM.

Points clés à prendre en compte pour la planification de la mémoire

Architecture efficace (E2B et E4B) : le "E" signifie "paramètres efficaces". Les modèles plus petits intègrent des embeddings par couche (PLE) pour maximiser l'efficacité des paramètres dans les déploiements sur l'appareil. Au lieu d'ajouter des calques au modèle, PLE attribue à chaque calque de décodeur son propre petit embedding pour chaque jeton. Ces tables d'intégration sont volumineuses, mais ne sont utilisées que pour des recherches rapides. C'est pourquoi la mémoire totale requise pour charger les pondérations statiques est supérieure à ce que suggère le nombre de paramètres effectif.
Architecture MoE (26B A4B) : le modèle 26B est un modèle MoE (Mixture of Experts). Bien qu'il n'active que 4 milliards de paramètres par jeton lors de la génération, l'ensemble des 26 milliards de paramètres doit être chargé en mémoire pour maintenir des vitesses de routage et d'inférence rapides. C'est pourquoi sa mémoire de référence requise est beaucoup plus proche d'un modèle dense 26B que d'un modèle 4B.
Pondérations de base uniquement : les estimations du tableau précédent ne tiennent compte que de la mémoire requise pour charger les pondérations du modèle statique. Elles n'incluent pas la VRAM supplémentaire nécessaire pour les logiciels compatibles ni la fenêtre contextuelle.
Fenêtre de contexte (cache KV) : la consommation de mémoire augmentera de manière dynamique en fonction du nombre total de jetons dans votre requête et de la réponse générée. Les fenêtres de contexte plus grandes nécessitent beaucoup plus de VRAM en plus des pondérations du modèle de base.
Frais généraux d'affinage : les besoins en mémoire pour l'affinage des modèles Gemma sont beaucoup plus élevés que pour l'inférence standard. Votre empreinte exacte dépendra fortement du framework de développement, de la taille du lot et de l'utilisation d'un réglage de précision complète ou d'une méthode d'optimisation du réglage des paramètres (PEFT, Parameter-Efficient Fine-Tuning) comme l'adaptation faible (LoRA, Low-Rank Adaptation).

Entraînement utilisant la quantification (QAT)

Pour les déploiements nécessitant une efficacité maximale avec un compromis minimal sur la qualité, Gemma propose des modèles officiels Quantization-Aware Training (QAT).

Contrairement à la quantification post-entraînement (PTQ) standard, qui compresse un modèle entièrement entraîné et peut entraîner une dégradation de la qualité, la QAT intègre la simulation de quantification dans le processus d'entraînement lui-même. Cela permet au modèle d'apprendre à compenser la perte de précision, ce qui donne lieu à des modèles plus petits qui fonctionnent presque à l'identique de leurs références de haute précision.

Table de routage rapide

Moteur de déploiement cible	Suffixe de téléchargement	Cas d'utilisation principal
llama.cpp / LM Studio (local)	`{model-name}-qat-q4_0-gguf`	Déploiement local sans configuration sur CPU, Apple Silicon ou GPU grand public.
vLLM / SGLang	SERVEUR : `{model-name}-qat-w4a16-ct` MOBILE : `{model-name}-qat-mobile-ct`	Inférence à haut débit utilisant des poids de 4 bits avec des activations de 16 bits.
Décodage spéculatif	MODÈLE : `{model-name}-qat-q4_0-unquantized` DRAFTER : `{model-name}-qat-q4_0-unquantized-assistant`	Exécuter un modèle principal en parallèle de son modèle brouillon MTP correspondant pour accélérer considérablement la génération de jetons. Le modèle doit être quantifié.
Autres formats	`{model-name}-qat-q4_0-unquantized`	Pondérations non quantifiées pour la conversion vers d'autres formats (par exemple, MLX)
Déploiement mobile (Transformers)	`{model-name}-qat-mobile-transformers`	Pondérations des arêtes optimisées pour les cas d'utilisation mobiles. Ils servent de référence pour les autres formats.

Collections QAT officielles sur Hugging Face

collections/google/gemma-4-qat-q4-0
- Points de contrôle QAT non quantifiés (-unquantized / -assistant) : poids semi-précis extraits directement du pipeline QAT. Elles sont idéales pour la compilation en aval personnalisée, la recherche ou l'exécution du décodage spéculatif à l'aide des modèles de brouillons de l'assistant. Disponible pour Gemma 4 E2B, E4B, 12B, 26B A4B et 31B.
- GGUF (-gguf) : points de contrôle disponibles pour une compatibilité immédiate dans l'écosystème LLM local. Disponible pour Gemma 4 E2B, E4B, 12B, 26B A4B et 31B.
- Tensors compressés (-w4a16-ct) : sérialisés de manière native dans la norme compressed-tensors pour un service cloud optimisé à haute simultanéité. Disponible pour Gemma 4 E2B, E4B, 12B et 31B.
collections/google/gemma-4-qat-mobile
- Optimisé pour les mobiles (-mobile-transformers / -mobile-ct) : basé sur un schéma wNa8o8 personnalisé conçu spécifiquement pour les limites du matériel mobile. Il utilise des couches de décodage à deux bits ciblées, des caches KV optimisés et des activations statiques pour maximiser les économies de RAM sur l'appareil sans étouffer les processeurs Edge. Disponible pour Gemma 4 E2B et E4B.

Tous les points de contrôle QAT officiels de Gemma 4 sont également accessibles directement depuis Kaggle.

Modèles Gemma précédents

Vous pouvez utiliser les générations précédentes de modèles Gemma, qui sont également disponibles sur Kaggle et Hugging Face. Pour obtenir plus d'informations techniques sur les modèles Gemma précédents, consultez les fiches de modèle suivantes :

Prêt à développer vos compétences ? Faites vos premiers pas avec les modèles Gemma !