Gemma 4 est disponible avec des entrées de texte, audio et image, et une fenêtre de contexte longue allant jusqu'à 256 000 jetons. En savoir plus

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Présentation du modèle Gemma 4

Gemma est une famille de modèles d'intelligence artificielle générative que vous pouvez utiliser pour une grande variété de tâches de génération, y compris les systèmes de questions-réponses, la synthèse et le raisonnement. Les modèles Gemma sont fournis avec des pondérations ouvertes et permettent une utilisation commerciale responsable, Vous pouvez ainsi les régler et les déployer dans vos propres projets et applications.

La famille de modèles Gemma 4 comprend trois architectures distinctes adaptées à des exigences matérielles spécifiques :

Petites tailles : modèles de paramètres efficaces de 2 et 4 milliards conçus pour un déploiement sur des appareils ultra-mobiles, en périphérie et dans des navigateurs (par exemple, Pixel et Chrome).
Dense : modèle dense puissant de 31 milliards de paramètres qui comble le fossé entre les performances de niveau serveur et l'exécution locale.
Mixture-of-Experts: : modèle MoE (Mixture of Experts) très efficace de 26 milliards de paramètres conçu pour un débit élevé et un raisonnement avancé.

Vous pouvez télécharger les modèles Gemma 4 depuis Kaggle et Hugging Face. Pour en savoir plus sur les aspects techniques de Gemma 4, consultez la fiche de modèle. Les versions antérieures des modèles de base Gemma sont également disponibles en téléchargement. Pour en savoir plus, consultez la section Modèles Gemma précédents.

Obtenir sur Kaggle Obtenir sur Hugging Face

Capacités

Raisonnement : tous les modèles de la famille sont conçus comme des raisonneurs très performants, avec des modes de pensée configurables.
Multimodalité étendue : traitement du texte, des images avec prise en charge de la résolution et du format variables (tous les modèles), des vidéos, et de l'audio (fonctionnalité native sur les modèles E2B et E4B).
Fenêtre de contexte plus grande : les petits modèles disposent d'une fenêtre de contexte de 128 000, tandis que les modèles moyens prennent en charge 256 000.
Capacités de codage et d'agent améliorées : amélioration notable des benchmarks de codage, ainsi que prise en charge intégrée des appels de fonction support, ce qui permet de créer des agents autonomes très performants.
Prise en charge native des invites système : Gemma 4 introduit une prise en charge intégrée du rôle système, ce qui permet des conversations plus structurées et contrôlables.
Prédiction de plusieurs jetons: tous les modèles Gemma 4 (E2B, E4B, 31B et 26B A4B) incluent un modèle brouillon dédié au décodage spéculatif, ce qui permet une inférence beaucoup plus rapide sans perte de qualité.

Tailles des paramètres et quantification

Les modèles Gemma 4 sont disponibles en quatre tailles de paramètres : E2B, E4B, 31B et 26B A4B. Les modèles peuvent être utilisés avec leur précision par défaut (16 bits) ou avec une précision inférieure à l'aide de la quantification. Les différentes tailles et précisions représentent un ensemble de compromis pour votre application d'IA. Les modèles avec des paramètres et des nombres de bits plus élevés (précision plus élevée) sont généralement plus performants, mais leur exécution est plus coûteuse en termes de cycles de traitement, de coût de mémoire et de consommation d'énergie. Les modèles avec des paramètres et des nombres de bits inférieurs (précision inférieure) sont moins performants, mais peuvent être suffisants pour votre tâche d'IA.

Exigences de mémoire d'inférence de Gemma 4

Le tableau suivant détaille les exigences approximatives de mémoire GPU ou TPU pour exécuter l'inférence avec chaque taille des versions du modèle Gemma 4.

Paramètres	BF16 (16 bits)	SFP8 (8 bits)	Q4_0 (4 bits)
Gemma 4 E2B	9,6 Go	4,6 Go	3,2 Go
Gemma 4 E4B	15 Go	7,5 Go	5 Go
Gemma 4 31B	58,3 Go	30,4 Go	17,4 Go
Gemma 4 26B A4B	48 Go	25 Go	15,6 Go

Tableau 1. Mémoire GPU ou TPU approximative requise pour charger les modèles Gemma 4 en fonction du nombre de paramètres et du niveau de quantification.

Points clés à prendre en compte pour la planification de la mémoire

Architecture efficace (E2B et E4B) : le "E" signifie "paramètres efficaces". Les modèles plus petits intègrent des embeddings par couche (PLE, Per-Layer Embeddings) pour maximiser l'efficacité des paramètres dans les déploiements sur appareil. Au lieu d'ajouter des couches au modèle, PLE attribue à chaque couche de décodeur son propre petit embedding pour chaque jeton. Ces tables d'embedding sont volumineuses, mais ne sont utilisées que pour des recherches rapides. C'est pourquoi la mémoire totale requise pour charger les pondérations statiques est supérieure au nombre de paramètres efficaces suggéré.
Architecture MoE (26B A4B) : le modèle 26B est un modèle MoE (Mixture of Experts). Bien qu'il n'active que 4 milliards de paramètres par jeton lors de la génération, les 26 milliards de paramètres doivent être chargés en mémoire pour maintenir des vitesses de routage et d'inférence rapides. C'est pourquoi son exigence de mémoire de base est beaucoup plus proche d'un modèle dense de 26 milliards que d'un modèle de 4 milliards.
Pondérations de base uniquement : les estimations du tableau précédent ne tiennent compte que de la mémoire requise pour charger les pondérations du modèle statique. Elles n'incluent pas la VRAM supplémentaire nécessaire pour prendre en charge les logiciels ni la fenêtre de contexte.
Fenêtre de contexte (cache KV) : la consommation de mémoire augmente de manière dynamique en fonction du nombre total de jetons dans votre invite et de la réponse générée. Les fenêtres de contexte plus grandes nécessitent beaucoup plus de VRAM en plus des pondérations du modèle de base.
Surcharge de l'affinage : les exigences de mémoire pour affiner les modèles Gemma sont beaucoup plus élevées que pour l'inférence standard. Votre empreinte exacte dépendra fortement du framework de développement, de la taille de lot et du fait que vous utilisiez un réglage de précision complète ou une méthode d'affinage efficace des paramètres (PEFT, Parameter-Efficient Fine-Tuning) comme l'adaptation à faible rang (LoRA, Low-Rank Adaptation).

Modèles Gemma précédents

Vous pouvez utiliser les générations précédentes de modèles Gemma, qui sont également disponibles sur Kaggle et Hugging Face. Pour en savoir plus sur les aspects techniques des modèles Gemma précédents, consultez les pages de fiche de modèle suivantes :

Fiche de modèle Gemma 3 Model Card
Fiche de modèle Gemma 2 Model Card
Fiche de modèle Gemma 1

Prêt à développer vos compétences ? Commencez à utiliser les modèles Gemma !