Présentation du modèle Gemma 4

Gemma est une famille de modèles d'intelligence artificielle générative que vous pouvez utiliser dans une grande variété de tâches de génération, y compris les systèmes de questions-réponses, la synthèse et le raisonnement. Les modèles Gemma sont fournis avec des pondérations ouvertes et permettent une utilisation commerciale responsable, Vous pouvez ainsi les ajuster et les déployer dans vos propres projets et applications.

La famille de modèles Gemma 4 comprend quatre architectures distinctes adaptées à des exigences matérielles spécifiques :

  • Petites tailles : modèles de paramètres efficaces 2B et 4B conçus pour un déploiement sur des appareils ultra-mobiles, en périphérie et dans des navigateurs (par exemple, Pixel, Chrome).
  • Dense : modèle dense puissant de 31 milliards de paramètres qui comble le fossé entre les performances de niveau serveur et l'exécution locale.
  • Mixture-of-Experts: : modèle MoE (Mixture of Experts) très efficace de 26 milliards de paramètres conçu pour un débit élevé et un raisonnement avancé.
  • Unifié : modèle sans encodeur de 12 milliards de paramètres pour les tâches multimodales, qui remplace les encodeurs de vision et audio par des projections linéaires directes de l'entrée.

Vous pouvez télécharger les modèles Gemma 4 depuis Kaggle et Hugging Face. Pour en savoir plus sur les aspects techniques de Gemma 4, consultez la fiche de modèle. Les versions antérieures des modèles de base Gemma sont également disponibles en téléchargement. Pour en savoir plus, consultez la section Modèles Gemma précédents.

Obtenir sur Kaggle Obtenir sur Hugging Face

Capacités

  • Raisonnement : tous les modèles de la famille sont conçus comme des raisonneurs très performants, avec des modes de pensée configurables.
  • Multimodalité étendue : traitement du texte, des images avec prise en charge du format et de la résolution variables (tous les modèles), des vidéos, et de l'audio (fonctionnalité intégrée aux modèles E2B, E4B et 12B).
  • Fenêtre de contexte plus grande : les petits modèles disposent d'une fenêtre de contexte de 128 000, tandis que les modèles moyens prennent en charge 256 000.
  • Capacités de codage et d'agent améliorées : amélioration notable des benchmarks de codage, ainsi que prise en charge intégrée des appels de fonction support, ce qui permet de créer des agents autonomes très performants.
  • Prise en charge native des invites système : Gemma 4 introduit une prise en charge intégrée du rôle système, ce qui permet des conversations plus structurées et contrôlables.
  • Prédiction multi-jetons: tous les modèles Gemma 4 (E2B, E4B, 12B, 31B et 26B A4B) incluent un modèle brouillon dédié au décodage spéculatif, ce qui permet une inférence beaucoup plus rapide sans perte de qualité.

Tailles des paramètres et quantification

Les modèles Gemma 4 sont disponibles en cinq tailles de paramètres : E2B, E4B, 12B, 31B et 26B A4B. Les modèles peuvent être utilisés avec leur précision par défaut (16 bits) ou avec une précision inférieure à l'aide de la quantification. Les différentes tailles et précisions représentent un ensemble de compromis pour votre application d'IA. Les modèles avec des paramètres et des nombres de bits plus élevés (précision plus élevée) sont généralement plus performants, mais leur exécution est plus coûteuse en termes de cycles de traitement, de coût de mémoire et de consommation d'énergie. Les modèles avec des paramètres et des nombres de bits inférieurs (précision inférieure) sont moins performants, mais peuvent être suffisants pour votre tâche d'IA.

Exigences de mémoire d'inférence de Gemma 4

Le tableau suivant détaille les exigences approximatives de mémoire GPU ou TPU pour exécuter l'inférence avec chaque taille des versions du modèle Gemma 4.

Paramètres BF16 (16 bits) SFP8 (8 bits) Q4_0 (4 bits) Mobile Mobile (texte uniquement)
Gemma 4 E2B 11,4 Go 5,7 Go 2,9 Go 1,1 Go 0,84 Go
Gemma 4 E4B 17,9 Go 8,9 Go 4,5 Go 2,5 Go 2,2 Go
Gemma 4 12B 26,7 Go 13,4 Go 6,7 Go - -
Gemma 4 26B A4B 57,7 Go 28,8 Go 14,4 Go - -
Gemma 4 31B 69,9 Go 34,9 Go 17,5 Go - -

Tableau 1. Mémoire GPU ou TPU approximative requise pour charger les modèles Gemma 4 en fonction du nombre de paramètres, du niveau de quantification et de 20% de surcharge pour le chargement d'éléments supplémentaires. Les versions mobiles utilisent LiteRT-LM.

Points clés pour la planification de la mémoire

  • Architecture efficace (E2B et E4B) : le "E" signifie "paramètres efficaces". Les modèles plus petits intègrent des embeddings par couche (PLE, Per-Layer Embeddings) pour maximiser l'efficacité des paramètres dans les déploiements sur appareil. Au lieu d'ajouter des couches au modèle, PLE attribue à chaque couche de décodeur son propre petit embedding pour chaque jeton. Ces tables d'embedding sont volumineuses, mais ne sont utilisées que pour des recherches rapides. C'est pourquoi la mémoire totale requise pour charger les pondérations statiques est supérieure à ce que suggère le nombre de paramètres efficaces.
  • Architecture MoE (26B A4B) : le modèle 26B est un modèle Mixture of Experts. Bien qu'il n'active que 4 milliards de paramètres par jeton lors de la génération, les 26 milliards de paramètres doivent être chargés en mémoire pour maintenir des vitesses de routage et d'inférence rapides. C'est pourquoi son exigence de mémoire de base est beaucoup plus proche d'un modèle dense 26B que d'un modèle 4B.
  • Pondérations de base uniquement : les estimations du tableau précédent ne tiennent compte que de la mémoire requise pour charger les pondérations du modèle statique. Elles n'incluent pas la VRAM supplémentaire nécessaire pour prendre en charge le logiciel ni la fenêtre de contexte.
  • Fenêtre de contexte (cache KV) : la consommation de mémoire augmente de manière dynamique en fonction du nombre total de jetons dans votre invite et de la réponse générée. Les fenêtres de contexte plus grandes nécessitent beaucoup plus de VRAM en plus des pondérations du modèle de base.
  • Surcharge d'affinage : les exigences de mémoire pour l'affinage des modèles Gemma sont beaucoup plus élevées que pour l'inférence standard. Votre empreinte exacte dépendra fortement du framework de développement, de la taille du lot et du fait que vous utilisiez un réglage de précision complète ou une méthode d'affinage efficace des paramètres (PEFT, Parameter-Efficient Fine-Tuning) comme l'adaptation faible (LoRA, Low-Rank Adaptation).

Entraînement utilisant la quantification (QAT)

Pour les déploiements nécessitant une efficacité maximale avec un compromis de qualité minimal, Gemma propose des modèles officiels d'entraînement utilisant la quantification (QAT, Quantization-Aware Training).

Contrairement à la quantification post-entraînement (PTQ, Post-Training Quantization) standard, qui compresse un modèle entièrement entraîné et peut entraîner une dégradation de la qualité, QAT intègre la simulation de quantification dans le processus d'entraînement lui-même. Cela permet au modèle d'apprendre à compenser la perte de précision, ce qui donne des modèles plus petits qui fonctionnent presque à l'identique de leurs références de haute précision.

Table de routage rapide

Moteur de déploiement cible Suffixe de téléchargement Cas d'utilisation principal
llama.cpp / LM Studio (local) {model-name}-qat-q4_0-gguf Déploiement local sans configuration sur le processeur, Apple Silicon ou les GPU grand public.
vLLM / SGLang SERVEUR : {model-name}-qat-w4a16-ct
MOBILE : {model-name}-qat-mobile-ct
Inférence à haut débit utilisant des pondérations de 4 bits avec des activations de 16 bits.
Décodage spéculatif MODÈLE : {model-name}-qat-q4_0-unquantized
BROUILLON : {model-name}-qat-q4_0-unquantized-assistant
Exécution d'un modèle principal avec son modèle brouillon MTP correspondant pour accélérer considérablement la génération de jetons. Le modèle doit être quantifié.
Autres formats {model-name}-qat-q4_0-unquantized Pondérations non quantifiées pour la conversion vers d'autres formats (par exemple, MLX)
Déploiement mobile (Transformers) {model-name}-qat-mobile-transformers Pondérations de périphérie optimisées pour les cas d'utilisation mobiles. Elles servent de référence pour d'autres formats.

Collections QAT officielles sur Hugging Face

  • collections/google/gemma-4-qat-q4-0
    • Points de contrôle QAT non quantifiés (-unquantized / -assistant) : pondérations de demi-précision extraites directement du pipeline QAT. Ils sont idéaux pour la compilation en aval personnalisée, la recherche ou l'exécution du décodage spéculatif à l'aide des modèles brouillons de l'assistant. Disponibles pour Gemma 4 E2B, E4B, 12B, 26B A4B et 31B.
    • GGUF (-gguf) : points de contrôle disponibles pour une compatibilité immédiate dans l'écosystème LLM local. Disponibles pour Gemma 4 E2B, E4B, 12B, 26B A4B et 31B.
    • Tenseurs compressés (-w4a16-ct) : sérialisés de manière native dans la norme compressed-tensors pour une diffusion cloud optimisée à haute simultanéité. Disponibles pour Gemma 4 E2B, E4B, 12B et 31B.
  • collections/google/gemma-4-qat-mobile
    • Optimisé pour les mobiles (-mobile-transformers / -mobile-ct) : basé sur un schéma wNa8o8 personnalisé conçu spécifiquement pour les limites matérielles des appareils mobiles. Il utilise des couches de décodage ciblées de 2 bits, des caches KV optimisés et des activations statiques pour maximiser les économies de RAM sur l'appareil sans saturer les processeurs de périphérie. Disponibles pour Gemma 4 E2B et E4B.

Tous les points de contrôle QAT officiels de Gemma 4 sont également accessibles directement depuis Kaggle.

Modèles Gemma précédents

Vous pouvez utiliser les générations précédentes de modèles Gemma, qui sont également disponibles sur Kaggle et Hugging Face. Pour en savoir plus sur les aspects techniques des modèles Gemma précédents, consultez les pages de fiche de modèle suivantes :

Prêt à développer vos compétences ? Commencez à utiliser les modèles Gemma !