Présentation du modèle Gemma 4

Gemma est une famille de modèles d'intelligence artificielle générative que vous pouvez utiliser pour un large éventail de tâches de génération, y compris pour répondre à des questions, résumer et raisonner. Les modèles Gemma sont fournis avec des pondérations ouvertes et permettent une utilisation commerciale responsable, Vous pouvez ainsi les régler et les déployer dans vos propres projets et applications.

La famille de modèles Gemma 4 comprend trois architectures distinctes adaptées à des exigences matérielles spécifiques :

  • Petites tailles : modèles de paramètres efficaces 2B et 4B conçus pour un déploiement sur des appareils ultra-mobiles, en périphérie et dans des navigateurs (par exemple, Pixel et Chrome).
  • Dense : modèle dense puissant de 31 milliards de paramètres qui comble le fossé entre les performances de niveau serveur et l'exécution locale.
  • Mixture-of-Experts: : modèle MoE (Mixture of Experts) très efficace de 26 milliards de paramètres conçu pour un débit élevé et un raisonnement avancé.

Vous pouvez télécharger les modèles Gemma 4 depuis Kaggle et Hugging Face. Pour en savoir plus sur les aspects techniques de Gemma 4, consultez la fiche de modèle. Les versions antérieures des modèles de base Gemma sont également disponibles en téléchargement. Pour en savoir plus, consultez la section Modèles Gemma précédents.

Obtenir sur Kaggle Obtenir sur Hugging Face

Capacités

Tailles des paramètres et quantification

Les modèles Gemma 4 sont disponibles en quatre tailles de paramètres : E2B, E4B, 31B et 26B A4B. Les modèles peuvent être utilisés avec leur précision par défaut (16 bits) ou avec une précision inférieure à l'aide de la quantification. Les différentes tailles et précisions représentent un ensemble de compromis pour votre application d'IA. Les modèles avec des paramètres et des nombres de bits plus élevés (précision plus élevée) sont généralement plus performants, mais leur exécution est plus coûteuse en termes de cycles de traitement, de coût de mémoire et de consommation d'énergie. Les modèles avec des paramètres et des nombres de bits inférieurs (précision inférieure) sont moins performants, mais peuvent être suffisants pour votre tâche d'IA.

Exigences de mémoire d'inférence de Gemma 4

Le tableau suivant détaille les exigences approximatives de mémoire GPU ou TPU pour exécuter l'inférence avec chaque taille des versions du modèle Gemma 4.

Paramètres BF16 (16 bits) SFP8 (8 bits) Q4_0 (4 bits)
Gemma 4 E2B 9,6 Go 4,6 Go 3,2 Go
Gemma 4 E4B 15 Go 7,5 Go 5 Go
Gemma 4 31B 58,3 Go 30,4 Go 17,4 Go
Gemma 4 26B A4B 48 Go 25 Go 15,6 Go

Tableau 1. Mémoire GPU ou TPU approximative requise pour charger les modèles Gemma 4 en fonction du nombre de paramètres et du niveau de quantification.

Points clés à retenir pour la planification de la mémoire

  • Architecture efficace (E2B et E4B) : le "E" signifie "paramètres efficaces". Les modèles plus petits intègrent des embeddings par couche (PLE, Per-Layer Embeddings) pour maximiser l'efficacité des paramètres dans les déploiements sur appareil. Au lieu d'ajouter des couches au modèle, PLE attribue à chaque couche de décodeur son propre petit embedding pour chaque jeton. Ces tables d'embedding sont volumineuses, mais ne sont utilisées que pour des recherches rapides. C'est pourquoi la mémoire totale requise pour charger les pondérations statiques est supérieure à ce que suggère le nombre de paramètres efficaces.
  • Architecture MoE (26B A4B) : le modèle 26B est un modèle MoE (Mixture of Experts). Bien qu'il n'active que 4 milliards de paramètres par jeton lors de la génération, les 26 milliards de paramètres doivent être chargés en mémoire pour maintenir des vitesses de routage et d'inférence rapides. C'est pourquoi son exigence de mémoire de base est beaucoup plus proche d'un modèle dense 26B que d'un modèle 4B.
  • Pondérations de base uniquement : les estimations du tableau précédent ne tiennent compte que de la mémoire requise pour charger les pondérations statiques du modèle. Elles n'incluent pas la VRAM supplémentaire nécessaire pour prendre en charge les logiciels ni la fenêtre de contexte.
  • Fenêtre de contexte (cache KV) : la consommation de mémoire augmente de manière dynamique en fonction du nombre total de jetons dans votre invite et de la réponse générée. Les fenêtres de contexte plus grandes nécessitent beaucoup plus de VRAM en plus des pondérations du modèle de base.
  • Surcharge de l'affinage : les exigences de mémoire pour l'affinage des modèles Gemma sont beaucoup plus élevées que pour l'inférence standard. Votre empreinte exacte dépendra fortement du framework de développement, de la taille du lot et du fait que vous utilisiez un réglage de précision complète ou une méthode d'affinage efficace des paramètres (PEFT, Parameter-Efficient Fine-Tuning) comme l'adaptation faible (LoRA, Low-Rank Adaptation).

Modèles Gemma précédents

Vous pouvez utiliser les générations précédentes de modèles Gemma, qui sont également disponibles sur Kaggle et Hugging Face. Pour en savoir plus sur les aspects techniques des modèles Gemma précédents, consultez les pages de fiche de modèle suivantes :

Prêt à développer vos compétences ? Commencez à utiliser les modèles Gemma.