Fiche du modèle DiffusionGemma

Hugging Face | GitHub | Launch Blog | Documentation
Licence: Apache 2.0 | Auteurs: Google DeepMind

DiffusionGemma est un modèle génératif créé par Google DeepMind. Basé sur l'architecture Gemma 4 A4B à 26 milliards de paramètres et à mélange d'experts (MoE), DiffusionGemma génère des jetons à l'aide d'une diffusion discrète. Ce modèle à poids ouverts est multimodal et gère les entrées de texte, d'image et de vidéo pour générer une sortie textuelle.

Basé sur une fondation MoE, DiffusionGemma est conçu pour améliorer la vitesse de génération (jetons par seconde) tout en restant déployable dans différents environnements matériels. DiffusionGemma s'appuie sur les avancées architecturales et fonctionnelles de Gemma 4, en introduisant plusieurs fonctionnalités de base :

  • Diffusion de texte discrète : passe de l'autorégression jeton par jeton à l'échantillonnage multi-canvas autorégressif par blocs. Il génère du texte en supprimant itérativement le bruit des blocs de jetons (un "canvas") en parallèle, ce qui augmente considérablement la vitesse de décodage.
  • Traitement des entrées multimodales : traite les entrées de texte, d'image (avec prise en charge du format et de la résolution variables) et de vidéo entrelacées pour générer des sorties textuelles.
  • Architecture encodeur/décodeur : utilise un encodeur autorégressif pour traiter et mettre en cache le contexte du prompt, associé à un décodeur qui applique une attention bidirectionnelle sur le canvas de génération.
  • Efficacité du mélange d'experts (MoE) : exploite une conception MoE éparse (8 experts actifs sur 128 au total) pour fournir de solides capacités de raisonnement tout en conservant un faible espace mémoire utilisé adapté à l'exécution locale.
  • Mode de réflexion (raisonnement) : conçu comme un raisonneur très performant, avec des modes de réflexion configurables.
  • Optimisé pour l'inférence de petite taille de lot : spécialement conçu pour une génération à faible latence et à haute vitesse sur un seul accélérateur compatible.
  • Prise en charge native des prompts système : comme pour Gemma 4, il est possible de mettre à jour le rôle system, ce qui permet des conversations plus structurées et contrôlables.

Présentation du modèle

DiffusionGemma est conçu pour réduire les goulots d'étranglement séquentiels des modèles de langage causaux standards. Il utilise une architecture encodeur/décodeur spécialement optimisée pour la vitesse d'inférence.

L'encodeur fonctionne en mode préremplissage, en traitant le prompt initial et en générant le cache clé-valeur. Le décodeur utilise ensuite une attention bidirectionnelle pour traiter un bloc d'entrée (un "canvas") de jetons, en accédant au contexte mis en cache via une attention croisée.

Lors de l'inférence, DiffusionGemma exploite l'échantillonnage multi-canvas. Au lieu de générer un jeton à la fois, le modèle supprime itérativement le bruit d'un bloc complet de jetons à l'aide d'un échantillonneur de diffusion. Une fois qu'un canvas est entièrement débruité, il est traité par l'encodeur et ajouté au cache clé-valeur, après quoi le modèle génère le canvas suivant. Cette approche autorégressive par blocs facilite la génération de texte à des vitesses plus élevées.

DiffusionGemma

| Paramètres totaux | 25,2 milliards | | Paramètres actifs | 3,8 milliards | | Couches | 30 | | Fenêtre glissante | 1 024 jetons | | Longueur du contexte | Jusqu'à 256 000 jetons | | Longueur du canvas | 256 | | Taille du vocabulaire | 262 000 | | Nombre d'experts | 8 actifs / 128 au total et 1 partagé | | Modalités compatibles | Texte, image | | Paramètres de l'encodeur de vision | ~550 millions |

Résultats du benchmark

Ces modèles ont été évalués par rapport à une vaste collection de différents ensembles de données et métriques pour couvrir différents aspects de la génération de texte. Les résultats d'évaluation indiqués dans le tableau concernent les modèles ajustés aux instructions, avec l'échantillonneur de limite d'entropie (EB) recommandé (voir les bonnes pratiques ci-dessous).

Benchmark DiffusionGemma 26B A4B Gemma 4 26B A4B
MMLU Pro 77,6% 82,6%
AIME 2026 sans outils 69,1% 88,3%
LiveCodeBench v6 69,1% 77,1%
Codeforces ELO 1429 1718
GPQA Diamond 73,2% 82,3%
Tau2 (moyenne sur 3) 56,2% 68,2%
HLE sans outils 11,0% 8,7%
HLE avec recherche 11,9% 17,2%
BigBench Extra Hard 47,6% 64,8%
MMMLU 81,5% 86,3%
Vision
MMMU Pro 54,3% 73,8%
OmniDocBench 1.5 (distance d'édition moyenne, plus la valeur est faible, mieux c'est) 0,319 0,149
MATH-Vision 70,5% 82,4%
MedXPertQA MM 49,0% 58,1%
Contexte long
MRCR v2 8 aiguilles 128k (moyenne) 32,0% 44,1%

Fonctionnalités de base

DiffusionGemma gère un large éventail de tâches dans les domaines du texte et de la vision. Voici ses principales fonctionnalités :

  • Génération à haute vitesse : la suppression parallèle du bruit de 256 jetons via l'échantillonnage de diffusion permet d'obtenir une faible latence en générant 15 à 20 jetons par passe avant, ce qui permet d'atteindre des vitesses de génération par utilisateur dépassant 1 100 jetons par seconde dans les paramètres de petite taille de lot (H100, FP8).
  • Calcul adaptatif du temps d'inférence : les prompts plus simples et les tâches structurées comme le code nécessitent moins d'étapes de suppression du bruit, ce qui permet d'obtenir des vitesses de jetons par seconde dynamiques en fonction de la complexité de la tâche.
  • Réflexion : mode de raisonnement intégré qui permet au modèle de réfléchir étape par étape avant de répondre.
  • Contexte long : fenêtres de contexte pouvant contenir jusqu'à 256 000 jetons.
  • Compréhension des images : détection d'objets, analyse de documents/PDF, compréhension de l'écran et de l'interface utilisateur, compréhension des graphiques, OCR (y compris multilingue), reconnaissance de l'écriture manuscrite et pointage. Les images peuvent être traitées avec des formats et des résolutions variables.
  • Compréhension des vidéos : analyse et description du contenu vidéo en traitant des séquences d'images.
  • Entrée multimodale entrelacée : mélange d'images, de vidéos et de texte dans un seul prompt pour un raisonnement riche en contexte.
  • Appel de fonction : prise en charge native de l'utilisation structurée des outils, ce qui permet des workflows agentiques.
  • Codage et raisonnement : capable de générer du code, de le compléter et de raisonner logiquement étape par étape.
  • Multilingue : prise en charge prête à l'emploi de plus de 35 langues, pré-entraîné sur plus de 140 langues.

Bonnes pratiques

Pour obtenir les meilleures performances, utilisez les configurations et les bonnes pratiques suivantes :

1. Paramètres d'échantillonnage de diffusion

Utilisez la configuration d'échantillonnage standardisée suivante dans tous les cas d'utilisation :

  • Méthode : échantillonnage de diffusion avec suppression du bruit limitée par l'entropie et arrêt adaptatif.
  • Configuration de l'échantillonnage
    • Nombre maximal d'étapes de suppression du bruit = 48
    • Programmation de température (pour la mise en forme des logits) : décroissance linéaire de 0,8 à 0,4
    • Sélection des jetons : à chaque étape, l'échantillonneur sélectionne les jetons à entropie la plus faible de sorte que leur limite d'informations mutuelles reste inférieure à la limite d'entropie = 0,1
    • Suppression du bruit des jetons : l'échantillonneur supprime complètement le bruit des jetons non sélectionnés
  • Arrêt adaptatif : l'échantillonnage se termine plus tôt si et seulement si les deux conditions suivantes sont remplies simultanément :
    • Prédictions fiables : l'entropie moyenne du modèle sur le canvas est inférieure au seuil d'entropie = 0,005
    • Prédictions stables : les prédictions de jetons à probabilité la plus élevée restent identiques sur deux étapes consécutives de suppression du bruit

2. Configuration du mode de réflexion

Comme pour les modèles Gemma 4, nous utilisons les rôles standards system, assistant et user. Pour gérer correctement le processus de réflexion, utilisez les jetons de contrôle suivants :

  • Déclencher la réflexion : la réflexion est activée en incluant le jeton <|think|> au début du prompt système. Pour désactiver la réflexion, supprimez le jeton (notez qu'un canal de réflexion vide peut toujours être émis).
  • Génération standard : lorsque la réflexion est activée, le modèle génère son raisonnement interne, suivi de la réponse finale à l'aide de cette structure : <|channel>thought\n[Raisonnement interne]<channel|>.
  • Comportement de réflexion désactivé : si la réflexion est désactivée, le modèle génère toujours les tags, mais avec un bloc de réflexion vide : <|channel>thought\n<channel|>[Réponse finale].

Notez que de nombreuses bibliothèques, comme les transformateurs, gèrent la complexité du modèle de chat pour vous.

3. Conversations multitours

  • Aucun contenu de réflexion dans l'historique : dans les conversations multitours, la sortie du modèle historique ne doit inclure que la réponse finale. Les réflexions des tours de modèle précédents ne doivent pas être ajoutées avant le début du tour de l'utilisateur suivant.

4. Ordre des modalités

  • Pour des performances optimales avec les entrées multimodales, placez le contenu de l'image avant le texte dans votre prompt.

5. Résolution d'image variable

Outre les formats variables, DiffusionGemma prend en charge la résolution d'image variable grâce à un budget de jetons visuels configurable, qui contrôle le nombre de jetons utilisés pour représenter une image. Un budget de jetons plus élevé préserve plus de détails visuels au prix d'un calcul supplémentaire, tandis qu'un budget plus faible permet une inférence plus rapide pour les tâches qui ne nécessitent pas une compréhension précise.

  • Les budgets de jetons compatibles sont les suivants : 70, 140, 280, 560 et 1120.
    • Utilisez des budgets inférieurs pour la classification, la légende ou la compréhension vidéo, où une inférence et un traitement plus rapides de nombreuses images l'emportent sur les détails précis.
    • Utilisez des budgets plus élevés pour des tâches telles que l'OCR, l'analyse de documents ou la lecture de petits textes.

6. Durée de la vidéo

Tous les modèles acceptent les entrées d'image et peuvent traiter les vidéos sous forme d'images. La vidéo est limitée à 60 secondes, en supposant que les images sont traitées à une image par seconde.

Données du modèle

Données utilisées pour l'entraînement du modèle et mode de traitement des données.

Ensemble de données d'entraînement

Notre ensemble de données de pré-entraînement est une collection de données à grande échelle et diversifiée, couvrant un large éventail de domaines et de modalités, y compris des documents Web, du code, des images et de l'audio, avec une date limite de janvier 2025. Voici les composants clés :

  • Documents Web : une collection diversifiée de texte Web garantit que le modèle est exposé à un large éventail de styles linguistiques, de sujets et de vocabulaire. L'ensemble de données d'entraînement inclut du contenu dans plus de 140 langues.
  • Code : l'exposition du modèle au code l'aide à apprendre la syntaxe et les modèles des langages de programmation, ce qui améliore sa capacité à générer du code et à comprendre les questions liées au code.
  • Mathématiques : l'entraînement sur du texte mathématique aide le modèle à apprendre le raisonnement logique, la représentation symbolique et à répondre aux requêtes mathématiques.
  • Images : un large éventail d'images permet au modèle d'effectuer des tâches d'analyse d'images et d'extraction de données visuelles.

La combinaison de ces diverses sources de données est essentielle pour entraîner un modèle multimodal puissant capable de gérer une grande variété de tâches et de formats de données différents.

Prétraitement des données

Voici les principales méthodes de nettoyage et de filtrage des données appliquées aux données d'entraînement :

  • Filtrage des contenus d'abus sexuels sur mineurs : un filtrage rigoureux des contenus d'abus sexuels sur mineurs a été appliqué à plusieurs étapes du processus de préparation des données pour garantir l'exclusion des contenus illégaux et dangereux.
  • Filtrage des données sensibles : pour rendre les modèles pré-entraînés Gemma sûrs et fiables, des techniques automatisées ont été utilisées pour filtrer certaines informations personnelles et d'autres données sensibles des ensembles d'entraînement.
  • Méthodes supplémentaires : filtrage basé sur la qualité et la sécurité du contenu conformément à nos règles.

Éthique et sécurité

À mesure que les modèles ouverts deviennent essentiels à l'infrastructure d'entreprise, la provenance et la sécurité sont primordiales. Développé par Google DeepMind, DiffusionGemma est soumis aux mêmes évaluations de sécurité rigoureuses que nos modèles Gemini propriétaires.

Approche d'évaluation

DiffusionGemma a été développé en partenariat avec des équipes internes chargées de la sécurité et de l'IA responsable. Un éventail d'évaluations automatisées et humaines ont été menées pour améliorer la sécurité du modèle. Ces évaluations sont conformes aux principes d'IA de Google, ainsi qu'aux règles de sécurité, qui visent à empêcher nos modèles d'IA générative de générer des contenus nuisibles, y compris :

  • Contenus liés à l'exploitation et aux contenus d'abus sexuels sur mineurs
  • Contenus dangereux (par exemple, incitation au suicide ou instructions sur des activités susceptibles de causer des dommages dans le monde réel)
  • Contenu à caractère sexuel explicite
  • Incitation à la haine (par exemple, déshumanisation des membres de groupes protégés)
  • Harcèlement (par exemple, incitation à la violence contre des personnes)

Résultats de l'évaluation

Pour tous les domaines de tests de sécurité, nous avons constaté des améliorations majeures dans toutes les catégories de sécurité du contenu par rapport aux générations précédentes de modèles Gemma. Dans l'ensemble, DiffusionGemma, comme les modèles Gemma 4, surpasse considérablement les modèles Gemma 3 et 3n en termes d'amélioration de la sécurité, tout en maintenant un faible niveau de refus injustifiés. Tous les tests ont été intentionnellement effectués sans filtres de sécurité pour évaluer les capacités brutes et les comportements de référence du modèle. Pour le texte-vers-texte et l'image-vers-texte, et pour toutes les tailles de modèle, le modèle a produit un minimum de cas de non-respect du règlement et a montré des améliorations significatives par rapport aux modèles Gemma précédents.

Utilisation et limites

Ces modèles présentent certaines limites dont les utilisateurs doivent être conscients.

Utilisation prévue

Les modèles multimodaux (capables de traiter la vision, le langage et/ou l'audio) ont un large éventail d'applications dans divers secteurs et domaines. La liste suivante des utilisations potentielles n'est pas exhaustive. L'objectif de cette liste est de fournir des informations contextuelles sur les cas d'utilisation possibles que les créateurs de modèles ont pris en compte dans le cadre de l'entraînement et du développement des modèles.

  • Création de contenu et communication
    • Génération de texte : génère des formats de texte créatifs tels que des poèmes, des scripts, du code, des textes marketing et des brouillons d'e-mails.
    • Chatbots et IA conversationnelle : alimente les interfaces conversationnelles pour le service client, les assistants virtuels ou les applications interactives.
    • Synthèse de texte : génère des résumés concis d'un corpus de texte, d'articles de recherche ou de rapports.
    • Extraction de données d'image : extrait, interprète et résume les données visuelles pour les communications textuelles.
  • Recherche et éducation
    • Recherche sur le traitement du langage naturel (TLN) et les modèles de langage visuels : sert de base aux chercheurs pour expérimenter les techniques de TLN et de VLM, développer des algorithmes et contribuer à l'avancement du domaine.
    • Outils d'apprentissage des langues : prend en charge les expériences d'apprentissage interactives des langues, en aidant à la correction grammaticale ou en fournissant des exercices d'écriture.
    • Exploration des connaissances : aide les chercheurs à explorer de grands corpus de texte en générant des résumés ou en répondant à des questions sur des sujets spécifiques.

Limites

  • Données d'entraînement
    • La qualité et la diversité des données d'entraînement influencent considérablement les capacités du modèle. Les biais ou les lacunes dans les données d'entraînement peuvent entraîner des limites dans les réponses du modèle.
    • La portée de l'ensemble de données d'entraînement détermine les domaines que le modèle peut gérer efficacement.
  • Contexte et complexité des tâches
    • Le modèle fonctionne bien pour les tâches qui peuvent être formulées avec des prompts et des instructions clairs. Les tâches ouvertes ou très complexes peuvent être difficiles.
    • Les performances du modèle peuvent être influencées par la quantité de contexte fournie (un contexte plus long conduit généralement à de meilleurs résultats, jusqu'à un certain point).
  • Ambiguité et nuance du langage
    • Le langage naturel est intrinsèquement complexe. Le modèle peut avoir du mal à saisir les nuances subtiles, le sarcasme ou le langage figuré.
  • Précision factuelle
    • Le modèle génère des réponses basées sur les informations qu'il a apprises à partir de ses ensembles de données d'entraînement, mais il ne s'agit pas de bases de connaissances. Il peut générer des affirmations factuelles incorrectes ou obsolètes.
  • Bon sens
    • Le modèle repose sur des schémas statistiques dans le langage. Il peut ne pas être en mesure d'appliquer un raisonnement de bon sens dans certaines situations.

Considérations et risques éthiques

Lors de la création d'un modèle de langage visuel ouvert, nous avons soigneusement examiné les points suivants :

  • Biais et équité
    • Les VLM entraînés sur des données textuelles et d'image à grande échelle et réelles peuvent refléter des biais socioculturels intégrés dans le matériel d'entraînement. DiffusionGemma a fait l'objet d'un examen minutieux, d'un prétraitement des données d'entrée et d'évaluations post-entraînement, comme indiqué dans cette fiche, afin de réduire le risque de ces biais.
  • Désinformation et utilisation abusive
    • Les VLM peuvent être utilisés de manière abusive pour générer du texte faux, trompeur ou dangereux.
    • Des consignes sont fournies pour une utilisation responsable du modèle. Consultez le kit d'outils d'IA générative responsable.
  • Transparence et responsabilité
    • Cette fiche de modèle résume les détails de l'architecture, des capacités, des limites et des processus d'évaluation du modèle.
    • Un modèle ouvert développé de manière responsable offre la possibilité de partager l'innovation en rendant la technologie VLM accessible aux développeurs et aux chercheurs de l'écosystème de l'IA.

Risques identifiés et mesures d'atténuation :

  • Génération de contenus dangereux : des mécanismes et des consignes de sécurité du contenu sont essentiels. Les développeurs sont encouragés à faire preuve de prudence et à mettre en œuvre des mesures de protection appropriées pour la sécurité du contenu en fonction des règles spécifiques de leurs produits et des cas d'utilisation de leurs applications.
  • Utilisation abusive à des fins malveillantes : les limitations techniques et la formation des développeurs et des utilisateurs finaux peuvent contribuer à atténuer les applications malveillantes des VLM. Des ressources pédagogiques et des mécanismes de signalement permettant aux utilisateurs de signaler une utilisation abusive sont fournis.
  • Violations de la confidentialité : les modèles ont été entraînés sur des données filtrées pour supprimer certaines informations personnelles et d'autres données sensibles. Les développeurs sont encouragés à respecter les réglementations sur la confidentialité à l'aide de techniques préservant la confidentialité.
  • Perpétuation des biais : il est recommandé d'effectuer une surveillance continue (à l'aide de métriques d'évaluation, d'un examen humain) et d'explorer des techniques de suppression des biais lors de l'entraînement, de l'ajustement et d'autres cas d'utilisation du modèle.

Avantages

Au moment de sa sortie, il s'agit d'un modèle de langage visuel ouvert à faible latence et hautes performances qui constitue une option intéressante pour les développeurs et les personnes intéressées par la recherche sur les modèles de langage de diffusion. Le modèle est conçu dès le départ pour un développement d'IA responsable par rapport à des modèles de taille similaire.