Présentation du modèle DiffusionGemma

DiffusionGemma est un modèle ouvert expérimental qui explore la diffusion de texte, une approche exceptionnellement rapide de la génération de texte. Basée sur l'architecture Gemma 4 de Mixture-of-Experts (MoE) 26B (4B actifs), DiffusionGemma génère des jetons à l'aide de la diffusion discrète. Ce modèle à poids ouverts est multimodal. Il traite les entrées de texte, d'image et vidéo pour générer du texte en sortie.

DiffusionGemma, qui repose sur une architecture MoE, est conçu pour améliorer la vitesse de génération (jetons par seconde) tout en restant déployable dans divers environnements matériels. DiffusionGemma s'appuie sur les avancées architecturales et fonctionnelles de Gemma 4, en introduisant plusieurs fonctionnalités clés :

  • Diffusion de texte discret : s'éloigne de la génération de jetons causaux traditionnels pour passer à l'échantillonnage multi-canevas par régression automatique par blocs. Le modèle génère du texte en débruité de manière itérative des blocs de jetons (un "canevas") en parallèle pour accélérer considérablement la vitesse de décodage.
  • Traitement multimodal : accepte nativement les entrées de texte, d'images (avec prise en charge de différents formats et résolutions) et de vidéos. (Remarque : La saisie audio n'est pas disponible.)
  • Architecture encodeur-décodeur : utilise un encodeur autorégressif pour traiter et mettre en cache le contexte de la requête, associé à une réduction du bruit qui applique une attention bidirectionnelle sur le canevas de génération.
  • Efficacité du modèle Mixture-of-Experts (MoE) : utilise une conception MoE éparse basée sur la variante MoE 26B (4B actifs), offrant des capacités de raisonnement approfondies avec une surcharge minimale. Une fois quantifié, il s'inscrit dans les limites de 18 Go de VRAM des GPU grand public, ce qui est idéal pour l'exécution locale.
  • Mode Réflexion : les canaux de raisonnement configurables intégrés permettent au modèle de réfléchir étape par étape avant de fournir une réponse finale.

Compromis avec les modèles traditionnels

Bien que les modèles de langage traditionnels soient très efficaces pour les déploiements cloud à grande échelle, car ils peuvent traiter par lot des milliers de requêtes, leur exécution en local pour un seul utilisateur laisse le matériel sous-utilisé. DiffusionGemma résout ce problème en générant un bloc entier de 256 jetons simultanément plutôt qu'un jeton à la fois, ce qui maximise les performances du matériel local.

Toutefois, cette approche est strictement destinée à un usage local à faible concurrence et orienté consommateur. En effet, son décodage parallèle offre des rendements décroissants pour les charges de travail cloud à RPS élevé. L'avantage en termes de débit est donc plus important pour les tailles de lot faibles à moyennes sur un seul accélérateur.

Pour une latence et une qualité optimales, nous vous recommandons de déployer les paramètres par défaut suivants pour les paramètres d'échantillonnage de la diffusion :

Paramètre Valeur recommandée Fonction Explication
Nombre maximal d'étapes de suppression du bruit 48 Limite supérieure du nombre d'étapes de suppression du bruit par canevas. Limite sûre du nombre d'étapes de suppression du bruit. La suppression du bruit s'arrête en moins d'étapes lorsque l'arrêt adaptatif est activé (généralement entre 12 et 16 étapes, selon la tâche).
Programmation de température Linéaire 0,8 -> 0,4 Plan de mise à l'échelle de la température qui commence à une valeur élevée et diminue en fonction des étapes de débruitage. Une température élevée (0,8) encourage l'exploration précoce, tandis qu'une température basse (0,4) verrouille les jetons finaux.
Arrêt prématuré adaptatif Seuil d'entropie : 0,005 Arrête l'exécution de manière anticipée si
A) l'entropie moyenne du modèle sur le canevas est inférieure au seuil et
B) si deux prédictions consécutives du débruiteur restent identiques.
Les requêtes plus simples et les tâches structurées comme le code nécessitent moins d'étapes de débruitage, ce qui permet d'obtenir des vitesses dynamiques en jetons par seconde en fonction de la complexité de la tâche.
Sélection de jetons Limite d'entropie : 0,1 À chaque étape, l'échantillonneur sélectionne les jetons à entropie la plus faible de sorte que leur limite d'information mutuelle reste inférieure à la limite d'entropie. L'échantillonneur supprime complètement le bruit des jetons non sélectionnés. Garantit que seuls les jetons dont le modèle est relativement sûr sont sélectionnés pour affiner le canevas, les autres jetons étant affinés lors des étapes de débruitage ultérieures.

Obtenir sur Hugging Face Obtenir sur Kaggle Accéder sur Vertex

Accédez aux pondérations du modèle expérimental (publiées sous la licence Apache 2.0), ce qui vous permet de le déployer dans vos propres projets et applications.

En savoir plus sur l'architecture DiffusionGemma Essayer DiffusionGemma

Ajuster DiffusionGemma Déployer DiffusionGemma