Partager

12 DÉC. 2025

Toongether maintient la cohérence du style artistique à l'aide de Gemini 2.5 Flash Image

Samir Nasser Eddine

Cofondateur de toongether

Guillaume Vernade

DeepMind Senior Developer Advocate

Image principale de la vitrine Toongether

L'essor de l'IA générative a ouvert de nouvelles perspectives à l'expression créative, permettant aux développeurs de créer des outils qui transforment les utilisateurs occasionnels en artistes. Toutefois, pour les arts séquentiels comme les bandes dessinées, le défi ne consiste pas seulement à générer une seule bonne image, mais à générer des personnages, des styles et des récits cohérents sur des dizaines de panneaux.

Toongether, l'entreprise à l'origine de l'application de bandes dessinées en ligne, relève ce défi de front. Sa mission est de démocratiser la narration visuelle en fournissant une plate-forme où les utilisateurs occasionnels peuvent non seulement lire, mais aussi créer et partager leurs propres bandes dessinées directement depuis leurs appareils mobiles. En intégrant Gemini 2.5 Flash Image à leur pipeline de création, ils aident les utilisateurs à surmonter les difficultés techniques liées au dessin, ce qui permet à une nouvelle communauté de conteurs de collaborer.

Assurer la cohérence à grande échelle

La création d'une bande dessinée exige une cohérence rigoureuse. Les personnages doivent rester reconnaissables dans différentes poses, tenues et expressions faciales, tout en respectant un style artistique unifié.

Au départ, l'équipe toongether s'appuyait sur une pile complexe impliquant un modèle Stable Diffusion XL affiné et amélioré avec des outils tels que ControlNet et IPAdapters. Bien que cette approche ait permis d'obtenir des résultats qualitatifs, elle a rencontré des difficultés en termes de latence et de flexibilité, ce qui a constitué des goulots d'étranglement majeurs pour les développeurs mobiles. La génération d'une seule image prenait entre 20 et 30 secondes, ce qui est trop lent pour offrir une expérience utilisateur fluide. De plus, l'ajout de la prise en charge de nouvelles poses ou de nouveaux styles de dessin nécessitait un effort d'ingénierie important, ce qui limitait leur capacité à itérer rapidement.

Orchestrer des pipelines complexes avec Gemini

Pour surmonter ces difficultés, toongether a migré son pipeline principal de génération d'images vers l'API Gemini. Ils ont choisi Gemini 2.5 Flash Image, également connu sous le nom de "Nano Banana" pour sa rapidité et son agilité, qui offrait les capacités de retouche et de suivi des instructions supérieures nécessaires pour gérer des tâches de génération complexes en plusieurs étapes.

La transition a considérablement accéléré la vitesse de développement. L'équipe est passée d'un prototype à une implémentation complète en production en seulement deux semaines.

Pour maintenir la cohérence des personnages tout en permettant la personnalisation par l'utilisateur, toongether a exploité Gemini 2.5 Flash Image pour créer un pipeline sophistiqué en plusieurs étapes :

  • Analyse du style et génération de références : lorsqu'un utilisateur crée un personnage, l'application fournit au modèle une liste de personnages de référence sélectionnés pour analyser le style souhaité. À partir d'une simple description textuelle, le modèle génère une image de référence de "pose neutre" pour ce nouveau personnage original.
  • Packs d'éléments et génération de poses : pour intégrer ce personnage dans une histoire, toongether utilise des "packs d'éléments", qui sont des listes groupées de descriptions des poses et des cas d'utilisation souhaités. En utilisant un prompt d'instruction avec l'image de référence neutre, ils peuvent demander à Gemini 2.5 Flash Image de générer des scénarios spécifiques sans perdre l'identité visuelle du personnage.
  • Composition des scènes : pour les arrière-plans et autres éléments, l'équipe fournit des images de référence afin de déduire le style artistique approprié et d'assurer la cohérence des panneaux.

HubX

"En tirant parti des fonctionnalités avancées de retouche et d'instruction de Gemini 2.5 Flash Image, nous avons pu répondre à tous nos cas d'utilisation", explique Samir Nasser Eddine, cofondateur de toongether. "Il fait désormais partie intégrante de nos pipelines de génération d'images."

L'avenir de toongether

Maintenant que les éléments de base sont en place, l'équipe toongether se penche sur les fonctionnalités narratives avancées qui étaient auparavant considérées comme trop gourmandes en ressources. Ils prévoient d'utiliser les modèles Gemini pour gérer les interactions complexes entre plusieurs personnages dans un même panneau et pour proposer une plus grande variété de styles de dessin.

Le parcours de toongether montre comment l'API Gemini aide la prochaine génération de développeurs à aller au-delà de la gestion de piles de modèles complexes pour créer des outils créatifs sophistiqués et cohérents qui s'adaptent aux utilisateurs occasionnels.

Pour commencer à créer vos propres applications créatives avec les modèles Gemini, consultez notre documentation de l'API.