12 de dic de 2025
Toongether mantiene la coherencia del estilo artístico con Gemini 2.5 Flash Image
El auge de la IA generativa abrió nuevas fronteras para la expresión creativa, lo que permitió a los desarrolladores crear herramientas que convierten a los usuarios ocasionales en artistas. Sin embargo, para el arte secuencial, como los cómics, el desafío no es solo generar una sola imagen buena, sino generar personajes, estilos y narrativas coherentes en docenas de paneles.
Toongether, la empresa detrás de la app de webcomics, está abordando este desafío de frente. Su misión es democratizar la narración visual, proporcionando una plataforma en la que los usuarios ocasionales no solo puedan leer, sino también crear y compartir sus propios cómics directamente desde sus dispositivos móviles. Al integrar Gemini 2.5 Flash Image en su canalización de creación, ayudan a los usuarios a superar los obstáculos técnicos del dibujo, lo que permite que una nueva comunidad de narradores cree en conjunto.
Cómo lograr coherencia a gran escala
Crear un cómic exige una coherencia rigurosa. Los personajes deben seguir siendo reconocibles en diferentes poses, atuendos y expresiones faciales, y todo esto debe cumplir con un estilo artístico unificado.
En un principio, el equipo de Toongether se basó en una pila compleja que involucraba un modelo Stable Diffusion XL ajustado con herramientas como ControlNet y IPAdapters. Si bien esto generó resultados cualitativos, tuvo problemas con la latencia y la flexibilidad, lo que generó cuellos de botella importantes para los desarrolladores de dispositivos móviles. Generar una sola imagen tardaba entre 20 y 30 segundos, lo que es demasiado lento para una experiencia del usuario fluida. Además, agregar compatibilidad con nuevas poses o estilos de dibujo requería un esfuerzo de ingeniería significativo, lo que limitaba su capacidad de iterar rápidamente.
Organización de canalizaciones complejas con Gemini
Para superar estos cuellos de botella, Toongether migró su canalización principal de generación de imágenes a la API de Gemini. Eligieron Gemini 2.5 Flash Image, también conocido cariñosamente como "Nano Banana" por su velocidad y agilidad, que ofrecía las capacidades superiores de edición y seguimiento de instrucciones necesarias para manejar tareas complejas de generación de varios pasos.
La transición aceleró drásticamente su velocidad de desarrollo, y el equipo pasó de un prototipo a una implementación de producción completa en solo dos semanas.
Para mantener la coherencia de los personajes y, al mismo tiempo, permitir la personalización por parte del usuario, Toongether aprovechó Gemini 2.5 Flash Image para crear una canalización sofisticada de varias etapas:
- Análisis de estilo y generación de referencias: Cuando un usuario crea un personaje nuevo, la app le proporciona al modelo una lista seleccionada de personajes de referencia para analizar el estilo deseado. Según una descripción de texto simple, el modelo genera una imagen de referencia de “pose neutral” para este nuevo personaje original.
- Paquetes de recursos y generación de poses: Para incluir ese personaje en una historia, Toongether usa “paquetes de recursos”, que son listas agrupadas de descripciones para las poses y los casos de uso deseados. Si utilizan una instrucción junto con la imagen de referencia neutral, pueden indicarle a Gemini 2.5 Flash Image que genere situaciones específicas sin perder la identidad visual del personaje.
- Composición de la escena: Para los fondos y otros elementos, el equipo proporciona imágenes de referencia para inferir el estilo artístico correcto y garantizar paneles cohesivos.
"Gracias a las capacidades avanzadas de edición y de seguimiento de instrucciones de Gemini 2.5 Flash Image, pudimos admitir todos nuestros casos de uso", explica Samir Nasser Eddine, cofundador de toongether. "Ahora es una parte esencial de nuestros flujos de trabajo de generación de imágenes".
Qué sigue para Toongether
Con los elementos básicos ya definidos, el equipo de Toongether se enfoca en las funciones narrativas avanzadas que antes se consideraban demasiado exigentes en términos de recursos. Planea usar modelos de Gemini para admitir interacciones complejas entre varios personajes dentro de un solo panel y para introducir una mayor variedad de estilos de dibujo.
El recorrido de Toongether destaca cómo la API de Gemini ayuda a la próxima cohorte de desarrolladores a ir más allá de la administración de pilas de modelos complejos para crear herramientas creativas sofisticadas y coherentes que se adapten a los usuarios ocasionales.
Para comenzar a crear tus propias aplicaciones creativas con los modelos de Gemini, lee nuestra documentación de la API.