Compartir

20 de mayo de 2025

Toonsutra Brings Comics to Life: Una experiencia de lectura inmersiva potenciada por la API de Gemini, la versión preliminar de Gemini 2.5 Pro y Lyria 2

Sharad Devarajan | Vishal Anand

Fundadores de Toonsutra

Avneet Singh

Gerente de productos, Innovación para socios de Google

Elemento hero de la presentación de Cartwheel

Toonsutra, el destino más grande de la India para webcómics y novelas gráficas, tiene la misión de conectar a un público global con el vasto universo narrativo de los webcómics, con un enfoque particular en hacer que las historias de clase mundial sean accesibles en idiomas de la India. Con el objetivo de profundizar la participación del público, Toonsutra se preguntó cómo transformar la experiencia tradicional de lectura de cómics en un viaje cinematográfico envolvente en el que la voz, la música y la historia fluyan de forma natural en el idioma que sueñan los lectores.

Cómo crear el próximo capítulo de la narración interactiva

Esta pregunta se convirtió en el enfoque principal de Toonsutra. Los comentarios de su comunidad destacaron el deseo de una mayor participación y una accesibilidad más amplia. Toonsutra, que reconoce el inmenso potencial de la IA y cuenta con el respaldo del AI Futures Fund de Google, se asoció con los equipos de Labs y de Partner Innovation de Google. Juntos, aprovechan la API de Gemini, que incluye la versión preliminar de Gemini 2.5 Pro y Lyria 2 (el modelo de generación de música de Google DeepMind) para reinventar la experiencia de los webcómics para los fans de todo el mundo.

La colaboración, que se presentó en Google I/O, muestra una experiencia de cómics potenciada por IA en la que las historias no solo se encuentran en la página, sino que responden y participan, lo que transforma las imágenes estáticas en narrativas de audio dinámicas:

  • Narración adaptable con IA: La versión preliminar de Gemini 2.5 Pro crea una narración con IA que fluye con la velocidad de lectura y da vida a los personajes con voces distintas. Esto es especialmente importante para los lectores de la India, donde los matices culturales del lenguaje varían mucho. Las capacidades adaptativas y multilingües de Gemini 2.5 Pro, combinadas con el motor de contexto de personajes patentado de Toonsutra, garantizan una narración coherente y matizada.
  • Paisajes sonoros dinámicos: Gracias a la comprensión multimodal de Gemini 2.5 Pro en versión preliminar y a las capacidades nativas de generación de audio de Lyria y Gemini, la plataforma genera paisajes sonoros envolventes que incluyen música personalizada, voces en off y sonidos de movimiento, desde el sonido metálico de una espada hasta el ambiente de un mercado bullicioso.
  • Interacción mejorada: Los elementos potenciados por la versión preliminar de Gemini 2.5 Pro permiten que los lectores activen diálogos únicos, exploren detalles ocultos o influyan sutilmente en los hilos narrativos, lo que garantiza experiencias de lectura variadas.

Detalles técnicos

Este proyecto presenta un enfoque novedoso para generar automáticamente audio envolvente para cómics digitales, con metadatos espaciales sincronizados. En su núcleo, se encuentra una arquitectura multiagente creada sobre la versión preliminar de Gemini 2.5 Pro, que incluye agentes especializados: el agente de extracción de contexto de cómics, el narrador, el compositor musical, el director musical y los agentes de efectos de sonido.

El flujo de trabajo comienza con el agente de extracción de contexto de cómics que analiza varios capítulos de cómics para obtener una sinopsis, un género y rasgos de personajes integrales. Luego, se extraen los paneles con los límites definidos. El agente de narración alinea el diálogo de las transcripciones con estos paneles, que, enriquecidos por el contexto del personaje, son expresados por el audio nativo de Gemini. Al mismo tiempo, el agente de Music Composer, inspirado en la composición de bandas sonoras de películas, usa la versión preliminar de Gemini 2.5 Pro para discernir temas y emociones en los capítulos, y los traduce en instrucciones musicales para que Lyria genere bandas sonoras de fondo. El agente de director musical asigna esta música a paneles específicos, mientras que el agente de efectos de sonido asigna paneles a etiquetas de efectos de sonido relevantes, que se recuperan de una base de datos.

Este flujo de trabajo culmina en un archivo JSON que detalla las coordenadas del panel, las voces en off, los efectos de sonido y la música sincronizada, que se entregan al frontend de Toonsutra.

Un logro clave es la capacidad de Gemini para generar de forma nativa este audio cinematográfico en idiomas de la India, comenzando con el hindi, lo que impulsa la misión de accesibilidad de Toonsutra.

"Este caso de uso fue muy divertido y emocionante para aprovechar las capacidades multimodales y multilingües de Gemini. Usar los potentes modelos de lenguaje grandes de Google para comprender semánticamente imágenes, personajes, bocetos y temas ha sido un gran mecanismo para condensar un medio de entrada en sus fundamentos. Las potentes funciones de generación de música de Lyria y las capacidades de voz nativas de Gemini, especialmente en idiomas de la India, mejoraron la experiencia final que pudimos ofrecer en asociación con Toonsutra".

- Avneet (PM, Google Partner Innovation)

De Google I/O a la disponibilidad general

La presentación de Google I/O fue un hito increíble que demostró cómo la IA puede mejorar fundamentalmente el contenido digital. Para Toonsutra, este es solo el primer capítulo.

Como suele decir nuestro equipo: "Nuestra visión en Toonsutra siempre fue hacer que los cómics sean más atractivos y accesibles para todas las personas, en cualquier lugar. Esta colaboración con Google es un gran paso hacia esa visión. La capacidad de crear estas experiencias de lectura envolventes y potenciadas por IA aborda directamente los comentarios de nuestra comunidad y acelera nuestra innovación. Nos entusiasma la respuesta que recibimos en I/O y queremos integrar esta función en la app de Toonsutra. Incluso, exploraremos una posible API para potenciar a otros creadores".

Actualmente, Toonsutra se enfoca en la integración gradual de estas funciones en su aplicación principal y escucha atentamente los comentarios de la comunidad. Creen que no solo están enriqueciendo su plataforma, sino que también están ayudando a crear un nuevo plan para el contenido mejorado por IA.

¿Todo listo para compilar? Explora la documentación de la API de Gemini y comienza a usar Google AI Studio hoy mismo.

Toonsutra participa en AI Futures Fund de Google, que invierte en startups ambiciosas y colabora con ellas para crear el futuro de la IA.