20. Mai 2025
Toonsutra erweckt Comics zum Leben: Ein immersives Leseerlebnis basierend auf der Gemini API, der Vorabversion von Gemini 2.5 Pro und Lyria 2

Toonsutra ist Indiens größte Plattform für Webcomics und Graphic Novels. Das Unternehmen hat es sich zur Aufgabe gemacht, ein globales Publikum mit der riesigen Welt der Webcomics zu verbinden. Dabei liegt der Fokus darauf, erstklassige Geschichten in indischen Sprachen zugänglich zu machen. Toonsutra wollte die Interaktion mit dem Publikum intensivieren und fragte sich: Wie können wir das traditionelle Lesen von Comics in eine immersive, filmische Reise verwandeln, bei der Stimme, Musik und Geschichte auf natürliche Weise in der Sprache fließen, in der die Leser träumen?
Das nächste Kapitel im interaktiven Geschichtenerzählen
Diese Frage wurde zum Schwerpunkt von Toonsutra. Das Feedback ihrer Community zeigte, dass sich die Zuschauer mehr Interaktion und eine breitere Zugänglichkeit wünschten. Toonsutra erkannte das immense Potenzial von KI und arbeitete mit den Labs- und Partner Innovation-Teams von Google zusammen. Das Unternehmen wurde dabei vom AI Futures Fund von Google unterstützt. Dabei nutzen sie die Gemini API mit Gemini 2.5 Pro Preview und Lyria 2 (dem Musikgenerierungsmodell von Google DeepMind), um Webcomics für Fans weltweit neu zu erfinden.
Die auf der Google I/O vorgestellte Zusammenarbeit zeigt eine KI-basierte Comic-Erfahrung, bei der Geschichten nicht nur auf der Seite stehen, sondern reagieren und interagieren und statische Bilder in dynamische Audio-Narrative verwandeln:
- Adaptive KI-Sprachausgabe:Gemini 2.5 Pro (Vorabversion) erstellt eine KI-Sprachausgabe, die sich an die Lesegeschwindigkeit anpasst und Charaktere mit unterschiedlichen Stimmen zum Leben erweckt. Dies ist besonders wichtig für Leser in Indien, wo kulturelle Nuancen in der Sprache stark variieren. Die adaptiven und mehrsprachigen Funktionen von Gemini 2.5 Pro in Kombination mit der proprietären Engine für Zeichenkontext von Toonsutra sorgen für einheitliche, differenzierte Geschichten.
- Dynamische Soundscapes:Dank des multimodalen Verständnisses von Gemini 2.5 Pro Preview und der nativen Audio-Generierungsfunktionen von Lyria und Gemini generiert die Plattform immersive Soundscapes mit maßgeschneiderter Musik, Voiceovers und Bewegungsgeräuschen – vom Klirren eines Schwerts bis hin zum Ambiente eines geschäftigen Marktes.
- Verbesserte Interaktivität:Elemente, die auf Gemini 2.5 Pro Preview basieren, ermöglichen es Lesern, einzigartige Dialoge auszulösen, verborgene Details zu entdecken oder Handlungsstränge auf subtile Weise zu beeinflussen. So wird für abwechslungsreiche Leseerlebnisse gesorgt.
Technische Details
In diesem Projekt wird ein neuartiger Ansatz vorgestellt, um automatisch immersiven Audio für digitale Comics zu generieren, komplett mit synchronisierten räumlichen Metadaten. Das Herzstück ist eine Multi-Agent-Architektur, die auf Gemini 2.5 Pro Preview basiert und aus spezialisierten Agents besteht: Comic Context Extractor, Narrator, Music Composer, Music Director und Sound Effects Agents.
Der Workflow beginnt damit, dass der Comic Context Extractor Agent mehrere Comic-Kapitel analysiert, um eine umfassende Zusammenfassung, das Genre und die Charaktereigenschaften zu ermitteln. Anschließend werden die Panels mit den definierten Grenzen extrahiert. Der Narrator Agent gleicht Dialoge aus Transkripten mit diesen Panels ab. Die Panels werden dann mit Gemini Native Audio vertont und mit Kontext zur Figur angereichert. Gleichzeitig nutzt der Music Composer-Agent, der von der Filmmusik inspiriert ist, Gemini 2.5 Pro Preview, um Themen und Emotionen in den einzelnen Kapiteln zu erkennen und in Musik-Prompts für Lyria zu übersetzen, damit Hintergrundmusik generiert werden kann. Der Music Director Agent ordnet diese Musik bestimmten Panels zu, während der Sound Effects Agent Panels relevanten Soundeffekt-Tags zuordnet, die aus einer Datenbank abgerufen werden.
Dieser Workflow mündet in einer JSON-Datei mit detaillierten Informationen zu Panelkoordinaten, Voiceovers, Soundeffekten und synchronisierter Musik, die an das Frontend von Toonsutra gesendet wird.
Ein wichtiger Erfolgsfaktor ist die Fähigkeit von Gemini, diesen filmischen Audio-Track in indischen Sprachen zu generieren, beginnend mit Hindi. Das trägt zur Barrierefreiheit von Toonsutra bei.
„Das war ein toller, spannender Anwendungsfall, bei dem wir die multimodalen und mehrsprachigen Funktionen von Gemini nutzen konnten. Die leistungsstarken Large Language Models von Google können Bilder, Zeichen, Skizzen und Themen semantisch erfassen und so Eingabemedien auf ihre Grundlagen reduzieren. Die leistungsstarke Musikgenerierung von Lyria und die nativen Sprachfunktionen von Gemini, insbesondere in indischen Sprachen, haben das Endergebnis, das wir in Zusammenarbeit mit Toonsutra erzielen konnten, noch verbessert.“
Von der Google I/O bis zur allgemeinen Verfügbarkeit
Die Google I/O war ein unglaublicher Meilenstein, der gezeigt hat, wie KI digitale Inhalte grundlegend verbessern kann. Für Toonsutra ist das erst das erste Kapitel.
Unser Team sagt oft: „Unsere Vision bei Toonsutra war es immer, Comics für alle und überall ansprechender und zugänglicher zu machen. Die Zusammenarbeit mit Google ist ein großer Schritt in diese Richtung. Die Möglichkeit, diese immersiven, KI-gestützten Leseerlebnisse zu schaffen, ist eine direkte Reaktion auf das Feedback unserer Community und beschleunigt unsere Innovationen. Wir sind begeistert von der Resonanz auf der I/O und freuen uns darauf, diese Funktion in die Toonsutra-App zu integrieren. Wir denken sogar über eine mögliche API nach, um auch anderen Creatorn die Nutzung zu ermöglichen.“
Toonsutra konzentriert sich jetzt auf die schrittweise Integration dieser Funktionen in die Hauptanwendung und berücksichtigt dabei das Feedback der Community. Sie sind der Meinung, dass sie nicht nur ihre Plattform bereichern, sondern auch dazu beitragen, eine neue Blaupause für KI-optimierte Inhalte zu erstellen.
Bereit zum Erstellen? Gemini API-Dokumentation – Google AI Studio
Toonsutra ist Teilnehmer des AI Futures Fund von Google, der in ambitionierte Start-ups investiert und mit ihnen zusammenarbeitet, um die Zukunft der KI zu gestalten.