20 maja 2025 r.
Toonsutra ożywia komiksy: wciągające czytanie dzięki interfejsowi Gemini API, wersji testowej Gemini 2.5 Pro i Lyria 2

Toonsutra, największa w Indiach platforma z komiksami internetowymi i powieściami graficznymi, ma na celu połączenie globalnej publiczności z ogromnym uniwersum komiksów internetowych, ze szczególnym naciskiem na udostępnianie światowej klasy historii w językach indyjskich. Firma Toonsutra chciała zwiększyć zaangażowanie odbiorców, dlatego zadała sobie pytanie: jak przekształcić tradycyjne czytanie komiksów w wciągającą, filmową podróż, w której głos, muzyka i fabuła płynnie łączą się w języku, w którym czytelnicy marzą?
Tworzenie kolejnego rozdziału interaktywnego opowiadania
To pytanie stało się głównym celem Toonsutry. Opinie społeczności wskazywały na potrzebę większego zaangażowania i szerszej dostępności. Firma Toonsutra dostrzegła ogromny potencjał AI i dzięki wsparciu funduszu AI Futures Fund od Google nawiązała współpracę z zespołami Laboratorium i Innowacji w zakresie partnerstwa w Google. Korzystają one z interfejsu Gemini API, który obejmuje wersję podglądową Gemini 2.5 Pro i Lyrię 2 (model generowania muzyki od Google DeepMind), aby odmienić sposób, w jaki fani na całym świecie korzystają z komiksów internetowych.
Współpraca, która została zaprezentowana podczas Google I/O, pokazuje komiks oparty na AI, w którym historie nie tylko znajdują się na stronie, ale też reagują i angażują czytelnika, przekształcając statyczne obrazy w dynamiczne narracje audio:
- Adaptacyjny podkład głosowy AI: Gemini 2.5 Pro (wersja testowa) tworzy podkład głosowy AI, który dostosowuje się do tempa czytania, ożywiając postacie za pomocą charakterystycznych głosów. Jest to szczególnie ważne w przypadku czytelników z Indii, gdzie niuanse kulturowe w języku są bardzo zróżnicowane. Adaptacyjne i wielojęzyczne możliwości Gemini 2.5 Pro w połączeniu z autorskim silnikiem kontekstu postaci Toonsutra zapewniają spójne i subtelne opowiadanie historii.
- Dynamiczne pejzaże dźwiękowe: dzięki multimodalnemu rozumieniu Gemini 2.5 Pro w wersji podglądowej oraz wbudowanym funkcjom generowania dźwięku Lyrii i Gemini platforma tworzy wciągające pejzaże dźwiękowe, w tym muzykę na zamówienie, podkłady głosowe i dźwięki ruchu – od brzęku miecza po atmosferę tętniącego życiem rynku.
- Ulepszona interaktywność: elementy oparte na wersji testowej Gemini 2.5 Pro umożliwiają czytelnikom wywoływanie unikalnych dialogów, odkrywanie ukrytych szczegółów lub subtelne wpływanie na wątki narracyjne, co zapewnia różnorodne wrażenia z czytania.
Dane techniczne
Ten projekt wprowadza nowe podejście do automatycznego generowania dźwięku przestrzennego do komiksów cyfrowych, wraz ze zsynchronizowanymi metadanymi przestrzennymi. U podstaw tej funkcji leży architektura wieloagentowa oparta na wersji testowej Gemini 2.5 Pro, która obejmuje wyspecjalizowane agenty: Comic Context Extractor, Narrator, Music Composer, Music Director i Sound Effects Agents.
Przepływ pracy rozpoczyna się od analizy wielu rozdziałów komiksu przez agenta Comic Context Extractor, który tworzy kompleksowe streszczenie, określa gatunek i cechy postaci. Następnie wyodrębniane są panele z określonymi granicami. Agent Narrator dopasowuje dialogi z transkrypcji do tych paneli, które po wzbogaceniu o kontekst postaci są odczytywane przez Gemini Native Audio. Równocześnie agent Music Composer, inspirowany muzyką filmową, używa Gemini 2.5 Pro w wersji przedpremierowej, aby rozpoznawać motywy i emocje w poszczególnych rozdziałach i przekształcać je w prompty muzyczne dla Lyrii, która generuje muzykę w tle. Agent dyrektora muzycznego przypisuje tę muzykę do konkretnych paneli, a agent efektów dźwiękowych przypisuje panele do odpowiednich tagów efektów dźwiękowych pobranych z bazy danych.
Ten proces kończy się utworzeniem pliku JSON zawierającego szczegółowe informacje o współrzędnych paneli, podkładzie głosowym, efektach dźwiękowych i zsynchronizowanej muzyce, który jest przesyłany do interfejsu Toonsutra.
Kluczowym sukcesem jest możliwość natywnego generowania przez Gemini dźwięku kinowego w językach indyjskich, począwszy od hindi, co przyczynia się do realizacji misji Toonsutry w zakresie dostępności.
„To bardzo ciekawy i ekscytujący sposób wykorzystania multimodalnych i wielojęzycznych możliwości Gemini. Wykorzystanie zaawansowanych dużych modeli językowych Google do semantycznego rozumienia obrazów, postaci, szkiców i motywów było świetnym sposobem na skondensowanie danych wejściowych do ich podstawowych elementów. Potężne możliwości generowania muzyki Lyrii i natywne funkcje mowy Gemini, zwłaszcza w językach indyjskich, podniosły jakość końcową, którą udało nam się osiągnąć we współpracy z Toonsutrą”.
Od Google I/O do ogólnej dostępności
Prezentacja na Google I/O była niesamowitym wydarzeniem, które pokazało, jak AI może zasadniczo ulepszyć treści cyfrowe. W przypadku Toonsutra to dopiero pierwszy rozdział.
Jak często powtarza nasz zespół: „Naszą wizją w Toonsutra zawsze było sprawienie, aby komiksy były bardziej angażujące i dostępne dla wszystkich, wszędzie. Współpraca z Google to ogromny krok w kierunku realizacji tej wizji. Możliwość tworzenia tych niezwykle wciągających doświadczeń czytelniczych opartych na AI jest bezpośrednią odpowiedzią na opinie naszej społeczności i przyspiesza nasze innowacje. Jesteśmy zachwyceni reakcją na I/O i chcemy zintegrować tę funkcję z aplikacją Toonsutra, a w przyszłości być może nawet udostępnić interfejs API, aby umożliwić to innym twórcom”.
Toonsutra skupia się teraz na stopniowym wdrażaniu tych funkcji w głównej aplikacji, uważnie słuchając opinii społeczności. Uważają, że nie tylko wzbogacają swoją platformę, ale też pomagają stworzyć nowy plan treści ulepszonych przez AI.
Chcesz zacząć? Zapoznaj się z dokumentacją Gemini API i zacznij korzystać z Google AI Studio już dziś.
Toonsutra uczestniczy w programie AI Futures Fund od Google, który inwestuje w ambitne startupy tworzące przyszłość AI i z nimi współpracuje.