Toonsutra Brings Comics to Life: An Immersive Reading Experience Powered by the Gemini API, Gemini 2.5 Pro Preview & Lyria 2

Sharad Devarajan | Vishal Anand

Założyciele Toonsutra

Avneet Singh

Menedżer produktu, Google Partner Innovation

Toonsutra, największa w Indiach platforma z komiksami internetowymi i powieściami graficznymi, ma na celu połączenie globalnej publiczności z ogromnym uniwersum komiksów internetowych, ze szczególnym naciskiem na udostępnianie światowej klasy historii w językach indyjskich. Firma Toonsutra, chcąc zwiększyć zaangażowanie odbiorców, zadała sobie pytanie: jak przekształcić tradycyjne czytanie komiksów w wciągającą, filmową podróż, w której głos, muzyka i fabuła płynnie łączą się w języku, w którym czytelnicy marzą?

Tworzenie kolejnego rozdziału interaktywnego opowiadania

To pytanie stało się głównym celem Toonsutry. Opinie społeczności wskazywały na potrzebę większego zaangażowania i szerszej dostępności. Firma Toonsutra dostrzegła ogromny potencjał AI i dzięki wsparciu funduszu AI Futures Fund od Google nawiązała współpracę z zespołami Laboratorium i Partner Innovation w Google. Korzystają one z interfejsu Gemini API, który obejmuje wersję podglądową Gemini 2.5 Pro i Lyrię 2 (model generowania muzyki od Google DeepMind), aby odmienić sposób, w jaki fani na całym świecie korzystają z komiksów internetowych.

Współpraca, zaprezentowana podczas Google I/O, pokazuje komiksy oparte na AI, w których historie nie tylko znajdują się na stronie, ale też reagują i angażują czytelnika, przekształcając statyczne obrazy w dynamiczne narracje audio:

Adaptacyjny podkład głosowy AI: Gemini 2.5 Pro (wersja testowa) tworzy podkład głosowy AI, który dostosowuje się do tempa czytania, ożywiając postacie za pomocą charakterystycznych głosów. Jest to szczególnie ważne w przypadku czytelników z Indii, gdzie niuanse kulturowe w języku są bardzo zróżnicowane. Adaptacyjne i wielojęzyczne możliwości Gemini 2.5 Pro w połączeniu z autorskim silnikiem kontekstowym postaci Toonsutra zapewniają spójne i subtelne opowiadanie historii.
Dynamiczne pejzaże dźwiękowe: dzięki multimodalnemu rozumieniu modelu Gemini 2.5 Pro w wersji podglądowej oraz natywnym funkcjom generowania dźwięku Lyrii i Gemini platforma tworzy wciągające pejzaże dźwiękowe, w tym muzykę na zamówienie, podkłady głosowe i dźwięki ruchu – od brzęku miecza po atmosferę tętniącego życiem rynku.
Ulepszona interaktywność: elementy oparte na wersji testowej Gemini 2.5 Pro umożliwiają czytelnikom wywoływanie unikalnych dialogów, odkrywanie ukrytych szczegółów lub subtelne wpływanie na wątki narracyjne, co zapewnia różnorodne wrażenia z czytania.

Dane techniczne

Ten projekt wprowadza nowe podejście do automatycznego generowania dźwięku przestrzennego do komiksów cyfrowych, wraz ze zsynchronizowanymi metadanymi przestrzennymi. Jego podstawą jest architektura wieloagentowa oparta na Gemini 2.5 Pro w wersji testowej, która obejmuje wyspecjalizowane agenty: Comic Context Extractor, Narrator, Music Composer, Music Director i Sound Effects Agents.

Przepływ pracy rozpoczyna się od analizy wielu rozdziałów komiksu przez agenta Comic Context Extractor, który tworzy kompleksowe streszczenie, określa gatunek i cechy postaci. Następnie wyodrębniane są panele z określonymi granicami. Agent Narrator dopasowuje dialogi z transkrypcji do tych paneli, które po wzbogaceniu o kontekst postaci są odczytywane przez Gemini Native Audio. Równocześnie agent Music Composer, inspirowany muzyką filmową, używa Gemini 2.5 Pro w wersji podglądowej, aby rozpoznawać motywy i emocje w poszczególnych rozdziałach i przekształcać je w prompty muzyczne dla Lyrii, która generuje muzykę w tle. Agent dyrektora muzycznego przypisuje tę muzykę do konkretnych paneli, a agent efektów dźwiękowych przypisuje panele do odpowiednich tagów efektów dźwiękowych pobranych z bazy danych.

Ten proces kończy się utworzeniem pliku JSON zawierającego szczegółowe informacje o współrzędnych paneli, podkładzie głosowym, efektach dźwiękowych i zsynchronizowanej muzyce, który jest dostarczany do interfejsu Toonsutra.

Kluczowym sukcesem jest możliwość natywnego generowania przez Gemini dźwięku kinowego w językach indyjskich, począwszy od hindi, co przyczynia się do realizacji misji Toonsutry w zakresie dostępności.

„To bardzo ciekawy i ekscytujący sposób wykorzystania multimodalnych i wielojęzycznych możliwości Gemini. Wykorzystanie zaawansowanych dużych modeli językowych Google do semantycznego rozumienia obrazów, postaci, szkiców i motywów było świetnym sposobem na skondensowanie danych wejściowych do ich podstawowych elementów. Potężne możliwości generowania muzyki Lyrii i natywne funkcje mowy Gemini, zwłaszcza w językach indyjskich, podniosły jakość końcową, którą udało nam się osiągnąć we współpracy z Toonsutrą”.

– Avneet (PM, Google Partner Innovation)

Od Google I/O do ogólnej dostępności

Prezentacja na Google I/O była niesamowitym wydarzeniem, które pokazało, jak AI może zasadniczo ulepszyć treści cyfrowe. W przypadku Toonsutra to tylko pierwszy rozdział.

Jak często powtarza nasz zespół: „Naszą wizją w Toonsutra zawsze było sprawienie, aby komiksy były bardziej angażujące i dostępne dla wszystkich, wszędzie. Współpraca z Google to ogromny krok w kierunku realizacji tej wizji. Możliwość tworzenia tych niezwykle wciągających doświadczeń czytelniczych opartych na AI jest bezpośrednią odpowiedzią na opinie naszej społeczności i przyspiesza nasze innowacje. Jesteśmy zachwyceni reakcją na I/O i chcemy zintegrować tę funkcję z aplikacją Toonsutra, a w przyszłości być może udostępnimy interfejs API, aby umożliwić to innym twórcom”.

Toonsutra skupia się teraz na stopniowym wdrażaniu tych funkcji w głównej aplikacji, uważnie słuchając opinii społeczności. Uważają, że nie tylko wzbogacają swoją platformę, ale też pomagają stworzyć nowy plan treści ulepszonych przez AI.

Chcesz zacząć? Zapoznaj się z dokumentacją Gemini API i zacznij korzystać z Google AI Studio już dziś.

Toonsutra uczestniczy w programie Google AI Futures Fund, który inwestuje w ambitne startupy tworzące przyszłość AI i z nimi współpracuje.

Toonsutra Brings Comics to Life: An Immersive Reading Experience Powered by the Gemini API, Gemini 2.5 Pro Preview & Lyria 2

Tworzenie kolejnego rozdziału interaktywnego opowiadania

Dane techniczne

Od Google I/O do ogólnej dostępności

Powiązane studia przypadków