Делиться

20 мая 2025 г.

Toonsutra оживляет комиксы: захватывающий опыт чтения благодаря API Gemini, предварительной версии Gemini 2.5 Pro и Lyria 2.

Шарад Девараджан | Вишал Ананд

Основатели Toonsutra

Авнит Сингх

Менеджер по продуктам, Google Partner Innovation

Герой шоу «Колесо»

Toonsutra, крупнейший в Индии ресурс для веб-комиксов и графических романов, ставит перед собой задачу познакомить мировую аудиторию с обширной вселенной веб-комиксов, уделяя особое внимание тому, чтобы сделать истории мирового класса доступными на индийских языках. Стремясь углубить взаимодействие с аудиторией, Toonsutra задался вопросом: как можно превратить традиционное чтение комиксов в захватывающее кинематографическое путешествие, где голос, музыка и сюжет органично перетекают друг в друга на языке, на котором читатели видят свои сны?

Создание следующей главы в интерактивном повествовании

Этот вопрос стал центральным направлением работы Toonsutra. Отзывы сообщества выявили потребность в более глубоком вовлечении и более широкой доступности. Признавая огромный потенциал ИИ и при поддержке фонда Google AI Futures Fund , Toonsutra объединилась с командами Labs и Partner Innovation в Google. Вместе они используют API Gemini, включая Gemini 2.5 Pro Preview, и Lyria 2 (модель генерации музыки от Google DeepMind), чтобы переосмыслить опыт просмотра веб-комиксов для поклонников по всему миру.

В рамках сотрудничества, представленного на конференции Google I/O, демонстрируется комикс, созданный с помощью искусственного интеллекта, где истории не просто размещаются на странице; они реагируют и вовлекают читателя, превращая статичные изображения в динамичные аудиоповествования.

  • Адаптивное озвучивание с помощью ИИ: Gemini 2.5 Pro Preview создает озвучку, которая синхронизируется со скоростью чтения, оживляя персонажей с помощью различных голосов. Это особенно важно для индийских читателей, где культурные нюансы в языке сильно различаются. Адаптивные и многоязычные возможности Gemini 2.5 Pro в сочетании с фирменным механизмом контекста персонажей Toonsutra обеспечивают последовательное и тонкое повествование.
  • Динамичные звуковые ландшафты: Благодаря многомодальному распознаванию звуков в Gemini 2.5 Pro Preview и встроенным возможностям генерации звука в Lyria и Gemini, платформа создает захватывающие звуковые ландшафты, включая специально созданную музыку, озвучку и звуки движения — от звона меча до атмосферы шумного рынка.
  • Улучшенная интерактивность: элементы Gemini 2.5 Pro Preview позволяют читателям запускать уникальные диалоги, исследовать скрытые детали или тонко влиять на сюжетные линии, обеспечивая разнообразные впечатления от чтения.

Технические характеристики

В этом проекте представлен новый подход к автоматической генерации иммерсивного звука для цифровых комиксов, дополненный синхронизированными пространственными метаданными. В его основе лежит многоагентная архитектура, построенная на базе Gemini 2.5 Pro Preview, включающая специализированных агентов: агента для извлечения контекста комикса, рассказчика, композитора музыки, музыкального директора и агентов звуковых эффектов.

Рабочий процесс начинается с того, что агент Comic Context Extractor анализирует несколько глав комикса, чтобы получить исчерпывающую информацию о сюжете, жанре и характеристиках персонажей. Затем извлекаются панели с заданными границами. Агент Narrator сопоставляет диалоги из стенограмм с этими панелями, которые, обогащенные контекстом персонажей, озвучиваются с помощью Gemini Native Audio. Одновременно агент Music Composer, вдохновленный созданием музыки для фильмов, использует Gemini 2.5 Pro Preview для определения тем и эмоций в разных главах, преобразуя их в музыкальные подсказки для Лирии, чтобы она могла создавать фоновую музыку. Агент Music Director сопоставляет эту музыку с конкретными панелями, а агент Sound Effects сопоставляет панели с соответствующими тегами звуковых эффектов, полученными из базы данных.

В результате этого рабочего процесса создается JSON-файл с подробным описанием координат панелей, озвучкой, звуковыми эффектами и синхронизированной музыкой, который передается на интерфейс Toonsutra.

Ключевым достижением является способность Gemini генерировать кинематографическое аудио на индийских языках, начиная с хинди, что способствует выполнению миссии Toonsutra по обеспечению доступности.

«Это был невероятно интересный и захватывающий пример использования многомодальных и многоязычных возможностей Gemini. Использование мощных больших языковых моделей Google для семантического понимания изображений, персонажей, эскизов и тем стало отличным механизмом для сжатия входного медиаконтента до его основных составляющих. Мощная система генерации музыки Lyria и возможности Gemini по обработке естественной речи, особенно на индийских языках, значительно улучшили конечный результат, который мы смогли получить в сотрудничестве с Toonsutra».

– Авнит (PM, Google Partner Innovation)

От Google I/O до общедоступной версии

Презентация Google I/O стала невероятно важным событием, продемонстрировавшим, как искусственный интеллект может коренным образом улучшить цифровой контент. Для Toonsutra это лишь первая глава.

Как часто говорит наша команда: «Наша цель в Toonsutra всегда заключалась в том, чтобы сделать комиксы более увлекательными и доступными для всех и везде. Это сотрудничество с Google — монументальный шаг на пути к этой цели. Возможность создавать эти захватывающие, основанные на искусственном интеллекте, читательские впечатления напрямую отвечает на отзывы нашего сообщества и ускоряет наши инновации. Мы в восторге от отклика на I/O и с нетерпением ждем возможности интегрировать это в приложение Toonsutra, а в конечном итоге даже изучить возможность создания API для расширения возможностей других авторов».

В настоящее время Toonsutra сосредоточена на поэтапной интеграции этих функций в свое основное приложение, внимательно прислушиваясь к отзывам сообщества. Они считают, что не просто обогащают свою платформу, но и помогают создать новую модель для контента, созданного с помощью искусственного интеллекта.

Готовы к созданию? Изучите документацию по API Gemini и начните работу с Google AI Studio уже сегодня.

Toonsutra участвует в программе Google AI Futures Fund, которая инвестирует в амбициозные стартапы, создающие будущее искусственного интеллекта, и сотрудничает с ними.

Харви

Компания Harvey использует свой инструмент BigLaw Bench для демонстрации исключительной способности Gemini 2.5 Pro справляться со сложными задачами юридического анализа, такими как комплексная юридическая экспертиза и составление судебных документов.