20 мая 2025 г.
Toonsutra оживляет комиксы: захватывающий опыт чтения на основе API Gemini, Gemini 2.5 Pro Preview и Lyria 2

Toonsutra, крупнейший в Индии ресурс веб-комиксов и графических романов, стремится познакомить мировую аудиторию с обширной повествовательной вселенной веб-комиксов, уделяя особое внимание созданию историй мирового уровня, доступных на индийских языках. Стремясь углубить вовлечение аудитории, Toonsutra задался вопросом: как превратить традиционный опыт чтения комиксов в захватывающее кинематографическое путешествие, где голос, музыка и сюжет естественным образом переплетаются на языке, на котором читатели мечтают?
Создание следующей главы в интерактивном повествовании
Этот вопрос стал основной темой Toonsutra. Отзывы сообщества выявили потребность в более глубоком взаимодействии и более широкой доступности. Осознавая огромный потенциал ИИ и опираясь на поддержку фонда Google AI Futures Fund , Toonsutra объединилась с командами Google Labs и Partner Innovation. Вместе они используют API Gemini, включая Gemini 2.5 Pro Preview и Lyria 2 (модель генерации музыки от Google DeepMind), чтобы переосмыслить веб-комиксы для поклонников по всему миру.
Совместная работа, представленная на конференции Google I/O, демонстрирует комикс-опыт на базе искусственного интеллекта, где истории не просто лежат на странице; они реагируют и вовлекают, преобразуя статичные изображения в динамичные аудиоповествования:
- Адаптивное ИИ-озвучивание: Gemini 2.5 Pro Preview создаёт ИИ-озвучивание, которое плавно перетекает в темп чтения, оживляя персонажей уникальными голосами. Это особенно важно для индийских читателей, чьи культурные особенности языка сильно различаются. Адаптивные и многоязычные возможности Gemini 2.5 Pro в сочетании с фирменным движком контекста персонажей Toonsutra обеспечивают последовательное и детальное повествование.
- Динамичные звуковые ландшафты: благодаря мультимодальному распознаванию Gemini 2.5 Pro Preview и собственным возможностям генерации звука Lyria и Gemini платформа создает захватывающие звуковые ландшафты, включающие в себя уникальную музыку, закадровый голос и звуки движения — от звона меча до атмосферы оживленного рынка.
- Расширенная интерактивность: элементы на базе Gemini 2.5 Pro Preview позволяют читателям инициировать уникальный диалог, исследовать скрытые детали или тонко влиять на ход повествования, обеспечивая разнообразные впечатления от чтения.
Технические детали
Этот проект представляет собой новый подход к автоматической генерации иммерсивного звука для цифровых комиксов с синхронизированными пространственными метаданными. В основе проекта лежит многоагентная архитектура, построенная на базе Gemini 2.5 Pro Preview и включающая специализированные агенты: извлекатель контекста комиксов, рассказчик, композитор музыки, музыкальный директор и агенты звуковых эффектов.
Рабочий процесс начинается с того, что агент Comic Context Extractor анализирует несколько глав комикса на предмет полного синопсиса, жанра и характеристик персонажей. Затем извлекаются кадры с заданными границами. Агент Narrator сопоставляет диалоги из транскрипций с этими кадрами, которые, дополненные контекстом персонажей, озвучиваются Gemini Native Audio. Одновременно с этим агент Music Composer, вдохновленный работой с музыкальным сопровождением фильмов, использует Gemini 2.5 Pro Preview для выделения тем и эмоций в главах и переводит их в музыкальные подсказки, которые Lyria использует для создания фоновых партитур. Агент Music Director сопоставляет эту музыку с определенными кадрами, а агент Sound Effects сопоставляет кадры с соответствующими тегами звуковых эффектов, полученными из базы данных.
Кульминацией этого рабочего процесса является JSON-файл, содержащий подробную информацию о координатах панели, закадровом голосе, звуковых эффектах и синхронизированной музыке, который передается на интерфейс Toonsutra.
Главным достижением Gemini является способность генерировать кинематографический звук на родном языке на индийских языках, начиная с хинди, что способствует выполнению миссии Toonsutra по обеспечению доступности.
«Это был невероятно увлекательный и захватывающий пример использования мультимодальных и многоязычных возможностей Gemini. Использование мощных языковых моделей Google для семантического понимания изображений, персонажей, рисования эскизов и тем стало отличным инструментом для сжатого перевода входных данных в их базовые функции. Мощная генерация музыки Lyria и возможности Gemini по воспроизведению речи носителей языка, особенно на индийских языках, вывели на новый уровень итоговый результат, который мы смогли создать в сотрудничестве с Toonsutra».
От Google I/O до общедоступности
Презентация Google I/O стала невероятно важной вехой, продемонстрировавшей, как ИИ может кардинально улучшить цифровой контент. Для Toonsutra это лишь первая глава.
Как часто говорит наша команда: «В Toonsutra мы всегда стремились сделать комиксы более увлекательными и доступными для всех и везде. Это сотрудничество с Google — колоссальный шаг к достижению этой цели. Возможность создавать такие захватывающие, основанные на искусственном интеллекте возможности чтения напрямую учитывает отзывы нашего сообщества и ускоряет наши инновации. Мы в восторге от отклика на конференции I/O и с нетерпением ждем возможности интегрировать это в приложение Toonsutra, а в перспективе даже изучим потенциальный API для поддержки других авторов».
Сейчас Toonsutra сосредоточена на поэтапной интеграции этих функций в своё основное приложение, внимательно прислушиваясь к отзывам сообщества. Они считают, что не просто обогащают свою платформу, но и помогают создать новый подход к контенту, улучшенному с помощью ИИ.
Готовы к разработке? Изучите документацию по API Gemini и начните работу с Google AI Studio уже сегодня.
Toonsutra является участником фонда Google AI Futures Fund, который инвестирует в амбициозные стартапы, разрабатывающие будущие разработки в области искусственного интеллекта, и сотрудничает с ними.
Харви
Harvey использует BigLaw Bench, чтобы продемонстрировать исключительную способность Gemini 2.5 Pro справляться со сложными задачами юридического обоснования, такими как комплексная проверка и составление судебных документов.