Toongether поддерживает единообразие художественного стиля, используя изображение Gemini 2.5 Flash.

Самир Насер Эддин

Соучредитель toongether

Гийом Вернад

Старший разработчик-консультант DeepMind

Развитие генеративного искусственного интеллекта открыло новые горизонты для творческого самовыражения, позволив разработчикам создавать инструменты, превращающие обычных пользователей в художников. Однако для последовательного искусства, такого как комиксы, задача состоит не только в создании одного хорошего изображения — она заключается в создании согласованных персонажей, стилей и сюжетов на протяжении десятков кадров.

Компания Toongether, разработчик приложения для веб-комиксов, смело берется за решение этой задачи. Их миссия — демократизировать визуальное повествование, предоставляя платформу, где обычные пользователи могут не только читать, но и создавать и делиться своими комиксами прямо со своих мобильных устройств. Интегрируя Gemini 2.5 Flash Image в свой процесс создания, они помогают пользователям преодолевать технические трудности рисования, создавая новое сообщество рассказчиков для совместного творчества.

Достижение согласованности в масштабе

Создание комикса требует строгой согласованности. Персонажи должны оставаться узнаваемыми в разных позах, одежде и выражениях лиц, при этом необходимо придерживаться единого художественного стиля.

Изначально команда toongether использовала сложную систему, включающую в себя тонко настроенную модель Stable Diffusion XL, дополненную такими инструментами, как ControlNet и IPAdapters. Хотя это давало качественные результаты, возникали проблемы с задержкой и гибкостью — основными препятствиями для разработчиков мобильных приложений. Генерация одного изображения занимала от 20 до 30 секунд, что слишком медленно для бесперебойной работы пользователя. Кроме того, добавление поддержки новых поз или стилей рисования требовало значительных инженерных усилий, что ограничивало возможности быстрой итерации.

Организация сложных конвейеров обработки данных с помощью Gemini

Чтобы преодолеть эти узкие места, компания toongether перевела свой основной конвейер генерации изображений на API Gemini. Они выбрали Gemini 2.5 Flash Image — также известный как «Nano Banana» за свою скорость и гибкость, — который предлагал превосходные возможности редактирования и следования инструкциям, необходимые для обработки сложных многоэтапных задач генерации.

Этот переход значительно ускорил темпы разработки: команда перешла от прототипа к полномасштабной производственной реализации всего за две недели.

Для обеспечения единообразия символов и одновременно возможности пользовательской настройки, компания toongee использовала Gemini 2.5 Flash Image для создания сложного многоэтапного конвейера:

Анализ стиля и создание эталонных изображений: Когда пользователь создает нового персонажа, приложение предоставляет модели тщательно подобранный список эталонных персонажей для анализа желаемого стиля. На основе простого текстового описания модель генерирует эталонное изображение «нейтральной позы» для этого нового оригинального персонажа.
Наборы ресурсов и генерация поз: Чтобы вписать персонажа в сюжет, toongether использует «наборы ресурсов» — сгруппированные списки описаний желаемых поз и сценариев использования. Используя подсказку вместе с нейтральным эталонным изображением, они могут дать указание Gemini 2.5 Flash Image генерировать конкретные сценарии, не теряя при этом визуальной идентичности персонажа.
Композиция сцены: Для фонов и других элементов команда предоставляет эталонные изображения, чтобы определить правильный художественный стиль и обеспечить целостность панелей.

«Благодаря расширенным возможностям редактирования и управления в Gemini 2.5 Flash Image мы смогли реализовать все наши сценарии использования», — объясняет Самир Нассер Эддин, соучредитель toongether. «Теперь это неотъемлемая часть наших конвейеров генерации изображений».

Что ждет нас вместе в будущем?

Заложив основу, команда toongether планирует перейти к более сложным сюжетным решениям, которые ранее считались слишком ресурсоемкими. Они планируют использовать модели Gemini для поддержки сложных взаимодействий между несколькими персонажами в рамках одного кадра, а также для внедрения более широкого разнообразия стилей рисования.

История успеха toongether демонстрирует, как API Gemini помогает новому поколению разработчиков перейти от управления сложными стеками моделей к созданию сложных, согласованных инструментов для творчества, масштабируемых для обычных пользователей.

Чтобы начать создавать собственные креативные приложения с помощью моделей Gemini, ознакомьтесь с нашей документацией по API .

Синтезия

Synthesia использует Veo 2 для создания высококачественных аватаров с искусственным интеллектом, достойных студийного уровня.

Toongether поддерживает единообразие художественного стиля, используя изображение Gemini 2.5 Flash.

Достижение согласованности в масштабе

Организация сложных конвейеров обработки данных с помощью Gemini

Что ждет нас вместе в будущем?

Соответствующие тематические исследования