Помимо текстовых подсказок: как Cartwheel создал реалистичную 3D-генерацию с помощью Gemini Flash 2.5

Вишал Дхармадхикари

Инженер по разработке продуктовых решений

Джонатан Джарвис

Генеральный директор

Эндрю Карр

Соучредитель и главный научный сотрудник

Генеративные модели открыли новые возможности для художников и дизайнеров. Однако для профессиональных создателей воплощение конкретного творческого замысла в сгенерированное изображение остается серьезной проблемой. Подсказки, основанные только на тексте, часто напоминают «игровой автомат», затрудняя точный контроль над позой персонажа, ракурсом камеры и композицией.

Cartwheel , платформа для создания 3D-игр и медиаконтента с использованием искусственного интеллекта, решает эту проблему, разрабатывая инновационное решение на основе передовых моделей Google, в данном случае Gemini 2.5 Flash Image Nano Banana. Функция «Режим позирования» в Cartwheel Studio выходит за рамки простого преобразования текста в изображение, интегрируя элементы управления, изначально предназначенные для 3D-моделирования, предоставляя создателям прямой итеративный контроль над результатом.

Задача: преодолеть разрыв между намерением и результатом.

В профессиональных творческих процессах точность имеет решающее значение. Художнику, рекламщику или гейм-дизайнеру часто необходимо создать персонажа в определенной позе или под определенным углом, чтобы он соответствовал раскадровке или брифу рекламной кампании.

«На высоком уровне управлять генераторами изображений было сложно», — сказал Джонатан Джарвис, соучредитель Cartwheel. «Трудно воплотить в жизнь то видение, которое у вас есть на самом деле. Мы всегда хотели дать вам возможность просто войти и напрямую управлять персонажем».

Требование прямого взаимодействия побудило Cartwheel разработать многомодальный конвейер, который объединяет 3D-позирование, текстовые подсказки и несколько моделей искусственного интеллекта для совместной работы.

Решение: многомодельный конвейер для генерации, точно соответствующей позе.

Вместо того чтобы полагаться исключительно на текст, режим позирования в Cartwheel предоставляет пользователю 3D-манекен. Пользователь может напрямую щелкать и перетаскивать конечности манекена, чтобы создать определенную позу и настроить виртуальную камеру под любым углом. Эта 3D-сцена затем становится основным входным параметром для процесса генерации.

Технический процесс выглядит следующим образом:

Создание меток для поз с помощью Gemini 2.5 Flash. Сначала скриншот 3D-манекена в определенной позе отправляется в Gemini 2.5 Flash. Cartwheel использует 2.5 Flash для этого шага, поскольку его скорость идеально подходит для требований к низкой задержке, предъявляемых инструментом для творчества в реальном времени. Задача модели — вернуть простую текстовую метку, описывающую позу, например, «персонаж в прыжке» или «персонаж, отдающий честь».
Мультимодальная сборка подсказок. Эта метка позы, сгенерированная Flash 2.5, затем автоматически объединяется с собственной описательной текстовой подсказкой пользователя (например, «робот в цветочном поле»).
Генерация изображения с учетом условий. Наконец, этот комбинированный текстовый запрос отправляется в высокоточную модель изображения, точно соответствующую позе, Gemini 2.5 Flash Image, вместе с исходным скриншотом 3D-позы. Этот мультимодальный запрос, включающий как изображение позы, так и подробное текстовое описание, обучивает Gemini 2.5 Flash Image генерировать изображение, строго соответствующее позе и ракурсу камеры, одновременно применяя художественный стиль, характер и детали сцены из текста.

Такое последовательное использование моделей — с применением Flash 2.5 для визуального анализа и маркировки, и Flash Image 2.5 для окончательного, оптимизированного рендеринга — позволяет Cartwheel предложить уникальный рабочий процесс, сочетающий интуитивно понятное управление 3D-программным обеспечением с творческими возможностями генеративного ИИ.

Результат: обеспечение согласованности характеров с любого ракурса.

Этот подход оказался эффективным для создания изображений, которые ранее было сложно получить. «Рендеринг персонажей под любым углом, кроме фронтального, не работал ни в одной другой модели», — отметил Эндрю Карр, соучредитель Cartwheel. «Как только вы поворачивали камеру, все разваливалось».

Поскольку большинство моделей изображений обучаются на данных, в которых персонажи в подавляющем большинстве случаев изображены анфас, им сложно создавать менее распространенные композиции, такие как снимки с верхнего ракурса или виды сзади. Предоставляя позу в качестве прямого визуального ввода, инструмент Cartwheel обходит эту предвзятость обучающих данных, позволяя художнику создавать согласованных персонажей с любого выбранного им ракурса.

Этот рабочий процесс значительно ускоряет творческий процесс. Задача, которая раньше могла потребовать часов итеративных подсказок или ручного композитинга со стороны 3D-художника, теперь может быть выполнена за считанные секунды.

Что дальше: от статичных изображений к генеративному видео.

Компания Cartwheel уже планирует дальнейшие шаги в развитии этой технологии. Команда экспериментирует с интеграцией библиотеки из 150 000 предварительно классифицированных поз, которые пользователи смогут искать и уточнять, что еще больше ускорит рабочий процесс.

В долгосрочной перспективе планируется распространить этот конвейер от позы к пикселям на анимацию. Одна и та же 3D-поза и отрендеренное изображение могут служить отправной точкой для модели, создаваемой с помощью видео, например, Veo. Это позволит создателю задать позу персонажа, отрендерить его в любом стиле, а затем анимировать с помощью текстовой подсказки, создавая бесшовный рабочий процесс от 3D-позы до финальной стилизованной анимации.

Основываясь на мультимодальных моделях, подобных тем, что входят в семейство Gemini, Cartwheel демонстрирует, как разработчики могут создавать сложные инструменты, предоставляющие художникам необходимый контроль и согласованность, превращая генеративный ИИ из инструмента случайности в инструмент точного творческого замысла.

Promise Studios

Promise Studios использует Gemini 2.5 Pro и Veo 2 для преобразования кинопроизводства, обеспечивая глубокий анализ сценария, раскадровку с помощью ИИ и контекстно-ориентированную визуальную обработку.

Помимо текстовых подсказок: как Cartwheel создал реалистичную 3D-генерацию с помощью Gemini Flash 2.5

Задача: преодолеть разрыв между намерением и результатом.

Решение: многомодельный конвейер для генерации, точно соответствующей позе.

Результат: обеспечение согласованности характеров с любого ракурса.

Что дальше: от статичных изображений к генеративному видео.

Соответствующие тематические исследования