Делиться

3 НОЯБРЯ 2025 ГОДА

За пределами текстовых подсказок: как Cartwheel создал точную 3D-генерацию с помощью Gemini Flash 2.5

Вишал Дхармадхикари

Инженер по продуктовым решениям

Джонатан Джарвис

Соучредитель и технический директор

Эндрю Карр

Соучредитель и главный научный сотрудник

Герой выставки «Колесо Карта»

Генеративные модели открыли новые возможности для художников и дизайнеров. Однако для профессиональных творцов воплощение конкретного творческого замысла в сгенерированное изображение остаётся серьёзной проблемой. Текстовые подсказки часто напоминают «игровой автомат», затрудняя точный контроль над позой персонажа, ракурсом камеры и композицией.

Cartwheel , платформа для создания игр и медиаконтента с использованием 3D-ИИ, решает эту проблему, создавая новое решение на основе передовых моделей Google, в данном случае Gemini 2.5 Flash Image Nano Banana. Функция «Pose Mode» в Cartwheel Studio выходит за рамки простой генерации текста в изображение, внедряя встроенные элементы управления 3D, предоставляя создателям прямой итеративный контроль над результатом.

Поза колеса

Задача: преодолеть разрыв между намерением и результатом

В профессиональных творческих процессах точность играет важнейшую роль. Художнику, рекламщику или гейм-дизайнеру часто требуется создать персонажа в определённой позе или с определённого ракурса, чтобы он соответствовал раскадровке или заданию кампании.

«На высоком уровне генераторы изображений сложно контролировать», — сказал Джонатан Джарвис, соучредитель Cartwheel. «Сложно воплотить в жизнь то, что у тебя есть. Мы всегда хотели, чтобы ты мог просто войти и напрямую управлять персонажем».

Эта потребность в прямом манипулировании привела к тому, что компания Cartwheel разработала многомодальный конвейер, который объединяет 3D-позирование, текстовые подсказки и несколько моделей ИИ для совместной работы.

Решение: многомодельный конвейер для точной генерации поз. Вместо того, чтобы полагаться исключительно на текст, режим поз Cartwheel предоставляет пользователю 3D-манекен. Пользователь может напрямую щёлкать и перетаскивать конечности манекена, чтобы создать нужную позу, и настраивать виртуальную камеру под любым углом. Эта 3D-сцена затем становится основным источником входных данных для процесса генерации.

Технический процесс выглядит следующим образом:

  1. Маркировка поз с помощью Gemini 2.5 Flash. Сначала скриншот позированного 3D-манекена отправляется в Gemini 2.5 Flash. Cartwheel использует Flash 2.5 для этого этапа, поскольку его скорость идеально подходит для низкой задержки, необходимой для инструмента для работы с реальным временем. Задача модели — вернуть простую текстовую метку, описывающую позу, например, «персонаж в позе прыжка» или «персонаж отдаёт честь».
  2. Сборка мультимодальных подсказок. Эта метка позы, сгенерированная Flash 2.5, затем автоматически объединяется с текстовой подсказкой пользователя (например, «робот в цветочном поле»).
  3. Генерация обусловленного изображения. В заключение, эта комбинированная текстовая подсказка отправляется в Gemini 2.5 Flash Image — высококачественную модель изображения с точным воспроизведением позы, вместе с исходным скриншотом 3D-позы. Эта мультимодальная подсказка, включающая как изображение позы, так и подробное текстовое описание, обуславливает Gemini 2.5 Flash Image создание изображения, строго соответствующего позе и ракурсу, с использованием художественного стиля, персонажа и деталей сцены из текста.


Такое объединение моделей — с использованием Flash 2.5 для визуального анализа и маркировки, а также Flash Image 2.5 для финального, условного рендеринга — позволяет Cartwheel предлагать уникальный рабочий процесс, сочетающий интуитивно понятное управление 3D-программами с креативной мощью генеративного ИИ. Результат: достижение единообразия персонажей с любого ракурса. Этот подход доказал свою эффективность при создании изображений, которые ранее было сложно создавать. «Рендеринг персонажей с любого ракурса, кроме анфас, не работал ни в одной другой модели», — отметил Эндрю Карр, соучредитель Cartwheel. «Как только вы поворачивали камеру, всё разваливалось».

Поскольку большинство моделей изображений обучаются на данных, которые в подавляющем большинстве представляют персонажей спереди, им сложно создавать менее распространённые композиции, такие как снимки с высокого ракурса или виды сзади. Предоставляя позу в качестве прямого визуального ввода, инструмент Cartwheel обходит это смещение обучающих данных, позволяя художнику создавать единообразные образы персонажей с любого выбранного ракурса.

Этот рабочий процесс значительно ускоряет творческий процесс. Задача, которая раньше могла потребовать многочасового итерационного моделирования или ручной компоновки 3D-художником, теперь может быть выполнена за считанные секунды.

Что дальше: от статичных изображений к генеративному видео

Cartwheel уже планирует дальнейшие шаги в развитии этой технологии. Команда экспериментирует с интеграцией библиотеки из 150 000 предварительно классифицированных поз, которые пользователи могут искать и уточнять, что ещё больше ускоряет рабочий процесс.

Долгосрочная цель — расширить этот процесс «от позы до пикселя» до движения. Та же 3D-поза и отрендеренное изображение могли бы служить исходным кадром для модели, преобразующей видео в видео, например, Veo. Это позволило бы создателю задать позу персонажа, отрендерить его в любом стиле, а затем анимировать его с помощью текстовых подсказок, создавая плавный рабочий процесс от 3D-позы до финальной стилизованной анимации.

Используя мультимодальные модели, подобные тем, что используются в семействе Gemini, Cartwheel демонстрирует, как разработчики могут создавать сложные инструменты, предоставляющие художникам необходимый им контроль и последовательность, превращая генеративный ИИ из инструмента случайности в инструмент точного творческого замысла.

Студии Promise

Promise Studios использует Gemini 2.5 Pro и Veo 2 для преобразования кинопроизводства, обеспечивая глубокий анализ сценария, раскадровку с использованием ИИ и визуальную обработку с учетом контекста.