Compartilhar

3 DE NOVEMBRO DE 2025

Além dos comandos de texto: como o Cartwheel criou uma geração 3D fiel à postura com o Gemini Flash 2.5

Vishal Dharmadhikari

Engenheiro de soluções de produtos

Jonathan Jarvis

Cofundador e CTO

Andrew Carr

Cofundador e cientista-chefe

Carrossel de destaque do Cartwheel

Os modelos generativos criaram novas possibilidades para artistas e designers. No entanto, para criadores de conteúdo profissionais, traduzir uma visão criativa específica em uma imagem gerada continua sendo um desafio significativo. Os comandos somente de texto podem parecer uma "máquina caça-níqueis", dificultando o controle preciso da pose, do ângulo da câmera e da composição de um personagem.

A Cartwheel, uma plataforma para criação de jogos e mídia 3D nativos de IA, está resolvendo esse problema ao criar uma nova solução com base nos modelos avançados do Google, nesse caso, o Nano Banana do Gemini 2.5 Flash Image. O recurso "Modo Pose" do Cartwheel Studio vai além da simples geração de imagens a partir de texto, incorporando controles nativos de 3D, o que proporciona aos criadores controle direto e iterativo sobre seu resultado.

Postura da estrela

O desafio: diminuir a distância entre a intenção e o resultado

Em fluxos de trabalho criativos profissionais, a precisão é essencial. Um artista, anunciante ou designer de jogos geralmente precisa criar um personagem em uma pose ou ângulo específico para se adequar a um storyboard ou briefing de campanha.

"Em um nível elevado, os geradores de imagens têm sido difíceis de controlar", disse Jonathan Jarvis, cofundador da Cartwheel. "É difícil alcançar uma visão que você realmente tem. Sempre quisemos permitir que você entrasse e manipulasse o personagem diretamente".

Esse requisito de manipulação direta levou o Cartwheel a desenvolver um pipeline multimodal que integra pose 3D, comandos de texto e vários modelos de IA para trabalhar em conjunto.

A solução: um pipeline de vários modelos para geração fiel à postura Em vez de depender apenas do texto, o modo de postura do Cartwheel apresenta ao usuário um manequim 3D. O usuário pode clicar e arrastar diretamente os membros do manequim para criar uma pose específica e ajustar a câmera virtual para qualquer ângulo. Essa cena 3D se torna uma entrada principal para o processo generativo.

O fluxo de trabalho técnico é o seguinte:

  1. Rotulagem de poses com o Gemini 2.5 Flash. Primeiro, uma captura de tela do manequim 3D posado é enviada para o Gemini 2.5 Flash. O Cartwheel usa o 2.5 Flash nessa etapa porque a velocidade dele é ideal para a exigência de baixa latência de uma ferramenta criativa em tempo real. A tarefa do modelo é retornar um rótulo de texto simples que descreve a pose, como "um personagem em uma pose de salto" ou "um personagem fazendo uma saudação".
  2. Montagem de comandos multimodais. Esse rótulo de pose 2.5 gerado em Flash é combinado automaticamente com o comando de texto descritivo do usuário (por exemplo, "um robô em um campo de flores").
  3. Geração de imagens condicionada. Por fim, esse comando de texto combinado é enviado a um modelo de imagem de alta fidelidade e fidelidade de pose, o Gemini 2.5 Flash Image, junto com a captura de tela original da pose 3D. Esse comando multimodal, que inclui a imagem da pose e a descrição detalhada em texto, condiciona o Gemini 2.5 Flash Image a gerar uma imagem que obedece estritamente à pose e ao ângulo da câmera, aplicando o estilo artístico, o personagem e os detalhes da cena do texto.


Essa cadeia de modelos (usando o 2.5 Flash para análise e rotulagem visual e o 2.5 Flash Image para renderização final e condicionada) permite que o Cartwheel ofereça um fluxo de trabalho exclusivo que combina o controle intuitivo de softwares 3D com o poder criativo da IA generativa. Os resultados: desbloqueio da consistência de personagens de qualquer ângulo Essa abordagem se mostrou eficaz na geração de imagens que antes eram difíceis de criar. "Renderizar personagens de qualquer ângulo, exceto a frente, não funcionava em nenhum outro modelo", observou Andrew Carr, cofundador da Cartwheel. "Assim que você girou a câmera, ela se desmontou."

Como a maioria dos modelos de imagem é treinada com dados que apresentam personagens de frente, eles têm dificuldade em criar composições menos comuns, como fotos de cima para baixo ou vistas de trás. Ao fornecer a postura como uma entrada visual direta, a ferramenta do Cartwheel evita esse viés nos dados de treinamento, permitindo que um artista gere personagens consistentes de qualquer ângulo que escolher.

Esse fluxo de trabalho acelera significativamente o processo criativo. Uma tarefa que antes exigia horas de comandos iterativos ou composição manual por um artista 3D agora pode ser realizada em segundos.

O que vem a seguir: de imagens estáticas a vídeos generativos

A Cartwheel já está planejando as próximas etapas dessa tecnologia. A equipe está testando a integração de uma biblioteca de 150.000 poses pré-categorizadas que os usuários podem pesquisar e refinar, acelerando ainda mais o fluxo de trabalho.

A visão de longo prazo é estender esse pipeline de postura para pixel em movimento. A mesma pose 3D e imagem renderizada podem servir como frame inicial para um modelo de vídeo para vídeo, como o Veo. Isso permitiria que um criador de conteúdo posicionasse um personagem, renderizasse em qualquer estilo e depois animasse usando um comando de texto, criando um fluxo de trabalho perfeito, desde a pose 3D até uma animação estilizada final.

Ao criar modelos multimodais como os da família Gemini, o Cartwheel demonstra como os desenvolvedores podem criar ferramentas sofisticadas que oferecem aos artistas o controle e a consistência de que precisam, transformando a IA generativa de uma ferramenta de acaso em uma de intenção criativa precisa.