텍스트 프롬프트 그 이상: Cartwheel이 Gemini Flash 2.5로 포즈에 충실한 3D 생성을 구축한 방법

Vishal Dharmadhikari

제품 솔루션 엔지니어

조너선 저비스

CEO

앤드류 카

공동 설립자 겸 최고 과학 책임자

생성 모델은 아티스트와 디자이너에게 새로운 가능성을 열어주었습니다. 하지만 전문 크리에이터에게는 구체적인 창작 비전을 생성된 이미지로 변환하는 것이 여전히 큰 과제입니다. 텍스트 전용 프롬프트는 종종 '슬롯머신'처럼 느껴져 캐릭터의 포즈, 카메라 각도, 구성을 정확하게 제어하기가 어렵습니다.

3D AI 네이티브 게임 및 미디어 제작 플랫폼인 Cartwheel은 Google의 고급 모델(이 경우 Gemini 2.5 Flash Image Nano Banana)을 기반으로 새로운 솔루션을 구축하여 이 문제를 해결하고 있습니다. Cartwheel Studio의 '포즈 모드' 기능은 3D 기본 컨트롤을 통합하여 단순한 텍스트-이미지 생성 이상의 기능을 제공하므로 크리에이터가 결과물을 직접 반복적으로 제어할 수 있습니다.

과제: 의도와 출력 간의 격차 해소

전문적인 크리에이티브 워크플로에서는 정확성이 필수적입니다. 아티스트, 광고주 또는 게임 디자이너는 스토리보드나 캠페인 브리프에 맞게 특정 포즈나 각도로 캐릭터를 만들어야 하는 경우가 많습니다.

Cartwheel의 공동 창업자인 조너선 저비스는 '이미지 생성기는 높은 수준에서 제어하기 어려웠습니다'라고 말했습니다. '실제로 가지고 있는 비전을 달성하기는 어렵습니다. Google은 항상 사용자가 직접 들어가 캐릭터를 조작할 수 있도록 하고 싶었습니다.'

이러한 직접 조작 요구사항으로 인해 Cartwheel은 3D 포즈, 텍스트 프롬프트, 여러 AI 모델을 통합하여 함께 작동하는 멀티모달 파이프라인을 개발했습니다.

솔루션: 자세 충실도 생성을 위한 멀티 모델 파이프라인

Cartwheel의 자세 모드는 텍스트에만 의존하는 대신 사용자에게 3D 마네킹을 표시합니다. 사용자는 마네킹의 팔다리를 직접 클릭하고 드래그하여 특정 포즈를 만들고 가상 카메라를 원하는 각도로 조정할 수 있습니다. 그러면 이 3D 장면이 생성 프로세스의 기본 입력이 됩니다.

기술 워크플로는 다음과 같습니다.

Gemini 2.5 Flash를 사용한 포즈 라벨 지정 먼저 포즈를 취한 3D 마네킹의 스크린샷이 Gemini 2.5 Flash로 전송됩니다. Cartwheel은 이 단계에서 2.5 Flash를 사용합니다. 속도가 실시간 광고 제작 도구의 짧은 지연 시간 요구사항에 적합하기 때문입니다. 모델의 작업은 포즈를 설명하는 간단한 텍스트 라벨(예: '점프하는 포즈의 캐릭터', '경례하는 캐릭터')을 반환하는 것입니다.
멀티모달 프롬프트 어셈블리 이 2.5 Flash 생성 포즈 라벨은 사용자의 자체 설명 텍스트 프롬프트 (예: '꽃밭에 있는 로봇'
조건부 이미지 생성 마지막으로 이 결합된 텍스트 프롬프트는 3D 포즈의 원본 스크린샷과 함께 충실도가 높고 포즈를 충실하게 반영하는 이미지 모델인 Gemini 2.5 Flash Image로 전송됩니다. 포즈 이미지와 자세한 텍스트 설명을 모두 포함하는 이 멀티모달 프롬프트는 Gemini 2.5 Flash Image가 포즈와 카메라 각도를 엄격하게 준수하는 이미지를 생성하면서 텍스트의 예술적 스타일, 캐릭터, 장면 세부정보를 적용하도록 합니다.

이러한 모델 체인(시각적 분석 및 라벨링을 위해 2.5 Flash를 사용하고 최종 조건부 렌더링을 위해 2.5 Flash Image를 사용)을 통해 Cartwheel은 3D 소프트웨어의 직관적인 제어 기능과 생성형 AI의 창의적인 기능을 결합한 고유한 워크플로를 제공할 수 있습니다.

결과: 어떤 각도에서든 캐릭터 일관성 유지

이 접근 방식은 이전에는 만들기 어려웠던 이미지를 생성하는 데 효과적인 것으로 입증되었습니다. Cartwheel의 공동 창업자인 Andrew Carr는 '다른 모델에서는 정면이 아닌 각도에서 캐릭터를 렌더링하는 것이 작동하지 않았습니다'라고 말했습니다. '카메라를 회전하자마자 분리되었습니다.'

대부분의 이미지 모델은 정면에서 촬영한 캐릭터가 압도적으로 많은 데이터로 학습되므로 하이 앵글 샷이나 후면 뷰와 같은 흔하지 않은 구도를 만드는 데 어려움을 겪습니다. 포즈를 직접 시각적 입력으로 제공함으로써 Cartwheel 도구는 이 학습 데이터 편향을 우회하여 아티스트가 원하는 각도에서 일관된 캐릭터를 생성할 수 있습니다.

이 워크플로를 사용하면 창작 과정을 크게 가속화할 수 있습니다. 이전에는 3D 아티스트가 몇 시간 동안 반복적으로 프롬프트를 입력하거나 수동으로 합성해야 했던 작업을 이제 몇 초 만에 완료할 수 있습니다.

다음 단계: 정적 이미지에서 생성형 동영상으로

Cartwheel은 이미 이 기술의 다음 단계를 계획하고 있습니다. 팀에서는 사용자가 검색하고 세부적으로 조정할 수 있는 150,000개의 사전 분류된 포즈 라이브러리를 통합하여 워크플로를 더욱 가속화하는 실험을 진행하고 있습니다.

장기적인 비전은 이 포즈-픽셀 파이프라인을 모션으로 확장하는 것입니다. 동일한 3D 포즈와 렌더링된 이미지는 Veo와 같은 동영상-동영상 모델의 시작 프레임으로 사용될 수 있습니다. 이를 통해 크리에이터는 캐릭터의 포즈를 취하고, 원하는 스타일로 렌더링한 다음, 텍스트 프롬프트를 사용하여 애니메이션을 적용하여 3D 포즈에서 최종 스타일화된 애니메이션까지 원활한 워크플로를 만들 수 있습니다.

Cartwheel은 Gemini 제품군과 같은 멀티모달 모델을 기반으로 개발자가 아티스트에게 필요한 제어 기능과 일관성을 제공하는 정교한 도구를 만들어 생성형 AI를 우연의 도구에서 정확한 창의적 의도의 도구로 전환할 수 있는 방법을 보여줍니다.

텍스트 프롬프트 그 이상: Cartwheel이 Gemini Flash 2.5로 포즈에 충실한 3D 생성을 구축한 방법

과제: 의도와 출력 간의 격차 해소

솔루션: 자세 충실도 생성을 위한 멀티 모델 파이프라인

결과: 어떤 각도에서든 캐릭터 일관성 유지

다음 단계: 정적 이미지에서 생성형 동영상으로

관련 우수사례