2025 年 11 月 3 日
テキスト プロンプトを超えて: Cartwheel が Gemini Flash 2.5 でポーズに忠実な 3D 生成を構築した方法
生成モデルは、アーティストやデザイナーに新たな可能性をもたらしました。しかし、プロのクリエイターにとって、特定のクリエイティブなビジョンを生成された画像に変換することは、依然として大きな課題です。テキストのみのプロンプトは、スロットマシンのように感じられることが多く、キャラクターのポーズ、カメラアングル、構図を正確に制御することが困難です。
3D AI ネイティブ ゲームとメディアの作成プラットフォームである Cartwheel は、Google の高度なモデル(この場合は Gemini 2.5 Flash Image Nano Banana)の上に新しいソリューションを構築することで、この問題に対処しています。Cartwheel Studio の「ポーズモード」機能は、3D ネイティブ コントロールを組み込むことで、単純なテキストから画像への生成を超え、クリエイターがアウトプットを直接、反復的に制御できるようにします。
課題: 意図と出力のギャップを埋める
プロフェッショナルなクリエイティブ ワークフローでは、精度が不可欠です。アーティスト、広告主、ゲームデザイナーは、ストーリーボードやキャンペーン ブリーフに合わせて、特定のポーズや特定の角度でキャラクターを作成する必要があることがよくあります。
「大まかに言うと、画像生成ツールは制御が難しいものでした」と、Cartwheel の共同創業者である Jonathan Jarvis 氏は述べています。「実際に持っているビジョンを実現するのは難しい。私たちは、ユーザーが直接キャラクターを操作できるようにしたいと考えていました。」
この直接操作の要件により、Cartwheel は 3D ポーズ、テキスト プロンプト、複数の AI モデルを統合して連携させるマルチモーダル パイプラインを開発しました。
解決策: ポーズを忠実に再現するマルチモデル パイプライン
Cartwheel のポーズモードでは、テキストのみに頼るのではなく、3D マネキンがユーザーに表示されます。ユーザーはマネキンの手足を直接クリックしてドラッグし、特定のポーズを作成したり、仮想カメラを任意の角度に調整したりできます。この 3D シーンは、生成プロセスの主な入力になります。
技術的なワークフローは次のとおりです。
- Gemini 2.5 Flash によるポーズのラベリング。まず、ポーズをとった 3D マネキンのスクリーンショットが Gemini 2.5 Flash に送信されます。Cartwheel はこのステップで 2.5 Flash を使用します。2.5 Flash の速度は、リアルタイムのクリエイティブ ツールの低レイテンシ要件に最適です。モデルのタスクは、ポーズを説明する簡単なテキストラベル(「ジャンプしているキャラクター」や「敬礼しているキャラクター」など)を返すことです。
- マルチモーダル プロンプトの組み立て。この 2.5 Flash で生成されたポーズラベルは、ユーザー独自の説明テキスト プロンプト(「「花畑にいるロボット」)。
- 条件付き画像生成。最後に、この組み合わせたテキスト プロンプトと 3D ポーズの元のスクリーンショットが、高忠実度でポーズを忠実に再現する画像モデルである Gemini 2.5 Flash Image に送信されます。このマルチモーダル プロンプト(ポーズの画像と詳細なテキストの説明の両方を含む)は、Gemini 2.5 Flash Image に、ポーズとカメラアングルに厳密に準拠した画像を生成し、テキストの芸術的なスタイル、キャラクター、シーンの詳細を適用するように指示します。
このモデルのチェーン(2.5 Flash を視覚分析とラベル付けに使用し、2.5 Flash Image を最終的な条件付きレンダリングに使用)により、Cartwheel は 3D ソフトウェアの直感的な制御と生成 AI のクリエイティブな能力を組み合わせた独自のワークフローを提供できます。結果: どの角度から見てもキャラクターの整合性を保つ このアプローチは、以前は作成が難しかった画像を生成するのに効果的であることが証明されています。「正面以外の角度から文字をレンダリングすることは、他のモデルではできませんでした」と、Cartwheel の共同創業者である Andrew Carr 氏は述べています。「カメラを回転させた途端に分解してしまいました。」
ほとんどの画像モデルは、正面からの人物を圧倒的に多く含むデータでトレーニングされているため、ハイアングル ショットや後ろからのビューなど、一般的でない構図の作成に苦労します。ポーズを直接ビジュアル入力として提供することで、Cartwheel のツールはトレーニング データのバイアスを回避し、アーティストは任意の角度から一貫性のあるキャラクターを生成できます。
このワークフローにより、クリエイティブ プロセスが大幅に加速されます。以前は 3D アーティストが数時間かけてプロンプトを繰り返し入力したり、手動で合成したりする必要があったタスクを、数秒で完了できるようになりました。
次のステップ: 静止画像から生成動画へ
Cartwheel は、このテクノロジーの次のステップをすでに計画しています。チームは、ユーザーが検索して絞り込むことができる 15 万件の事前分類されたポーズのライブラリを統合する実験を行っており、ワークフローをさらに高速化しています。
長期的なビジョンは、このポーズからピクセルへのパイプラインをモーションに拡張することです。同じ 3D ポーズとレンダリングされた画像は、Veo などの動画から動画へのモデルの開始フレームとして使用できます。これにより、クリエイターはキャラクターをポーズさせ、任意のスタイルでレンダリングし、テキスト プロンプトを使用してアニメーション化して、3D ポーズから最終的なスタイライズされたアニメーションまでシームレスなワークフローを作成できます。
Gemini ファミリーなどのマルチモーダル モデルを基盤として構築された Cartwheel は、デベロッパーがアーティストに必要な制御と一貫性を提供する高度なツールを作成し、生成 AI を偶然のツールから正確なクリエイティブな意図のツールへと進化させる方法を示しています。