2025 年 11 月 3 日
超越文字提示:Cartwheel 如何運用 Gemini Flash 2.5 打造姿勢準確的 3D 生成內容
生成式模型為藝術家和設計師帶來了新的可能性。不過,對專業創作者來說,將特定創意構想轉化為生成的圖片,仍是一大挑戰。純文字提示通常就像「吃角子老虎機」,難以精確控制角色的姿勢、鏡頭角度和構圖。
Cartwheel 是 3D AI 原生遊戲和媒體創作平台,以 Google 的進階模型 (本例為 Gemini 2.5 Flash Image Nano Banana) 為基礎,建構創新解決方案,解決上述問題。Cartwheel Studio 的「姿勢模式」功能採用 3D 原生控制項,可直接反覆控制輸出內容,因此不只是簡單的文字轉圖片生成功能。
挑戰:彌平意圖與輸出內容之間的落差
在專業的創作工作流程中,精確度至關重要。藝人、廣告主或遊戲設計師通常需要以特定姿勢或角度建立角色,以符合腳本或廣告活動簡報。
「從高階層面來看,圖像生成器一直難以控制。」Cartwheel 共同創辦人 Jonathan Jarvis 說道。「要實現自己真正擁有的願景並不容易。我們一直希望讓使用者直接進入並操控角色。」
為滿足直接操控的需求,Cartwheel 開發了多模態管道,整合 3D 姿勢、文字提示和多個 AI 模型,讓這些元素共同運作。
解決方案:多模型管線,可生成忠於姿勢的圖像
Cartwheel 的姿勢模式不會只依賴文字,而是向使用者呈現 3D 模擬人體。使用者可以直接點選並拖曳人偶的肢體,擺出特定姿勢,並將虛擬攝影機調整至任何角度。這個 3D 場景隨即成為生成過程的主要輸入內容。
技術工作流程如下:
- 使用 Gemini 2.5 Flash 標記姿勢。首先,系統會將擺好姿勢的 3D 模特兒螢幕截圖傳送給 Gemini 2.5 Flash。Cartwheel 在這個步驟中使用 2.5 Flash,因為其速度非常適合即時創意工具的低延遲需求。模型的工作是傳回描述姿勢的簡單文字標籤,例如「角色跳躍」或「角色敬禮」。
- 多模態提示組裝。然後,系統會自動將這個以 Flash 產生的 2.5 姿勢標籤,與使用者自己的描述性文字提示 (例如「「在花田中的機器人」。
- 設有條件的圖像生成。最後,這個合併的文字提示詞會連同 3D 姿勢的原始螢幕截圖,一併傳送至高保真度、姿勢忠實的圖像模型 Gemini 2.5 Flash Image。這類多模態提示包含姿勢圖片和詳細文字說明,可讓 Gemini 2.5 Flash Image 生成的圖片嚴格遵守姿勢和攝影機角度,同時套用文字中的藝術風格、角色和場景細節。
Cartwheel 透過模型鏈結 (使用 2.5 Flash 進行視覺分析和標記,並使用 2.5 Flash Image 進行最終的條件式算繪),提供獨特的工作流程,結合 3D 軟體的直覺式控制功能和生成式 AI 的創意力量。 結果:從任何角度都能生成一致的角色 這項方法已證實能有效生成先前難以建立的圖片。Cartwheel 共同創辦人 Andrew Carr 表示:「在其他模型中,從正面以外的角度算繪字元都無法正常運作。」「攝影機一轉動就解體了。」
由於大多數圖像模型都是以正面角色為主的資料訓練而成,因此難以建立較不常見的構圖,例如高角度拍攝或從後方拍攝的畫面。Cartwheel 工具會將姿勢直接做為視覺輸入內容,因此不會受到訓練資料偏差影響,讓藝術家能從任何角度生成一致的角色。
這個工作流程可大幅加快創作過程。3D 藝術家可能需要花費數小時反覆提示或手動合成,才能完成的工作,現在只需幾秒鐘即可完成。
下一步:從靜態圖片到生成式影片
Cartwheel 正在規劃這項技術的後續步驟。團隊正在實驗整合 15 萬個預先分類的姿勢庫,供使用者搜尋和調整,進一步加快工作流程。
我們的長期願景是將這項從姿勢到像素的管道擴展到動作。相同的 3D 姿勢和算繪圖像可做為影片轉影片模型的起始影格,例如 Veo。創作者可以擺出角色姿勢、以任何風格算繪角色,然後使用文字提示為角色製作動畫,從 3D 姿勢到最終的風格化動畫,打造無縫工作流程。
Cartwheel 以 Gemini 系列等多模態模型為基礎,向開發人員展示如何建立精密的工具,為藝人提供所需的控制權和一致性,將生成式 AI 從隨機工具轉變為精確的創意意圖工具。