分享

2025 年 11 月 3 日

超越文字提示:Cartwheel 如何運用 Gemini Flash 2.5 打造姿勢準確的 3D 生成內容

Vishal Dharmadhikari

產品解決方案工程師

Jonathan Jarvis

共同創辦人兼技術長

Andrew Carr

共同創辦人兼首席科學家

Cartwheel 展示主打商品

生成式模型為藝術家和設計師帶來了新的可能性。不過,對專業創作者來說,將特定創意構想轉化為生成的圖片,仍是一大挑戰。純文字提示通常就像「吃角子老虎機」,難以精確控制角色的姿勢、鏡頭角度和構圖。

Cartwheel 是 3D AI 原生遊戲和媒體創作平台,以 Google 的進階模型 (本例為 Gemini 2.5 Flash Image Nano Banana) 為基礎,建構創新解決方案,解決上述問題。Cartwheel Studio 的「姿勢模式」功能採用 3D 原生控制項,可直接反覆控制輸出內容,因此不只是簡單的文字轉圖片生成功能。

車輪式

挑戰:彌平意圖與輸出內容之間的落差

在專業的創作工作流程中,精確度至關重要。藝人、廣告主或遊戲設計師通常需要以特定姿勢或角度建立角色,以符合腳本或廣告活動簡報。

「從高階層面來看,圖像生成器一直難以控制。」Cartwheel 共同創辦人 Jonathan Jarvis 說道。「要實現自己真正擁有的願景並不容易。我們一直希望讓使用者直接進入並操控角色。」

為滿足直接操控的需求,Cartwheel 開發了多模態管道,整合 3D 姿勢、文字提示和多個 AI 模型,讓這些元素共同運作。

解決方案:多模型管線,可生成忠於姿勢的圖像 Cartwheel 的姿勢模式不會只依賴文字,而是向使用者呈現 3D 模擬人體。使用者可以直接點選並拖曳人偶的肢體,擺出特定姿勢,並將虛擬攝影機調整至任何角度。這個 3D 場景隨即成為生成過程的主要輸入內容。

技術工作流程如下:

  1. 使用 Gemini 2.5 Flash 標記姿勢。首先,系統會將擺好姿勢的 3D 模特兒螢幕截圖傳送給 Gemini 2.5 Flash。Cartwheel 在這個步驟中使用 2.5 Flash,因為其速度非常適合即時創意工具的低延遲需求。模型的工作是傳回描述姿勢的簡單文字標籤,例如「角色跳躍」或「角色敬禮」。
  2. 多模態提示組裝。然後,系統會自動將這個以 Flash 產生的 2.5 姿勢標籤,與使用者自己的描述性文字提示 (例如「「在花田中的機器人」。
  3. 設有條件的圖像生成。最後,這個合併的文字提示詞會連同 3D 姿勢的原始螢幕截圖,一併傳送至高保真度、姿勢忠實的圖像模型 Gemini 2.5 Flash Image。這類多模態提示包含姿勢圖片和詳細文字說明,可讓 Gemini 2.5 Flash Image 生成的圖片嚴格遵守姿勢和攝影機角度,同時套用文字中的藝術風格、角色和場景細節。


Cartwheel 透過模型鏈結 (使用 2.5 Flash 進行視覺分析和標記,並使用 2.5 Flash Image 進行最終的條件式算繪),提供獨特的工作流程,結合 3D 軟體的直覺式控制功能和生成式 AI 的創意力量。 結果:從任何角度都能生成一致的角色 這項方法已證實能有效生成先前難以建立的圖片。Cartwheel 共同創辦人 Andrew Carr 表示:「在其他模型中,從正面以外的角度算繪字元都無法正常運作。」「攝影機一轉動就解體了。」

由於大多數圖像模型都是以正面角色為主的資料訓練而成,因此難以建立較不常見的構圖,例如高角度拍攝或從後方拍攝的畫面。Cartwheel 工具會將姿勢直接做為視覺輸入內容,因此不會受到訓練資料偏差影響,讓藝術家能從任何角度生成一致的角色。

這個工作流程可大幅加快創作過程。3D 藝術家可能需要花費數小時反覆提示或手動合成,才能完成的工作,現在只需幾秒鐘即可完成。

下一步:從靜態圖片到生成式影片

Cartwheel 正在規劃這項技術的後續步驟。團隊正在實驗整合 15 萬個預先分類的姿勢庫,供使用者搜尋和調整,進一步加快工作流程。

我們的長期願景是將這項從姿勢到像素的管道擴展到動作。相同的 3D 姿勢和算繪圖像可做為影片轉影片模型的起始影格,例如 Veo。創作者可以擺出角色姿勢、以任何風格算繪角色,然後使用文字提示為角色製作動畫,從 3D 姿勢到最終的風格化動畫,打造無縫工作流程。

Cartwheel 以 Gemini 系列等多模態模型為基礎,向開發人員展示如何建立精密的工具,為藝人提供所需的控制權和一致性,將生成式 AI 從隨機工具轉變為精確的創意意圖工具。