2025 年 11 月 3 日
超越文本提示:Cartwheel 如何利用 Gemini Flash 2.5 构建姿势逼真的 3D 生成模型
生成模型为艺术家和设计师带来了新的可能性。不过,对于专业创作者来说,将特定的创意构想转化为生成的图片仍然是一项重大挑战。纯文字提示通常感觉像“老虎机”,很难精确控制角色的姿势、拍摄角度和构图。
Cartwheel 是一个用于创建 3D AI 原生游戏和媒体的平台,它通过在 Google 的先进模型(在本例中为 Gemini 2.5 Flash Image Nano Banana)之上构建创新解决方案来解决此问题。Cartwheel Studio 中的“姿势模式”功能通过集成 3D 原生控件,让创作者能够直接、迭代地控制输出,从而超越了简单的文本到图片生成。
挑战:弥合意图与输出之间的差距
在专业创意工作流程中,精度至关重要。艺术家、广告客户或游戏设计师经常需要以特定姿势或从特定角度创建角色,以符合故事板或广告系列简报的要求。
“从宏观层面来看,图片生成器一直难以控制,”Cartwheel 的联合创始人 Jonathan Jarvis 说道。“很难实现自己真正拥有的愿景。我们一直希望让您直接进入游戏并操控角色。”
为了满足直接操作这一要求,Cartwheel 开发了一个多模态流水线,该流水线集成了 3D 姿势调整、文本提示和多个协同工作的 AI 模型。
解决方案:用于生成姿势逼真图像的多模型流水线
Cartwheel 的姿势模式不只依赖于文本,还会向用户展示 3D 人体模型。用户可以直接点击并拖动人体模型的肢体,以创建特定姿势,并可将虚拟相机调整到任意角度。然后,此 3D 场景会成为生成过程的主要输入。
技术工作流程如下:
- 使用 Gemini 2.5 Flash 进行姿势标记。首先,将摆好姿势的 3D 模特截图发送给 Gemini 2.5 Flash。Cartwheel 在此步骤中使用 2.5 Flash,因为其速度非常适合实时创作工具的低延迟要求。模型的任务是返回描述姿势的简单文本标签,例如“一个跳跃姿势的角色”或“一个敬礼的角色”。
- 多模态提示组装。然后,系统会自动将此 2.5 Flash 生成的姿势标签与用户自己的描述性文本提示(例如“一个男人在海边跑步”)相结合,“花田中的机器人”)。
- 有条件地生成图片。最后,系统会将此组合文本提示与 3D 姿势的原始屏幕截图一起发送给高保真、姿势逼真的图片模型 Gemini 2.5 Flash Image。此多模态提示(包含姿势图片和详细的文字说明)可让 Gemini 2.5 Flash Image 生成严格遵循姿势和拍摄角度的图片,同时应用文字中的艺术风格、角色和场景细节。
这种模型链式调用(使用 2.5 Flash 进行视觉分析和标记,使用 2.5 Flash Image 进行最终的有条件渲染)使 Cartwheel 能够提供独特的工作流程,将 3D 软件的直观控制与生成式 AI 的创意功能相结合。 成果:从任何角度实现角色一致性 事实证明,此方法可有效生成之前难以创建的图片。“在任何其他模型中,从正面以外的任何角度渲染角色都无法实现,”Cartwheel 的联合创始人 Andrew Carr 说道。“您一旋转相机,它就散架了。”
由于大多数图片模型都是在以正面人物为主的数据上训练的,因此它们很难生成不太常见的构图,例如高角度拍摄或从后方拍摄的视图。通过将姿势作为直接的视觉输入,Cartwheel 的工具绕过了这种训练数据偏差,使艺术家能够从他们选择的任何角度生成一致的角色。
此工作流程可显著加快创意流程。以前可能需要 3D 美术师花费数小时进行迭代提示或手动合成的任务,现在只需几秒钟即可完成。
未来趋势:从静态图片到生成式视频
Cartwheel 已经在规划这项技术的后续步骤。该团队正在尝试集成一个包含 15 万个预分类姿势的库,用户可以搜索和优化这些姿势,从而进一步加快工作流程。
我们的长期愿景是将这种“姿势到像素”流水线扩展到运动领域。相同的 3D 姿势和渲染的图片可以作为视频到视频模型的起始帧,例如 Veo。这样一来,创作者就可以摆出角色姿势,以任何风格渲染角色,然后使用文本提示为角色添加动画效果,从而实现从 3D 姿势到最终风格化动画的无缝工作流程。
Cartwheel 基于 Gemini 系列等多模态模型构建而成,展示了开发者如何创建可为艺术家提供所需控制和一致性的复杂工具,从而将生成式 AI 从一种随机工具转变为一种可实现精准创意意图的工具。