超越文本提示：Cartwheel 如何利用 Gemini Flash 2.5 构建姿势逼真的 3D 生成模型

Vishal Dharmadhikari

产品解决方案工程师

Jonathan Jarvis

首席执行官

Andrew Carr

联合创始人兼首席科学家

生成模型为艺术家和设计师带来了新的可能性。不过，对于专业创作者而言，将特定的创意愿景转化为生成的图片仍然是一项重大挑战。纯文字提示通常感觉像“老虎机”，很难精确控制角色的姿势、拍摄角度和构图。

Cartwheel 是一个用于创建 3D AI 原生游戏和媒体的平台，它通过在 Google 的先进模型（在本例中为 Gemini 2.5 Flash Image Nano Banana）之上构建创新解决方案来解决此问题。Cartwheel Studio 中的“姿势模式”功能通过集成 3D 原生控件，让创作者能够直接、迭代地控制输出，从而超越了简单的文本到图片生成。

挑战：弥合意图与输出之间的差距

在专业创意工作流程中，精确度至关重要。艺术家、广告客户或游戏设计师经常需要以特定姿势或从特定角度创建角色，以符合故事板或广告系列简报的要求。

“从宏观层面来看，图片生成器一直难以控制，”Cartwheel 的联合创始人 Jonathan Jarvis 说道。“很难实现自己真正拥有的愿景。我们一直希望让您直接进入并操控角色。”

这种对直接操作的要求促使 Cartwheel 开发了一个多模态流水线，该流水线集成了 3D 姿势、文本提示和多个 AI 模型，可协同工作。

解决方案：用于生成姿势一致图像的多模型流水线

Cartwheel 的姿势模式不会仅依赖文字，而是会向用户展示 3D 人体模型。用户可以直接点击并拖动人体模型的肢体，以创建特定姿势，并可将虚拟相机调整到任意角度。然后，此 3D 场景会成为生成过程的主要输入。

技术工作流程如下：

使用 Gemini 2.5 Flash 进行姿势标记。首先，将摆好姿势的 3D 模特照片发送给 Gemini 2.5 Flash。Cartwheel 在此步骤中使用 2.5 Flash，因为其速度非常适合实时创意工具的低延迟要求。模型的任务是返回描述姿势的简单文本标签，例如“一个跳跃姿势的角色”或“一个敬礼的角色”。
多模态提示组装。然后，系统会自动将此 2.5 Flash 生成的姿势标签与用户自己的描述性文本提示（例如“一个男人在海边跑步”）相结合，“花田中的机器人”）。
有条件地生成图片。最后，系统会将此组合文本提示与 3D 姿势的原始屏幕截图一起发送给高保真、姿势逼真的图像模型 Gemini 2.5 Flash Image。这种多模态提示（包括姿势图片和详细的文本描述）可让 Gemini 2.5 Flash Image 生成严格遵循姿势和拍摄角度的图片，同时应用文本中的艺术风格、角色和场景细节。

这种模型链式调用（使用 2.5 Flash 进行视觉分析和标记，使用 2.5 Flash Image 进行最终的有条件渲染）使 Cartwheel 能够提供独特的工作流程，将 3D 软件的直观控制与生成式 AI 的创意功能相结合。

结果：从任何角度解锁角色一致性

事实证明，这种方法可以有效地生成以前难以创建的图片。“在任何其他模型中，从正面以外的任何角度渲染角色都无法实现，”Cartwheel 的联合创始人 Andrew Carr 说道。“您一旋转相机，它就散架了。”

由于大多数图片模型都是在以正面人物为主的数据上训练的，因此它们很难生成不太常见的构图，例如高角度拍摄或从后方拍摄的视图。通过将姿势作为直接视觉输入，Cartwheel 的工具绕过了这种训练数据偏差，使艺术家能够从他们选择的任何角度生成一致的角色。

此工作流程可显著加快创作过程。以前可能需要 3D 美术师花费数小时进行迭代提示或手动合成的任务，现在只需几秒钟即可完成。

未来趋势：从静态图片到生成式视频

Cartwheel 已经在规划这项技术的后续步骤。该团队正在尝试集成一个包含 15 万个预分类姿势的库，用户可以搜索和优化这些姿势，从而进一步加快工作流程。

我们的长期愿景是将这种“姿势到像素”流水线扩展到运动领域。相同的 3D 姿势和渲染的图片可以作为视频到视频模型的起始帧，例如 Veo。这样一来，创作者就可以摆出角色的姿势，以任何风格渲染角色，然后使用文本提示为角色添加动画效果，从而实现从 3D 姿势到最终风格化动画的无缝工作流程。

Cartwheel 基于 Gemini 系列等多模态模型构建而成，展示了开发者如何创建可为艺术家提供所需控制和一致性的复杂工具，从而将生成式 AI 从一种随机性工具转变为一种可实现精准创意意图的工具。

超越文本提示：Cartwheel 如何利用 Gemini Flash 2.5 构建姿势逼真的 3D 生成模型

挑战：弥合意图与输出之间的差距

解决方案：用于生成姿势一致图像的多模型流水线

结果：从任何角度解锁角色一致性

未来趋势：从静态图片到生成式视频

相关案例研究