2025 年 12 月 12 日

Toongether 使用 Gemini 2.5 Flash Image 保持艺术风格的一致性

Samir Nasser Eddine

toongether 联合创始人

Guillaume Vernade

DeepMind 高级开发技术推广工程师

生成式 AI 的兴起为创意表达开辟了新天地，让开发者能够打造出将普通用户变成艺术家的工具。不过，对于漫画等连续艺术形式，挑战不仅在于生成一张好的图片，还在于在数十个分格中生成一致的角色、风格和叙事。

网络漫画应用 Toongether 背后的公司正积极应对这一挑战。他们的使命是普及视觉故事讲述，提供一个平台，让普通用户不仅可以阅读漫画，还可以直接通过移动设备创作和分享自己的漫画。通过将 Gemini 2.5 Flash Image 集成到创作流程中，他们帮助用户克服了绘画方面的技术障碍，让新的故事讲述者社区能够共同创作。

大规模实现一致性

创作漫画需要严格保持一致性。角色必须在不同的姿势、服装和面部表情中保持可识别性，同时遵循统一的艺术风格。

最初，Toongether 团队依赖于一个复杂的堆栈，其中包含经过微调的 Stable Diffusion XL 模型，并使用 ControlNet 和 IPAdapter 等工具进行增强。虽然这种方法取得了定性结果，但在延迟和灵活性方面存在问题，这对于移动应用开发者来说是主要瓶颈。生成单张图片需要 20 到 30 秒，这对于提供顺畅的用户体验来说太慢了。此外，添加对新姿势或绘画风格的支持需要大量工程工作，这限制了他们快速迭代的能力。

使用 Gemini 编排复杂的流水线

为了克服这些瓶颈，toongether 将其核心图片生成流水线迁移到了 Gemini API。他们选择了 Gemini 2.5 Flash Image（因其速度和灵活性而被称为“Nano Banana”），该模型具备出色的编辑和指令遵循能力，可处理复杂的多步生成任务。

这种转变极大地加快了他们的开发速度，团队仅用了两周时间就从原型过渡到了完整的生产实现。

为了在允许用户自定义的同时保持角色一致性，Toongether 利用 Gemini 2.5 Flash Image 构建了一个复杂的多阶段流水线：

风格分析和参考生成：当用户创建新角色时，应用会向模型提供精选的参考角色列表，以分析所需的风格。根据简单的文字说明，该模型会为这个新的原创角色生成“中性姿势”参考图片。
资源包和姿势生成：为了将角色融入故事中，Toongether 使用“资源包”，即包含所需姿势和用例的说明的列表。通过使用指令提示以及中性参考图片，他们可以指示 Gemini 2.5 Flash Image 生成特定场景，而不会丢失角色的视觉特征。
场景构图：对于背景和其他元素，团队会提供参考图片来推断正确的艺术风格，确保面板风格统一。

“借助 Gemini 2.5 Flash Image 的高级编辑和指令功能，我们能够支持所有应用场景，”toongether 的联合创始人 Samir Nasser Eddine 解释道。“现在，它已成为我们图片生成流水线的重要组成部分。”

toongether 的未来发展

在奠定基础元素后，Toongether 团队开始着眼于之前被认为过于耗费资源的高级叙事功能。他们计划使用 Gemini 模型来支持单个面板中多个角色之间的复杂互动，并引入更多样的绘画风格。

toongether 的历程突显了 Gemini API 如何帮助下一代开发者摆脱管理复杂模型堆栈的困扰，转而构建可供普通用户使用的精巧且一致的创意工具。

如需开始使用 Gemini 模型构建自己的创意应用，请参阅我们的 API 文档。

Toongether 使用 Gemini 2.5 Flash Image 保持艺术风格的一致性

大规模实现一致性

使用 Gemini 编排复杂的流水线

toongether 的未来发展

相关案例研究