分享

2025 年 12 月 12 日

Toongether 使用 Gemini 2.5 Flash Image 保持艺术风格的一致性

Samir Nasser Eddine

toongether 联合创始人

Guillaume Vernade

DeepMind 高级开发技术推广工程师

Toongether 精选案例主图

生成式 AI 的兴起为创意表达开辟了新的领域,让开发者能够打造出将普通用户变成艺术家的工具。不过,对于漫画等连续艺术形式,挑战不仅在于生成一张好的图片,还在于在数十个分格中生成一致的角色、风格和叙事。

网络漫画应用 Toongether 背后的公司正积极应对这一挑战。他们的使命是普及视觉故事讲述,提供一个平台,让普通用户不仅可以阅读漫画,还可以直接通过移动设备创作和分享自己的漫画。通过将 Gemini 2.5 Flash Image 集成到创作流程中,他们帮助用户克服了绘画的技术障碍,让新的故事讲述者社区能够共同创作。

大规模实现一致性

创作漫画需要严格保持一致性。角色必须在不同的姿势、服装和面部表情中保持可识别性,同时遵循统一的美术风格。

最初,Toongether 团队依赖于一个复杂的堆栈,其中包含经过微调的 Stable Diffusion XL 模型,并使用 ControlNet 和 IPAdapter 等工具进行了增强。虽然这种方法带来了定性结果,但在延迟和灵活性方面存在问题,这对于移动设备构建者来说是主要瓶颈。生成单张图片需要 20 到 30 秒,这对于提供顺畅的用户体验来说太慢了。此外,添加对新姿势或绘画风格的支持需要大量工程工作,这限制了他们快速迭代的能力。

使用 Gemini 编排复杂的流水线

为了克服这些瓶颈,toongether 将其核心图片生成流水线迁移到了 Gemini API。他们选择了 Gemini 2.5 Flash Image(因其速度和灵活性而被称为“Nano Banana”),该模型具备出色的编辑和指令遵循能力,可处理复杂的多步生成任务。

这种转变极大地加快了他们的开发速度,团队仅在两周内就从原型设计过渡到了完整的生产实现。

为了在允许用户自定义的同时保持角色一致性,Toongether 利用 Gemini 2.5 Flash Image 构建了一个复杂的多阶段流水线:

  • 风格分析和参考生成:当用户创建新角色时,应用会向模型提供精选的参考角色列表,以分析所需的风格。根据简单的文字说明,该模型会为这个新的原创角色生成“中性姿势”参考图片。
  • 资源包和姿势生成:为了将角色融入故事中,Toongether 使用“资源包”(包含所需姿势和用例的说明列表)。通过使用指令提示以及中性参考图片,他们可以指示 Gemini 2.5 Flash Image 生成特定场景,而不会丢失角色的视觉特征。
  • 场景构图:对于背景和其他元素,团队会提供参考图片来推断正确的艺术风格,确保面板风格统一。

HubX

“借助 Gemini 2.5 Flash Image 的高级编辑和指令功能,我们能够支持所有应用场景,”toongether 的联合创始人 Samir Nasser Eddine 解释道。“现在,它已成为我们图片生成流水线的重要组成部分。”

toongether 的未来发展

在奠定基础元素后,Toongether 团队开始着眼于之前被认为过于耗费资源的高级叙事功能。他们计划使用 Gemini 模型来支持单个面板中多个角色之间的复杂互动,并引入更多样的绘画风格。

toongether 的历程突显了 Gemini API 如何帮助下一代开发者摆脱管理复杂模型堆栈的困扰,转而构建可供普通用户使用的精巧且一致的创意工具。

如需开始使用 Gemini 模型构建自己的创意应用,请参阅我们的 API 文档