Toonsutra 让漫画栩栩如生：由 Gemini API、Gemini 2.5 Pro 预览版和 Lyria 2 提供支持的沉浸式阅读体验

Sharad Devarajan | Vishal Anand

Toonsutra 创始人

Avneet Singh

Google 合作伙伴创新产品经理

Toonsutra 是印度最大的网漫和图画小说平台，致力于让全球读者能够畅游网漫的广阔故事世界，重点关注以印度语呈现世界级故事。为了加深观众互动，Toonsutra 探索如何将传统的漫画阅读体验转变为沉浸式的电影之旅，让声音、音乐和故事以读者梦寐以求的语言自然地流动。

打造互动叙事的新篇章

这个问题成为了 Toonsutra 的核心关注点。社区反馈明确表达了对更深层互动与更广泛适配性的需求。Toonsutra 认识到 AI 的巨大潜力，并在 Google AI 启航基金的支持下，与 Google 的实验室和合作伙伴创新团队展开合作。双方共同利用 Gemini API（包含 Gemini 2.5 Pro 预览版）和 Lyria 2（Google DeepMind 的音乐生成模型），为全球粉丝重新定义网络漫画体验。

此次合作在 Google I/O 大会上揭晓，展示了 AI 赋能的漫画体验，让故事不再静止于画面，而是能够做出响应并与用户互动，将静态图片转变为动态音频叙事：

自适应 AI 旁白：Gemini 2.5 Pro 预览版可生成与阅读速度相匹配的 AI 旁白，以鲜明音色赋予角色生命力。这对语言文化差异显著的印度读者群体意义非凡。Gemini 2.5 Pro 的自适应和多语言功能与 Toonsutra 的专有角色上下文引擎相结合，可确保细腻连贯的叙事。
动态音景：借助 Gemini 2.5 Pro 预览版的多模态理解能力以及 Lyria 和 Gemini 的原生音频生成能力，平台可生成沉浸式音景，包括定制音乐、旁白和动作音效，涵盖刀剑的碰撞声和熙熙攘攘的市集喧嚣。
增强交互性：由 Gemini 2.5 Pro 预览版提供支持的元素可让读者触发独特的对话、探索隐藏的细节或微妙地影响叙事线索，从而确保阅读体验丰富多样。

技术详情

此项目提出了一种新颖的方法，可自动为数字漫画生成沉浸式音频，并附带同步的空间元数据。其核心是基于 Gemini 2.5 Pro 预览版构建的多智能体架构，包含以下专业智能体：漫画上下文提取、旁白叙述、音乐作曲、音乐指导及音效智能体。

工作流程从漫画上下文提取智能体开始，该智能体会分析多个漫画章节，以生成全面的剧情简介、类型和角色特征。然后，系统会提取具有明确边界的画格单元。旁白叙述智能体会将脚本中的对话与这些画格对齐，并借助角色上下文增强，通过 Gemini Native Audio 朗读这些对话。与此同时，受电影配乐的启发，音乐作曲智能体将使用 Gemini 2.5 Pro 预览版来辨别各个章节的主题和情感，并将其转化为音乐提示，供 Lyria 生成背景音乐。音乐指导智能体会将音乐映射到特定画格，而音效智能体会将画格映射到从数据库中检索到的相关音效标记。

此工作流程最终会生成一个 JSON 文件，其中包括画格坐标、旁白、音效和同步音乐，交付至 Toonsutra 的前端。

关键突破在于 Gemini 能够以原生方式生成印度语（首批支持印地语）的影院级音频，进一步推动了 Toonsutra 的普惠使命。

“这个应用场景精彩展现了 Gemini 多模态与多语言优势。使用 Google 强大的大语言模型实现图像语义理解、角色刻画及主题提炼，成功构建了将输入媒体压缩成核心要素的机制。Lyria 强大的音乐生成功能和 Gemini 的原生语音功能（尤其是在印度语表现方面）提升了我们与 Toonsutra 合作的最终体验”

- Avneet（Google 合作伙伴创新产品经理）

从 Google I/O 大会到正式版

Google I/O 大会的展示是一个重要里程碑，展示了 AI 如何从根本上提升数字内容体验。对于 Toonsutra 而言，这只是序幕初启。

正如我们团队常说的那样：“Toonsutra 的愿景始终是让漫画更具吸引力，让世界各地的用户都能轻松阅读漫画。与 Google 的这次合作是实现这一愿景的重大飞跃。创建深度沉浸的 AI 阅读体验，直接回应了社区反馈并加速了创新。I/O 大会的反响令我们振奋，我们期待将该功能整合至 Toonsutra 应用，并计划探索开放 API 以赋能更多创作者。”

Toonsutra 目前正致力于将这些功能分阶段整合至其主应用程序中，并密切关注社区反馈。他们相信这不仅是在丰富自身平台，更是在助力构建 AI 增强内容的新蓝图。

准备好开始构建了吗？立即探索 Gemini API 文档，开始使用 Google AI Studio。

Toonsutra 是 Google AI 启航资金的参与者，该基金会投资并携手富有雄心的初创公司，共同开创下一代 AI 技术。

Toonsutra 让漫画栩栩如生：由 Gemini API、Gemini 2.5 Pro 预览版和 Lyria 2 提供支持的沉浸式阅读体验

打造互动叙事的新篇章

技术详情

从 Google I/O 大会到正式版

相关案例