2025 年 5 月 20 日
Toonsutra 让漫画栩栩如生:由 Gemini API、Gemini 2.5 Pro 预览版和 Lyria 2 提供支持的沉浸式阅读体验

Toonsutra 是印度最大的网漫和图画小说平台,致力于让全球读者能够畅游网漫的广阔故事世界,重点关注以印度语呈现世界级故事。为了加深观众互动,Toonsutra 探索如何将传统的漫画阅读体验转变为沉浸式的电影之旅,让声音、音乐和故事以读者梦寐以求的语言自然地流动。
打造互动叙事的新篇章
这个问题成为了 Toonsutra 的核心关注点。社区反馈明确表达了对更深层互动与更广泛适配性的需求。Toonsutra 认识到 AI 的巨大潜力,并在 Google AI 启航基金的支持下,与 Google 的实验室和合作伙伴创新团队展开合作。双方共同利用 Gemini API(包含 Gemini 2.5 Pro 预览版)和 Lyria 2(Google DeepMind 的音乐生成模型),为全球粉丝重新定义网络漫画体验。
此次合作在 Google I/O 大会上揭晓,展示了 AI 赋能的漫画体验,让故事不再静止于画面,而是能够做出响应并与用户互动,将静态图片转变为动态音频叙事:
- 自适应 AI 旁白:Gemini 2.5 Pro 预览版可生成与阅读速度相匹配的 AI 旁白,以鲜明音色赋予角色生命力。这对语言文化差异显著的印度读者群体意义非凡。Gemini 2.5 Pro 的自适应和多语言功能与 Toonsutra 的专有角色上下文引擎相结合,可确保细腻连贯的叙事。
- 动态音景:借助 Gemini 2.5 Pro 预览版的多模态理解能力以及 Lyria 和 Gemini 的原生音频生成能力,平台可生成沉浸式音景,包括定制音乐、旁白和动作音效,涵盖刀剑的碰撞声和熙熙攘攘的市集喧嚣。
- 增强交互性:由 Gemini 2.5 Pro 预览版提供支持的元素可让读者触发独特的对话、探索隐藏的细节或微妙地影响叙事线索,从而确保阅读体验丰富多样。
技术详情
此项目提出了一种新颖的方法,可自动为数字漫画生成沉浸式音频,并附带同步的空间元数据。其核心是基于 Gemini 2.5 Pro 预览版构建的多智能体架构,包含以下专业智能体:漫画上下文提取、旁白叙述、音乐作曲、音乐指导及音效智能体。
工作流程从漫画上下文提取智能体开始,该智能体会分析多个漫画章节,以生成全面的剧情简介、类型和角色特征。然后,系统会提取具有明确边界的画格单元。旁白叙述智能体会将脚本中的对话与这些画格对齐,并借助角色上下文增强,通过 Gemini Native Audio 朗读这些对话。与此同时,受电影配乐的启发,音乐作曲智能体将使用 Gemini 2.5 Pro 预览版来辨别各个章节的主题和情感,并将其转化为音乐提示,供 Lyria 生成背景音乐。音乐指导智能体会将音乐映射到特定画格,而音效智能体会将画格映射到从数据库中检索到的相关音效标记。
此工作流程最终会生成一个 JSON 文件,其中包括画格坐标、旁白、音效和同步音乐,交付至 Toonsutra 的前端。
关键突破在于 Gemini 能够以原生方式生成印度语(首批支持印地语)的影院级音频,进一步推动了 Toonsutra 的普惠使命。
“这个应用场景精彩展现了 Gemini 多模态与多语言优势。使用 Google 强大的大语言模型实现图像语义理解、角色刻画及主题提炼,成功构建了将输入媒体压缩成核心要素的机制。Lyria 强大的音乐生成功能和 Gemini 的原生语音功能(尤其是在印度语表现方面)提升了我们与 Toonsutra 合作的最终体验”
从 Google I/O 大会到正式版
Google I/O 大会的展示是一个重要里程碑,展示了 AI 如何从根本上提升数字内容体验。对于 Toonsutra 而言,这只是序幕初启。
正如我们团队常说的那样:“Toonsutra 的愿景始终是让漫画更具吸引力,让世界各地的用户都能轻松阅读漫画。与 Google 的这次合作是实现这一愿景的重大飞跃。创建深度沉浸的 AI 阅读体验,直接回应了社区反馈并加速了创新。I/O 大会的反响令我们振奋,我们期待将该功能整合至 Toonsutra 应用,并计划探索开放 API 以赋能更多创作者。”
Toonsutra 目前正致力于将这些功能分阶段整合至其主应用程序中,并密切关注社区反馈。他们相信这不仅是在丰富自身平台,更是在助力构建 AI 增强内容的新蓝图。
准备好开始构建了吗?立即探索 Gemini API 文档,开始使用 Google AI Studio。
Toonsutra 是 Google AI 启航资金的参与者,该基金会投资并携手富有雄心的初创公司,共同开创下一代 AI 技术。