۲۰ مه ۲۰۲۵
Toonsutra کمیکها را به زندگی میآورد: یک تجربه خواندن فراگیر با پشتیبانی از Gemini API، پیشنمایش Gemini 2.5 Pro و Lyria 2

تونسوترا، بزرگترین مقصد وبکمیکها و رمانهای گرافیکی هند، ماموریت دارد تا مخاطبان جهانی را با دنیای روایی گسترده وبکمیکها مرتبط کند، و تمرکز ویژهای بر قابل دسترس کردن داستانهای جهانی به زبانهای هندی دارد. تونسوترا با انگیزه تعمیق تعامل مخاطب، این سوال را مطرح کرد: چگونه میتوانیم تجربه سنتی خواندن کمیک را به یک سفر سینمایی فراگیر تبدیل کنیم که در آن صدا، موسیقی و داستان به طور طبیعی در زبانی که خوانندگان در آن رویاپردازی میکنند، جریان یابد؟
ساختن فصل بعدی در داستانسرایی تعاملی
این سوال به تمرکز اصلی Toonsutra تبدیل شد. بازخوردهای جامعه آنها، اشتیاق برای تعامل عمیقتر و دسترسی گستردهتر را برجسته کرد. Toonsutra با درک پتانسیل عظیم هوش مصنوعی و با حمایت صندوق آتی هوش مصنوعی گوگل، با تیمهای Labs و Partner Innovation در گوگل همکاری کرد. آنها با هم، از رابط برنامهنویسی Gemini، شامل پیشنمایش Gemini 2.5 Pro و Lyria 2 (مدل تولید موسیقی Google DeepMind) برای بازآفرینی تجربه وبکمیک برای طرفداران در سراسر جهان استفاده میکنند.
این همکاری که در کنفرانس Google I/O رونمایی شد، یک تجربه کمیک مبتنی بر هوش مصنوعی را به نمایش میگذارد که در آن داستانها فقط روی صفحه نمیمانند؛ بلکه واکنش نشان میدهند و درگیر میشوند و تصاویر ثابت را به روایتهای صوتی پویا تبدیل میکنند:
- روایت تطبیقی هوش مصنوعی: پیشنمایش Gemini 2.5 Pro روایت هوش مصنوعی را ایجاد میکند که با سرعت خواندن جریان مییابد و شخصیتها را با صداهای متمایز زنده میکند. این امر به ویژه برای خوانندگان هندی، جایی که تفاوتهای ظریف فرهنگی در زبان بسیار متفاوت است، تأثیرگذار است. قابلیتهای تطبیقی و چندزبانه Gemini 2.5 Pro، همراه با موتور اختصاصی متن شخصیت Toonsutra، داستانسرایی منسجم و ظریف را تضمین میکند.
- صداهای پویا: این پلتفرم با بهرهگیری از درک چندوجهی Gemini 2.5 Pro Preview و قابلیتهای تولید صدای بومی Lyria و Gemini، صداهای فراگیری از جمله موسیقی سفارشی، صداگذاری و صداهای حرکتی - از صدای شمشیر گرفته تا فضای یک بازار شلوغ - تولید میکند.
- تعامل پیشرفته: عناصر پیشنمایش Gemini 2.5 Pro به خوانندگان این امکان را میدهند که دیالوگهای منحصر به فردی را آغاز کنند، جزئیات پنهان را کشف کنند یا به طور نامحسوس بر رشتههای روایی تأثیر بگذارند و تجربیات متنوع خواندن را تضمین کنند.
جزئیات فنی
این پروژه رویکردی نوین برای تولید خودکار صدای فراگیر برای کمیکهای دیجیتال، همراه با فرادادههای مکانی همگامسازیشده، معرفی میکند. در هسته آن، یک معماری چندعاملی مبتنی بر پیشنمایش Gemini 2.5 Pro وجود دارد که شامل عوامل تخصصی زیر است: استخراجکننده متن کمیک، راوی، آهنگساز موسیقی، کارگردان موسیقی و عوامل جلوههای صوتی.
گردش کار با تجزیه و تحلیل فصلهای مختلف کمیک توسط عامل استخراجکننده متن کمیک (Comic Context Extractor Agent) برای خلاصهای جامع از خلاصه داستان، ژانر و ویژگیهای شخصیت آغاز میشود. سپس پنلها با مرزهای مشخص استخراج میشوند. عامل راوی، دیالوگهای متن را با این پنلها هماهنگ میکند که با غنیسازی متن شخصیت، توسط Gemini Native Audio صداگذاری میشوند. همزمان، عامل آهنگساز موسیقی، با الهام از موسیقی متن فیلم، از Gemini 2.5 Pro Preview برای تشخیص مضامین و احساسات در فصلها استفاده میکند و آنها را به موسیقی متن تبدیل میکند تا Lyria بتواند موسیقی پسزمینه را تولید کند. عامل کارگردان موسیقی، این موسیقی را به پنلهای خاص نگاشت میکند، در حالی که عامل جلوههای صوتی، پنلها را به برچسبهای جلوههای صوتی مربوطه که از یک پایگاه داده بازیابی میشوند، نگاشت میکند.
این گردش کار در نهایت به یک فایل JSON حاوی مختصات پنل، صداگذاری، جلوههای صوتی و موسیقی هماهنگشده منجر میشود که به رابط کاربری Toonsutra تحویل داده میشود.
یکی از موفقیتهای کلیدی، توانایی جمینی در تولید بومی این صدای سینمایی به زبانهای هندی، و با شروع از هندی، است که ماموریت دسترسیپذیری تونسوترا را پیش میبرد.
«این یک مورد استفادهی بسیار سرگرمکننده و هیجانانگیز برای بهرهبرداری از قابلیتهای چندوجهی و چندزبانی Gemini بوده است. استفاده از مدلهای زبانی قدرتمند و بزرگ گوگل برای درک معنایی تصاویر، شخصیتها، ترسیم طرحها و تمها، مکانیسم بسیار خوبی برای خلاصه کردن یک رسانهی ورودی به اصول اولیهاش بوده است. تولید موسیقی قدرتمند Lyria و قابلیتهای گفتار بومی Gemini، به ویژه در زبانهای هندی، تجربهی نهایی را که ما توانستیم با همکاری Toonsutra ارائه دهیم، ارتقا داد.»
از کنفرانس گوگل آی/او تا دسترسی عمومی
کنفرانس گوگل I/O یک نقطه عطف باورنکردنی بود و نشان داد که چگونه هوش مصنوعی میتواند محتوای دیجیتال را به طور اساسی بهبود بخشد. برای Toonsutra، این تازه اول فصل است.
همانطور که تیم ما اغلب میگوید: «چشمانداز ما در Toonsutra همیشه این بوده است که کمیکها را برای همه و در همه جا جذابتر و قابل دسترستر کنیم. این همکاری با گوگل، جهشی عظیم به سوی این چشمانداز است. توانایی ایجاد این تجربیات خواندن عمیقاً فراگیر و مبتنی بر هوش مصنوعی، مستقیماً به بازخورد جامعه ما پاسخ میدهد و نوآوری ما را تسریع میکند. ما از واکنشها در I/O هیجانزدهایم و مشتاقیم که این را در برنامه Toonsutra ادغام کنیم، و در نهایت حتی یک API بالقوه را برای توانمندسازی سایر سازندگان بررسی کنیم.»
تونسوترا اکنون بر ادغام مرحلهای این ویژگیها در برنامه اصلی خود متمرکز شده است و با دقت به بازخوردهای جامعه گوش میدهد. آنها معتقدند که نه تنها پلتفرم خود را غنیتر میکنند، بلکه به ایجاد طرحی جدید برای محتوای بهبود یافته با هوش مصنوعی کمک میکنند.
آماده ساخت هستید؟ مستندات API Gemini را بررسی کنید و همین امروز با Google AI Studio شروع به کار کنید.
تونسوترا یکی از اعضای صندوق آتی هوش مصنوعی گوگل است که در استارتآپهای بلندپروازی که در حال ساخت آینده هوش مصنوعی هستند، سرمایهگذاری و با آنها همکاری میکند.
هاروی
هاروی از BigLaw Bench خود برای نشان دادن توانایی استثنایی Gemini 2.5 Pro در انجام وظایف پیچیده استدلال حقوقی مانند بررسیهای لازم و تنظیم دادخواست استفاده میکند.