اشتراک گذاری

۲۰ مه ۲۰۲۵

Toonsutra کمیک‌ها را به زندگی می‌آورد: یک تجربه خواندن فراگیر با پشتیبانی از Gemini API، پیش‌نمایش Gemini 2.5 Pro و Lyria 2

شراد داورجان | ویشال آناند

بنیانگذاران تون‌سوترا

آونیت سینگ

مدیر محصول، نوآوری شرکای گوگل

قهرمان ویترین چرخ و فلک

تونسوترا، بزرگترین مقصد وب‌کمیک‌ها و رمان‌های گرافیکی هند، ماموریت دارد تا مخاطبان جهانی را با دنیای روایی گسترده وب‌کمیک‌ها مرتبط کند، و تمرکز ویژه‌ای بر قابل دسترس کردن داستان‌های جهانی به زبان‌های هندی دارد. تونسوترا با انگیزه تعمیق تعامل مخاطب، این سوال را مطرح کرد: چگونه می‌توانیم تجربه سنتی خواندن کمیک را به یک سفر سینمایی فراگیر تبدیل کنیم که در آن صدا، موسیقی و داستان به طور طبیعی در زبانی که خوانندگان در آن رویاپردازی می‌کنند، جریان یابد؟

ساختن فصل بعدی در داستان‌سرایی تعاملی

این سوال به تمرکز اصلی Toonsutra تبدیل شد. بازخوردهای جامعه آنها، اشتیاق برای تعامل عمیق‌تر و دسترسی گسترده‌تر را برجسته کرد. Toonsutra با درک پتانسیل عظیم هوش مصنوعی و با حمایت صندوق آتی هوش مصنوعی گوگل، با تیم‌های Labs و Partner Innovation در گوگل همکاری کرد. آنها با هم، از رابط برنامه‌نویسی Gemini، شامل پیش‌نمایش Gemini 2.5 Pro و Lyria 2 (مدل تولید موسیقی Google DeepMind) برای بازآفرینی تجربه وب‌کمیک برای طرفداران در سراسر جهان استفاده می‌کنند.

این همکاری که در کنفرانس Google I/O رونمایی شد، یک تجربه کمیک مبتنی بر هوش مصنوعی را به نمایش می‌گذارد که در آن داستان‌ها فقط روی صفحه نمی‌مانند؛ بلکه واکنش نشان می‌دهند و درگیر می‌شوند و تصاویر ثابت را به روایت‌های صوتی پویا تبدیل می‌کنند:

  • روایت تطبیقی ​​هوش مصنوعی: پیش‌نمایش Gemini 2.5 Pro روایت هوش مصنوعی را ایجاد می‌کند که با سرعت خواندن جریان می‌یابد و شخصیت‌ها را با صداهای متمایز زنده می‌کند. این امر به ویژه برای خوانندگان هندی، جایی که تفاوت‌های ظریف فرهنگی در زبان بسیار متفاوت است، تأثیرگذار است. قابلیت‌های تطبیقی ​​و چندزبانه Gemini 2.5 Pro، همراه با موتور اختصاصی متن شخصیت Toonsutra، داستان‌سرایی منسجم و ظریف را تضمین می‌کند.
  • صداهای پویا: این پلتفرم با بهره‌گیری از درک چندوجهی Gemini 2.5 Pro Preview و قابلیت‌های تولید صدای بومی Lyria و Gemini، صداهای فراگیری از جمله موسیقی سفارشی، صداگذاری و صداهای حرکتی - از صدای شمشیر گرفته تا فضای یک بازار شلوغ - تولید می‌کند.
  • تعامل پیشرفته: عناصر پیش‌نمایش Gemini 2.5 Pro به خوانندگان این امکان را می‌دهند که دیالوگ‌های منحصر به فردی را آغاز کنند، جزئیات پنهان را کشف کنند یا به طور نامحسوس بر رشته‌های روایی تأثیر بگذارند و تجربیات متنوع خواندن را تضمین کنند.

جزئیات فنی

این پروژه رویکردی نوین برای تولید خودکار صدای فراگیر برای کمیک‌های دیجیتال، همراه با فراداده‌های مکانی همگام‌سازی‌شده، معرفی می‌کند. در هسته آن، یک معماری چندعاملی مبتنی بر پیش‌نمایش Gemini 2.5 Pro وجود دارد که شامل عوامل تخصصی زیر است: استخراج‌کننده متن کمیک، راوی، آهنگساز موسیقی، کارگردان موسیقی و عوامل جلوه‌های صوتی.

گردش کار با تجزیه و تحلیل فصل‌های مختلف کمیک توسط عامل استخراج‌کننده متن کمیک (Comic Context Extractor Agent) برای خلاصه‌ای جامع از خلاصه داستان، ژانر و ویژگی‌های شخصیت آغاز می‌شود. سپس پنل‌ها با مرزهای مشخص استخراج می‌شوند. عامل راوی، دیالوگ‌های متن را با این پنل‌ها هماهنگ می‌کند که با غنی‌سازی متن شخصیت، توسط Gemini Native Audio صداگذاری می‌شوند. همزمان، عامل آهنگساز موسیقی، با الهام از موسیقی متن فیلم، از Gemini 2.5 Pro Preview برای تشخیص مضامین و احساسات در فصل‌ها استفاده می‌کند و آنها را به موسیقی متن تبدیل می‌کند تا Lyria بتواند موسیقی پس‌زمینه را تولید کند. عامل کارگردان موسیقی، این موسیقی را به پنل‌های خاص نگاشت می‌کند، در حالی که عامل جلوه‌های صوتی، پنل‌ها را به برچسب‌های جلوه‌های صوتی مربوطه که از یک پایگاه داده بازیابی می‌شوند، نگاشت می‌کند.

این گردش کار در نهایت به یک فایل JSON حاوی مختصات پنل، صداگذاری، جلوه‌های صوتی و موسیقی هماهنگ‌شده منجر می‌شود که به رابط کاربری Toonsutra تحویل داده می‌شود.

یکی از موفقیت‌های کلیدی، توانایی جمینی در تولید بومی این صدای سینمایی به زبان‌های هندی، و با شروع از هندی، است که ماموریت دسترسی‌پذیری تونسوترا را پیش می‌برد.

«این یک مورد استفاده‌ی بسیار سرگرم‌کننده و هیجان‌انگیز برای بهره‌برداری از قابلیت‌های چندوجهی و چندزبانی Gemini بوده است. استفاده از مدل‌های زبانی قدرتمند و بزرگ گوگل برای درک معنایی تصاویر، شخصیت‌ها، ترسیم طرح‌ها و تم‌ها، مکانیسم بسیار خوبی برای خلاصه کردن یک رسانه‌ی ورودی به اصول اولیه‌اش بوده است. تولید موسیقی قدرتمند Lyria و قابلیت‌های گفتار بومی Gemini، به ویژه در زبان‌های هندی، تجربه‌ی نهایی را که ما توانستیم با همکاری Toonsutra ارائه دهیم، ارتقا داد.»

- Avneet (PM، Google Partner Innovation)

از کنفرانس گوگل آی/او تا دسترسی عمومی

کنفرانس گوگل I/O یک نقطه عطف باورنکردنی بود و نشان داد که چگونه هوش مصنوعی می‌تواند محتوای دیجیتال را به طور اساسی بهبود بخشد. برای Toonsutra، این تازه اول فصل است.

همانطور که تیم ما اغلب می‌گوید: «چشم‌انداز ما در Toonsutra همیشه این بوده است که کمیک‌ها را برای همه و در همه جا جذاب‌تر و قابل دسترس‌تر کنیم. این همکاری با گوگل، جهشی عظیم به سوی این چشم‌انداز است. توانایی ایجاد این تجربیات خواندن عمیقاً فراگیر و مبتنی بر هوش مصنوعی، مستقیماً به بازخورد جامعه ما پاسخ می‌دهد و نوآوری ما را تسریع می‌کند. ما از واکنش‌ها در I/O هیجان‌زده‌ایم و مشتاقیم که این را در برنامه Toonsutra ادغام کنیم، و در نهایت حتی یک API بالقوه را برای توانمندسازی سایر سازندگان بررسی کنیم.»

تونسوترا اکنون بر ادغام مرحله‌ای این ویژگی‌ها در برنامه اصلی خود متمرکز شده است و با دقت به بازخوردهای جامعه گوش می‌دهد. آنها معتقدند که نه تنها پلتفرم خود را غنی‌تر می‌کنند، بلکه به ایجاد طرحی جدید برای محتوای بهبود یافته با هوش مصنوعی کمک می‌کنند.

آماده ساخت هستید؟ مستندات API Gemini را بررسی کنید و همین امروز با Google AI Studio شروع به کار کنید.

تونسوترا یکی از اعضای صندوق آتی هوش مصنوعی گوگل است که در استارت‌آپ‌های بلندپروازی که در حال ساخت آینده هوش مصنوعی هستند، سرمایه‌گذاری و با آنها همکاری می‌کند.

هاروی

هاروی از BigLaw Bench خود برای نشان دادن توانایی استثنایی Gemini 2.5 Pro در انجام وظایف پیچیده استدلال حقوقی مانند بررسی‌های لازم و تنظیم دادخواست استفاده می‌کند.