اشتراک گذاری

۱۲ دسامبر ۲۰۲۵

Toongether با استفاده از تصویر فلش Gemini 2.5، ثبات سبک هنری را حفظ می‌کند.

سمیر ناصر الدین

یکی از بنیانگذاران toongether

گیوم ورناد

مشاور ارشد توسعه‌دهندگان دیپ‌مایند

قهرمان ویترینی Toongether

ظهور هوش مصنوعی مولد، مرزهای جدیدی را برای بیان خلاقانه گشوده است و به توسعه‌دهندگان اجازه می‌دهد ابزارهایی بسازند که کاربران عادی را به هنرمندان تبدیل می‌کند. با این حال، برای هنرهای متوالی مانند کمیک، چالش فقط تولید یک تصویر خوب نیست - بلکه تولید شخصیت‌ها، سبک‌ها و روایت‌های سازگار در ده‌ها پنل است.

Toongether، شرکت سازنده اپلیکیشن وب‌کمیکس، مستقیماً با این چالش روبرو است. ماموریت آنها دموکراتیزه کردن داستان‌سرایی بصری است و بستری را فراهم می‌کنند که کاربران عادی نه تنها بتوانند کمیک‌های خود را بخوانند، بلکه بتوانند آنها را مستقیماً از دستگاه‌های تلفن همراه خود خلق و به اشتراک بگذارند. با ادغام Gemini 2.5 Flash Image در خط تولید خود، آنها به کاربران کمک می‌کنند تا بر موانع فنی نقاشی غلبه کنند و جامعه جدیدی از داستان‌سرایان را قادر به خلق مشترک کنند.

دستیابی به ثبات در مقیاس

خلق یک کمیک نیازمند ثبات دقیقی است. شخصیت‌ها باید در حالت‌ها، لباس‌ها و حالت‌های چهره مختلف قابل تشخیص باشند، در عین حال که به یک سبک هنری واحد پایبند باشند.

در ابتدا، تیم همکار به یک پشته پیچیده شامل یک مدل Stable Diffusion XL تنظیم‌شده با ابزارهایی مانند ControlNet و IPAdapters متکی بود. اگرچه این نتایج کیفی را ارائه داد، اما با تأخیر و انعطاف‌پذیری - تنگناهای اصلی برای سازندگان موبایل - دست و پنجه نرم می‌کرد. تولید یک تصویر واحد بین 20 تا 30 ثانیه طول می‌کشید که برای یک تجربه کاربری یکپارچه بسیار کند است. علاوه بر این، افزودن پشتیبانی برای حالت‌ها یا سبک‌های طراحی جدید نیاز به تلاش مهندسی قابل توجهی داشت و توانایی آنها را برای تکرار سریع محدود می‌کرد.

هماهنگ‌سازی خطوط لوله پیچیده با Gemini

برای غلبه بر این تنگناها، آنها با همکاری یکدیگر خط تولید تصویر اصلی خود را به رابط برنامه‌نویسی نرم‌افزار Gemini منتقل کردند. آنها Gemini 2.5 Flash Image - که به دلیل سرعت و چابکی‌اش با نام "نانو موز" نیز شناخته می‌شود - را انتخاب کردند که قابلیت‌های برتر ویرایش و دنبال کردن دستورالعمل‌های مورد نیاز برای انجام وظایف پیچیده و چند مرحله‌ای تولید را ارائه می‌داد.

این گذار به طرز چشمگیری سرعت توسعه آنها را افزایش داد، به طوری که تیم تنها در عرض دو هفته از یک نمونه اولیه به یک پیاده‌سازی کامل تولید رسید.

برای حفظ ثبات کاراکتر و در عین حال امکان سفارشی‌سازی توسط کاربر، ما با همکاری یکدیگر از Gemini 2.5 Flash Image برای ساخت یک خط تولید چند مرحله‌ای پیچیده استفاده کردیم:

  • تحلیل سبک و تولید مرجع: وقتی کاربر یک شخصیت جدید ایجاد می‌کند، برنامه فهرستی از شخصیت‌های مرجع را برای تحلیل سبک مورد نظر در اختیار مدل قرار می‌دهد. بر اساس یک توضیح متنی ساده، مدل یک تصویر مرجع «حالت خنثی» برای این شخصیت اصلی جدید تولید می‌کند.
  • بسته‌های دارایی و تولید ژست: برای قرار دادن آن شخصیت در یک داستان، آن‌ها از «بسته‌های دارایی» استفاده می‌کنند - فهرست‌های گروه‌بندی‌شده‌ای از توضیحات برای ژست‌های مورد نظر و موارد استفاده. با استفاده از یک دستورالعمل سریع به همراه تصویر مرجع خنثی، آن‌ها می‌توانند به Gemini 2.5 Flash Image دستور دهند تا سناریوهای خاصی را بدون از دست دادن هویت بصری شخصیت تولید کند.
  • ترکیب‌بندی صحنه: برای پس‌زمینه‌ها و سایر عناصر، تیم، تصاویر مرجع را برای استنتاج سبک هنری صحیح ارائه می‌دهد و از انسجام پنل‌ها اطمینان حاصل می‌کند.

هاب ایکس

سمیر ناصر الدین، یکی از بنیانگذاران toongether، توضیح می‌دهد: «با بهره‌گیری از قابلیت‌های پیشرفته ویرایش و دستورالعمل‌های Gemini 2.5 Flash Image، توانستیم از تمام موارد استفاده خود پشتیبانی کنیم. اکنون این بخش اساسی از خطوط تولید تصویر ما است.»

قدم بعدی برای «با هم بودن» چیست؟

با در نظر گرفتن عناصر بنیادی، تیم toongether به دنبال ویژگی‌های روایی پیشرفته‌ای است که قبلاً بسیار پرهزینه تلقی می‌شدند. آن‌ها قصد دارند از مدل‌های Gemini برای پشتیبانی از تعاملات پیچیده بین چندین شخصیت در یک پنل واحد و معرفی طیف وسیع‌تری از سبک‌های طراحی استفاده کنند.

سفر toongether نشان می‌دهد که چگونه API Gemini به گروه بعدی سازندگان کمک می‌کند تا فراتر از مدیریت پشته‌های مدل پیچیده، به سمت ساخت ابزارهای خلاقانه پیچیده و منسجمی حرکت کنند که برای کاربران عادی نیز قابل استفاده باشد.

برای شروع ساخت برنامه‌های خلاقانه خود با مدل‌های Gemini، مستندات API ما را مطالعه کنید.

سنتزیا

سینتزیا از Veo 2 برای ایجاد تجربیات آواتار هوش مصنوعی با کیفیت استودیویی استفاده می‌کند.