۱۲ دسامبر ۲۰۲۵
Toongether با استفاده از تصویر فلش Gemini 2.5، ثبات سبک هنری را حفظ میکند.

ظهور هوش مصنوعی مولد، مرزهای جدیدی را برای بیان خلاقانه گشوده است و به توسعهدهندگان اجازه میدهد ابزارهایی بسازند که کاربران عادی را به هنرمندان تبدیل میکند. با این حال، برای هنرهای متوالی مانند کمیک، چالش فقط تولید یک تصویر خوب نیست - بلکه تولید شخصیتها، سبکها و روایتهای سازگار در دهها پنل است.
Toongether، شرکت سازنده اپلیکیشن وبکمیکس، مستقیماً با این چالش روبرو است. ماموریت آنها دموکراتیزه کردن داستانسرایی بصری است و بستری را فراهم میکنند که کاربران عادی نه تنها بتوانند کمیکهای خود را بخوانند، بلکه بتوانند آنها را مستقیماً از دستگاههای تلفن همراه خود خلق و به اشتراک بگذارند. با ادغام Gemini 2.5 Flash Image در خط تولید خود، آنها به کاربران کمک میکنند تا بر موانع فنی نقاشی غلبه کنند و جامعه جدیدی از داستانسرایان را قادر به خلق مشترک کنند.
دستیابی به ثبات در مقیاس
خلق یک کمیک نیازمند ثبات دقیقی است. شخصیتها باید در حالتها، لباسها و حالتهای چهره مختلف قابل تشخیص باشند، در عین حال که به یک سبک هنری واحد پایبند باشند.
در ابتدا، تیم همکار به یک پشته پیچیده شامل یک مدل Stable Diffusion XL تنظیمشده با ابزارهایی مانند ControlNet و IPAdapters متکی بود. اگرچه این نتایج کیفی را ارائه داد، اما با تأخیر و انعطافپذیری - تنگناهای اصلی برای سازندگان موبایل - دست و پنجه نرم میکرد. تولید یک تصویر واحد بین 20 تا 30 ثانیه طول میکشید که برای یک تجربه کاربری یکپارچه بسیار کند است. علاوه بر این، افزودن پشتیبانی برای حالتها یا سبکهای طراحی جدید نیاز به تلاش مهندسی قابل توجهی داشت و توانایی آنها را برای تکرار سریع محدود میکرد.
هماهنگسازی خطوط لوله پیچیده با Gemini
برای غلبه بر این تنگناها، آنها با همکاری یکدیگر خط تولید تصویر اصلی خود را به رابط برنامهنویسی نرمافزار Gemini منتقل کردند. آنها Gemini 2.5 Flash Image - که به دلیل سرعت و چابکیاش با نام "نانو موز" نیز شناخته میشود - را انتخاب کردند که قابلیتهای برتر ویرایش و دنبال کردن دستورالعملهای مورد نیاز برای انجام وظایف پیچیده و چند مرحلهای تولید را ارائه میداد.
این گذار به طرز چشمگیری سرعت توسعه آنها را افزایش داد، به طوری که تیم تنها در عرض دو هفته از یک نمونه اولیه به یک پیادهسازی کامل تولید رسید.
برای حفظ ثبات کاراکتر و در عین حال امکان سفارشیسازی توسط کاربر، ما با همکاری یکدیگر از Gemini 2.5 Flash Image برای ساخت یک خط تولید چند مرحلهای پیچیده استفاده کردیم:
- تحلیل سبک و تولید مرجع: وقتی کاربر یک شخصیت جدید ایجاد میکند، برنامه فهرستی از شخصیتهای مرجع را برای تحلیل سبک مورد نظر در اختیار مدل قرار میدهد. بر اساس یک توضیح متنی ساده، مدل یک تصویر مرجع «حالت خنثی» برای این شخصیت اصلی جدید تولید میکند.
- بستههای دارایی و تولید ژست: برای قرار دادن آن شخصیت در یک داستان، آنها از «بستههای دارایی» استفاده میکنند - فهرستهای گروهبندیشدهای از توضیحات برای ژستهای مورد نظر و موارد استفاده. با استفاده از یک دستورالعمل سریع به همراه تصویر مرجع خنثی، آنها میتوانند به Gemini 2.5 Flash Image دستور دهند تا سناریوهای خاصی را بدون از دست دادن هویت بصری شخصیت تولید کند.
- ترکیببندی صحنه: برای پسزمینهها و سایر عناصر، تیم، تصاویر مرجع را برای استنتاج سبک هنری صحیح ارائه میدهد و از انسجام پنلها اطمینان حاصل میکند.

سمیر ناصر الدین، یکی از بنیانگذاران toongether، توضیح میدهد: «با بهرهگیری از قابلیتهای پیشرفته ویرایش و دستورالعملهای Gemini 2.5 Flash Image، توانستیم از تمام موارد استفاده خود پشتیبانی کنیم. اکنون این بخش اساسی از خطوط تولید تصویر ما است.»
قدم بعدی برای «با هم بودن» چیست؟
با در نظر گرفتن عناصر بنیادی، تیم toongether به دنبال ویژگیهای روایی پیشرفتهای است که قبلاً بسیار پرهزینه تلقی میشدند. آنها قصد دارند از مدلهای Gemini برای پشتیبانی از تعاملات پیچیده بین چندین شخصیت در یک پنل واحد و معرفی طیف وسیعتری از سبکهای طراحی استفاده کنند.
سفر toongether نشان میدهد که چگونه API Gemini به گروه بعدی سازندگان کمک میکند تا فراتر از مدیریت پشتههای مدل پیچیده، به سمت ساخت ابزارهای خلاقانه پیچیده و منسجمی حرکت کنند که برای کاربران عادی نیز قابل استفاده باشد.
برای شروع ساخت برنامههای خلاقانه خود با مدلهای Gemini، مستندات API ما را مطالعه کنید.
سنتزیا
سینتزیا از Veo 2 برای ایجاد تجربیات آواتار هوش مصنوعی با کیفیت استودیویی استفاده میکند.