فراتر از پیام‌های متنی: چگونه Cartwheel با Gemini Flash 2.5 نسل سه‌بعدی Pose-Fithful را ساخت

ویشال دارمادیکاری

مهندس راهکارهای محصول

جاناتان جارویس

مدیرعامل

اندرو کار

بنیانگذار و دانشمند ارشد

مدل‌های مولد امکانات جدیدی را برای هنرمندان و طراحان ایجاد کرده‌اند. با این حال، برای خالقان حرفه‌ای، تبدیل یک دیدگاه خلاقانه خاص به یک تصویر تولید شده همچنان یک چالش مهم است. ارائه متن‌های صرفاً متنی اغلب می‌تواند مانند یک "ماشین اسلات" به نظر برسد، که دستیابی به کنترل دقیق بر ژست، زاویه دوربین و ترکیب‌بندی شخصیت را دشوار می‌کند.

Cartwheel ، پلتفرمی برای ساخت بازی و رسانه سه‌بعدی مبتنی بر هوش مصنوعی، با ساخت یک راه‌حل جدید بر روی مدل‌های پیشرفته گوگل، در این مورد Gemini 2.5 Flash Image Nano Banana، به این مشکل رسیدگی می‌کند. ویژگی «حالت ژست» آنها در Cartwheel Studio با گنجاندن کنترل‌های سه‌بعدی، فراتر از تولید ساده متن به تصویر عمل می‌کند و به سازندگان کنترل مستقیم و تکراری بر خروجی خود می‌دهد.

چالش: پر کردن شکاف بین هدف و خروجی

در جریان‌های کاری خلاقانه حرفه‌ای، دقت ضروری است. یک هنرمند، تبلیغ‌کننده یا طراح بازی اغلب نیاز دارد که یک شخصیت را در یک ژست خاص یا از یک زاویه خاص خلق کند تا با استوری‌بورد یا خلاصه کمپین مطابقت داشته باشد.

جاناتان جارویس، یکی از بنیانگذاران کارت‌ویل، گفت: «در سطح بالا، کنترل مولدهای تصویر دشوار بوده است. رسیدن به چشم‌اندازی که واقعاً دارید دشوار است. ما همیشه می‌خواستیم به شما اجازه دهیم که مستقیماً وارد شوید و شخصیت را دستکاری کنید.»

این نیاز به دستکاری مستقیم، Cartwheel را به سمت توسعه یک خط لوله چندوجهی سوق داد که ژست‌دهی سه‌بعدی، متن‌پردازی و چندین مدل هوش مصنوعی را برای کار هماهنگ با هم ادغام می‌کند.

راه حل: یک خط لوله چند مدلی برای تولید تصاویر با قابلیت اطمینان بالا

حالت ژست کارت‌ویل به جای تکیه صرف بر متن، یک مانکن سه‌بعدی را به کاربر ارائه می‌دهد. کاربر می‌تواند مستقیماً روی اندام‌های مانکن کلیک کرده و آنها را بکشد تا یک ژست خاص ایجاد کند و دوربین مجازی را در هر زاویه‌ای تنظیم کند. سپس این صحنه سه‌بعدی به ورودی اصلی برای فرآیند تولید تبدیل می‌شود.

روند کار فنی به شرح زیر است:

برچسب‌گذاری حالت با Gemini 2.5 Flash. ابتدا، یک اسکرین‌شات از مانکن سه‌بعدی ژست گرفته شده به Gemini 2.5 Flash ارسال می‌شود. Cartwheel برای این مرحله از 2.5 Flash استفاده می‌کند، زیرا سرعت آن برای نیاز به تأخیر کم یک ابزار خلاقانه در زمان واقعی ایده‌آل است. وظیفه مدل این است که یک برچسب متنی ساده که حالت را توصیف می‌کند، مانند "یک شخصیت در حالت پریدن" یا "یک شخصیت در حال سلام دادن" برگرداند.
مونتاژ پیام چندوجهی. این برچسب ژست تولید شده توسط فلش ۲.۵ به طور خودکار با پیام متنی توصیفی کاربر (مثلاً "یک ربات در مزرعه گل") ترکیب می‌شود.
تولید تصویر شرطی. در نهایت، این پیام متنی ترکیبی به همراه تصویر اصلی از حالت سه‌بعدی به یک مدل تصویر با دقت بالا و مطابق با حالت، Gemini 2.5 Flash Image، ارسال می‌شود. این پیام چندوجهی - که شامل تصویر حالت و توضیحات متنی دقیق است - Gemini 2.5 Flash Image را شرطی می‌کند تا تصویری تولید کند که کاملاً به حالت و زاویه دوربین پایبند باشد، ضمن اینکه سبک هنری، شخصیت و جزئیات صحنه را از متن اعمال می‌کند.

این زنجیره‌سازی مدل‌ها - با استفاده از 2.5 Flash برای تحلیل بصری و برچسب‌گذاری، و 2.5 Flash Image برای رندر نهایی و شرطی‌شده - به Cartwheel اجازه می‌دهد تا یک گردش کار منحصر به فرد ارائه دهد که کنترل شهودی نرم‌افزار سه‌بعدی را با قدرت خلاقانه هوش مصنوعی مولد ترکیب می‌کند.

نتایج: باز کردن قفل ثبات شخصیت از هر زاویه‌ای

این رویکرد در تولید تصاویری که قبلاً ایجاد آنها دشوار بود، مؤثر بوده است. اندرو کار، یکی از بنیانگذاران کارت‌ویل، خاطرنشان کرد: «رندر کردن شخصیت‌ها از هر زاویه‌ای اما از نمای جلو در هیچ مدل دیگری کار نمی‌کرد. به محض اینکه دوربین را می‌چرخاندید، از هم می‌پاشید.»

از آنجا که اکثر مدل‌های تصویری بر اساس داده‌هایی آموزش داده می‌شوند که عمدتاً شخصیت‌ها را از جلو نشان می‌دهند، برای ایجاد ترکیب‌بندی‌های کمتر رایج، مانند نماهای زاویه بالا یا نماهای پشت، با مشکل مواجه می‌شوند. ابزار Cartwheel با ارائه ژست به عنوان ورودی بصری مستقیم، این سوگیری داده‌های آموزشی را دور می‌زند و به هنرمند اجازه می‌دهد شخصیت‌های ثابتی را از هر زاویه‌ای که انتخاب می‌کند، تولید کند.

این گردش کار به طور قابل توجهی فرآیند خلاقیت را تسریع می‌کند. کاری که قبلاً ممکن بود به ساعت‌ها تکرار و ترکیب دستی توسط یک هنرمند سه‌بعدی نیاز داشته باشد، اکنون می‌تواند در عرض چند ثانیه انجام شود.

گام بعدی: از تصاویر ثابت تا ویدیوهای تولیدی

کارت‌ویل در حال برنامه‌ریزی مراحل بعدی این فناوری است. این تیم در حال آزمایش ادغام کتابخانه‌ای متشکل از ۱۵۰،۰۰۰ ژست از پیش دسته‌بندی‌شده است که کاربران می‌توانند آن‌ها را جستجو و اصلاح کنند و سرعت گردش کار را بیشتر کنند.

چشم‌انداز بلندمدت، گسترش این خط لوله تبدیل حالت به پیکسل به حرکت است. همان حالت سه‌بعدی و تصویر رندر شده می‌تواند به عنوان فریم شروع برای یک مدل تبدیل ویدیو به ویدیو، مانند Veo، عمل کند. این به سازنده اجازه می‌دهد تا یک شخصیت را در حالت دلخواه قرار دهد، آن را به هر سبکی رندر کند و سپس با استفاده از یک متن، آن را متحرک کند و یک گردش کار یکپارچه از حالت سه‌بعدی تا یک انیمیشن نهایی و سبک‌دار ایجاد کند.

با تکیه بر مدل‌های چندوجهی مانند مدل‌های خانواده Gemini، Cartwheel نشان می‌دهد که چگونه توسعه‌دهندگان می‌توانند ابزارهای پیچیده‌ای ایجاد کنند که کنترل و ثبات مورد نیاز هنرمندان را فراهم می‌کند و هوش مصنوعی مولد را از ابزاری مبتنی بر شانس به ابزاری با هدف خلاقانه دقیق تبدیل می‌کند.

استودیوهای پرامیس

استودیوهای پرومیس (Promise Studios) از نرم‌افزارهای Gemini 2.5 Pro و Veo 2 برای متحول کردن فیلمسازی استفاده می‌کنند و امکان تجزیه و تحلیل عمیق فیلمنامه، استوری‌بوردینگ با کمک هوش مصنوعی و جلوه‌های بصری آگاه از متن را فراهم می‌کنند.

فراتر از پیام‌های متنی: چگونه Cartwheel با Gemini Flash 2.5 نسل سه‌بعدی Pose-Fithful را ساخت

چالش: پر کردن شکاف بین هدف و خروجی

راه حل: یک خط لوله چند مدلی برای تولید تصاویر با قابلیت اطمینان بالا

نتایج: باز کردن قفل ثبات شخصیت از هر زاویه‌ای

گام بعدی: از تصاویر ثابت تا ویدیوهای تولیدی

مطالعات موردی مرتبط