۳ نوامبر ۲۰۲۵
فراتر از پیامهای متنی: چگونه Cartwheel با Gemini Flash 2.5 نسل سهبعدی Pose-Fithful را ساخت

مدلهای مولد امکانات جدیدی را برای هنرمندان و طراحان ایجاد کردهاند. با این حال، برای خالقان حرفهای، تبدیل یک دیدگاه خلاقانه خاص به یک تصویر تولید شده همچنان یک چالش مهم است. ارائه متنهای صرفاً متنی اغلب میتواند مانند یک "ماشین اسلات" به نظر برسد، که دستیابی به کنترل دقیق بر ژست، زاویه دوربین و ترکیببندی شخصیت را دشوار میکند.
Cartwheel ، پلتفرمی برای ساخت بازی و رسانه سهبعدی مبتنی بر هوش مصنوعی، با ساخت یک راهحل جدید بر روی مدلهای پیشرفته گوگل، در این مورد Gemini 2.5 Flash Image Nano Banana، به این مشکل رسیدگی میکند. ویژگی «حالت ژست» آنها در Cartwheel Studio با گنجاندن کنترلهای سهبعدی، فراتر از تولید ساده متن به تصویر عمل میکند و به سازندگان کنترل مستقیم و تکراری بر خروجی خود میدهد.

چالش: پر کردن شکاف بین هدف و خروجی
در جریانهای کاری خلاقانه حرفهای، دقت ضروری است. یک هنرمند، تبلیغکننده یا طراح بازی اغلب نیاز دارد که یک شخصیت را در یک ژست خاص یا از یک زاویه خاص خلق کند تا با استوریبورد یا خلاصه کمپین مطابقت داشته باشد.
جاناتان جارویس، یکی از بنیانگذاران کارتویل، گفت: «در سطح بالا، کنترل مولدهای تصویر دشوار بوده است. رسیدن به چشماندازی که واقعاً دارید دشوار است. ما همیشه میخواستیم به شما اجازه دهیم که مستقیماً وارد شوید و شخصیت را دستکاری کنید.»
این نیاز به دستکاری مستقیم، Cartwheel را به سمت توسعه یک خط لوله چندوجهی سوق داد که ژستدهی سهبعدی، متنپردازی و چندین مدل هوش مصنوعی را برای کار هماهنگ با هم ادغام میکند.
راه حل: یک خط لوله چند مدلی برای تولید مبتنی بر ژست به جای تکیه صرف بر متن، حالت ژست کارتویل یک مانکن سهبعدی را در اختیار کاربر قرار میدهد. کاربر میتواند مستقیماً روی اندامهای مانکن کلیک کرده و آنها را بکشد تا یک ژست خاص ایجاد کند و دوربین مجازی را در هر زاویهای تنظیم کند. سپس این صحنه سهبعدی به ورودی اصلی برای فرآیند تولید تبدیل میشود.
روند کار فنی به شرح زیر است:
- برچسبگذاری حالت با Gemini 2.5 Flash. ابتدا، یک اسکرینشات از مانکن سهبعدی ژست گرفته شده به Gemini 2.5 Flash ارسال میشود. Cartwheel برای این مرحله از 2.5 Flash استفاده میکند، زیرا سرعت آن برای نیاز به تأخیر کم یک ابزار خلاقانه در زمان واقعی ایدهآل است. وظیفه مدل این است که یک برچسب متنی ساده که حالت را توصیف میکند، مانند "یک شخصیت در حالت پریدن" یا "یک شخصیت در حال سلام دادن" برگرداند.
- مونتاژ پیام چندوجهی. این برچسب ژست تولید شده توسط فلش ۲.۵ به طور خودکار با پیام متنی توصیفی کاربر (مثلاً "یک ربات در مزرعه گل") ترکیب میشود.
- تولید تصویر شرطی. در نهایت، این پیام متنی ترکیبی به همراه تصویر اصلی از حالت سهبعدی به یک مدل تصویر با دقت بالا و مطابق با حالت، Gemini 2.5 Flash Image، ارسال میشود. این پیام چندوجهی - که شامل تصویر حالت و توضیحات متنی دقیق است - Gemini 2.5 Flash Image را شرطی میکند تا تصویری تولید کند که کاملاً به حالت و زاویه دوربین پایبند باشد، ضمن اینکه سبک هنری، شخصیت و جزئیات صحنه را از متن اعمال میکند.
این زنجیرهسازی مدلها - با استفاده از 2.5 Flash برای تحلیل بصری و برچسبگذاری، و 2.5 Flash Image برای رندر نهایی و شرطیشده - به Cartwheel اجازه میدهد تا یک گردش کار منحصر به فرد ارائه دهد که کنترل شهودی نرمافزار سهبعدی را با قدرت خلاقانه هوش مصنوعی مولد ترکیب میکند. نتایج: باز کردن قفل ثبات شخصیت از هر زاویهای. این رویکرد در تولید تصاویری که قبلاً ایجاد آنها دشوار بود، مؤثر بوده است. اندرو کار، یکی از بنیانگذاران Cartwheel، خاطرنشان کرد: «رندر کردن شخصیتها از هر زاویهای اما از جلو در هیچ مدل دیگری کار نمیکرد. به محض اینکه دوربین را میچرخاندید، از هم میپاشید.»
از آنجا که اکثر مدلهای تصویری بر اساس دادههایی آموزش داده میشوند که عمدتاً شخصیتها را از جلو نشان میدهند، برای ایجاد ترکیببندیهای کمتر رایج، مانند نماهای زاویه بالا یا نماهای پشت، با مشکل مواجه میشوند. ابزار Cartwheel با ارائه ژست به عنوان ورودی بصری مستقیم، این سوگیری دادههای آموزشی را دور میزند و به هنرمند اجازه میدهد شخصیتهای ثابتی را از هر زاویهای که انتخاب میکند، تولید کند.
این گردش کار به طور قابل توجهی فرآیند خلاقیت را تسریع میکند. کاری که قبلاً ممکن بود به ساعتها تکرار و ترکیب دستی توسط یک هنرمند سهبعدی نیاز داشته باشد، اکنون میتواند در عرض چند ثانیه انجام شود.
گام بعدی: از تصاویر ثابت تا ویدیوهای تولیدی
کارتویل در حال برنامهریزی مراحل بعدی این فناوری است. این تیم در حال آزمایش ادغام کتابخانهای متشکل از ۱۵۰،۰۰۰ ژست از پیش دستهبندیشده است که کاربران میتوانند آنها را جستجو و اصلاح کنند و سرعت گردش کار را بیشتر کنند.
چشمانداز بلندمدت، گسترش این خط لوله تبدیل حالت به پیکسل به حرکت است. همان حالت سهبعدی و تصویر رندر شده میتواند به عنوان فریم شروع برای یک مدل تبدیل ویدیو به ویدیو، مانند Veo، عمل کند. این به سازنده اجازه میدهد تا یک شخصیت را در حالت دلخواه قرار دهد، آن را به هر سبکی رندر کند و سپس با استفاده از یک متن، آن را متحرک کند و یک گردش کار یکپارچه از حالت سهبعدی تا یک انیمیشن نهایی و سبکدار ایجاد کند.
با تکیه بر مدلهای چندوجهی مانند مدلهای خانواده Gemini، Cartwheel نشان میدهد که چگونه توسعهدهندگان میتوانند ابزارهای پیچیدهای ایجاد کنند که کنترل و ثبات مورد نیاز هنرمندان را فراهم میکند و هوش مصنوعی مولد را از ابزاری مبتنی بر شانس به ابزاری با هدف خلاقانه دقیق تبدیل میکند.
استودیوهای پرامیس
استودیوهای پرومیس (Promise Studios) از نرمافزارهای Gemini 2.5 Pro و Veo 2 برای متحول کردن فیلمسازی استفاده میکنند و امکان تجزیه و تحلیل عمیق فیلمنامه، استوریبورد با کمک هوش مصنوعی و جلوههای بصری آگاه از متن را فراهم میکنند.