ما وراء الطلبات النصية: كيف أنشأت Cartwheel صورًا ثلاثية الأبعاد تحاكي الوضعيات باستخدام Gemini Flash 2.5؟

فيشال دارماذيكاري

مهندس حلول المنتجات

جوناثان جارفيس

الرئيس التنفيذي

أندرو كار

المؤسس المشارك وكبير العلماء

أتاحت النماذج التوليدية إمكانيات جديدة للفنانين والمصمّمين. مع ذلك، يواجه صنّاع المحتوى المحترفون تحديًا كبيرًا في ترجمة رؤية إبداعية معيّنة إلى صورة من إنشاء الذكاء الاصطناعي. قد يبدو إنشاء الصور باستخدام النصوص فقط وكأنّه "آلة قمار"، ما يصعّب التحكّم بدقة في وضعية الشخصية وزاوية الكاميرا والتكوين.

تعمل منصة Cartwheel على حلّ هذه المشكلة من خلال إنشاء حلّ جديد يستند إلى نماذج Google المتقدّمة، مثل Gemini 2.5 Flash Image Nano Banana، وهي منصة لإنشاء ألعاب ووسائط ثلاثية الأبعاد باستخدام الذكاء الاصطناعي. تتجاوز ميزة "وضعيات التصوير" في Cartwheel Studio عملية إنشاء الصور من النصوص البسيطة من خلال دمج عناصر تحكّم ثلاثية الأبعاد، ما يمنح صنّاع المحتوى تحكّمًا مباشرًا وتكراريًا في المحتوى الذي ينشئونه.

التحدي: سدّ الفجوة بين النية والناتج

في مهام سير العمل الإبداعية الاحترافية، الدقة أمر ضروري. يحتاج الفنان أو المعلِن أو مصمّم الألعاب غالبًا إلى إنشاء شخصية في وضعية معيّنة أو من زاوية معيّنة لتناسب لوحة عرض قصصية أو موجز حملة.

يقول "جوناثان جارفيس"، المؤسس المشارك لشركة Cartwheel: "بشكل عام، كان من الصعب التحكّم في أدوات إنشاء الصور". "من الصعب تحقيق رؤية لديك فعلاً. أردنا دائمًا أن نتيح لك الدخول والتلاعب بالشخصية مباشرةً".

أدّى هذا الشرط الخاص بالتلاعب المباشر إلى تطوير Cartwheel لخط إنتاج متعدد الوسائط يدمج بين وضعيات ثلاثية الأبعاد وطلبات نصية ونماذج متعددة من الذكاء الاصطناعي للعمل معًا.

الحلّ: مسار معالجة متعدد النماذج لإنشاء صور تحافظ على الوضعيات

بدلاً من الاعتماد على النص فقط، يعرض "وضع الوقوف" في Cartwheel دمية ثلاثية الأبعاد للمستخدم. يمكن للمستخدم النقر مباشرةً على أطراف عارضة الأزياء وسحبها لإنشاء وضعية معيّنة وتعديل الكاميرا الافتراضية على أي زاوية. يصبح مشهد الأبعاد الثلاثية هذا بعد ذلك إدخالاً أساسيًا في عملية الإنشاء.

في ما يلي خطوات سير العمل الفنية:

تصنيف الوضعيات باستخدام Gemini 2.5 Flash أولاً، يتم إرسال لقطة شاشة لعارضة أزياء ثلاثية الأبعاد إلى Gemini 2.5 Flash. تستخدم أداة Cartwheel إصدار 2.5 Flash في هذه الخطوة، لأنّ سرعتها مثالية لمتطلبات وقت الاستجابة المنخفض التي تتطلّبها أداة إبداعية في الوقت الفعلي. مهمة النموذج هي عرض تصنيف نصي بسيط يصف الوضعية، مثل "شخصية في وضعية القفز" أو "شخصية تحيي".
تجميع الطلبات المتعدّدة الوسائط: يتم بعد ذلك دمج تصنيف الوضعية هذا الذي تم إنشاؤه باستخدام Flash تلقائيًا مع طلب النص الوصفي الخاص بالمستخدم (مثل "روبوت في حقل من الزهور").
إنشاء الصور المشروط: أخيرًا، يتم إرسال طلب النص المدمج هذا إلى نموذج صور عالي الدقة يحافظ على الوضعية، وهو Gemini 2.5 Flash Image، بالإضافة إلى لقطة الشاشة الأصلية للوضعية الثلاثية الأبعاد. يؤدي هذا الطلب المتعدّد الوسائط، الذي يتضمّن كلاً من صورة الوضع والوصف النصي المفصّل، إلى توجيه نموذج Gemini 2.5 Flash Image لإنشاء صورة تلتزم تمامًا بالوضع وزاوية الكاميرا، مع تطبيق النمط الفني والشخصية وتفاصيل المشهد من النص.

يتيح ربط النماذج هذا، أي استخدام 2.5 Flash للتحليل المرئي والتصنيف، و2.5 Flash Image للعرض النهائي المشروط، لـ Cartwheel تقديم سير عمل فريد يجمع بين التحكّم السهل في برامج التصميم الثلاثي الأبعاد والقوة الإبداعية للذكاء الاصطناعي التوليدي.

النتائج: الحفاظ على اتساق الشخصية من أي زاوية

وقد أثبتت هذه الطريقة فعاليتها في إنشاء صور كان من الصعب إنشاؤها في السابق. وأوضح "أندرو كار"، المؤسس المشارك لشركة Cartwheel، أنّ "عرض الشخصيات من أي زاوية غير الأمامية لم يكن ممكنًا في أي نموذج آخر". "ما إن أدرتُ الكاميرا حتى تفكّكت".

بما أنّ معظم نماذج الصور يتم تدريبها على بيانات تتضمّن بشكل كبير شخصيات من الأمام، فإنّها تواجه صعوبة في إنشاء تركيبات أقل شيوعًا، مثل اللقطات من زاوية مرتفعة أو المناظر من الخلف. من خلال توفير الوضعية كمدخل مرئي مباشر، تتجاوز أداة Cartwheel هذا الانحياز في بيانات التدريب، ما يسمح للفنان بإنشاء شخصيات متسقة من أي زاوية يختارها.

يؤدي سير العمل هذا إلى تسريع العملية الإبداعية بشكل كبير. يمكن الآن إنجاز مهمة كان من الممكن أن تتطلّب في السابق ساعات من الطلبات التكرارية أو التركيب اليدوي من قِبل فنّان ثلاثي الأبعاد في ثوانٍ معدودة.

الخطوة التالية: من الصور الثابتة إلى الفيديوهات التوليدية

تخطّط شركة Cartwheel حاليًا للخطوات التالية المتعلّقة بهذه التكنولوجيا. ويجرّب الفريق دمج مكتبة تضم 150,000 وضعية مصنّفة مسبقًا يمكن للمستخدمين البحث فيها وتحسينها، ما يؤدي إلى تسريع سير العمل بشكل أكبر.

تتمثّل الرؤية طويلة الأمد في توسيع نطاق مسار تحويل الوضعية إلى بكسل ليشمل الحركة. يمكن استخدام الوضعية الثلاثية الأبعاد والصورة المعروضة نفسها كإطار بداية لنموذج يحوّل الفيديو إلى فيديو، مثل Veo. سيسمح ذلك لصانع المحتوى بتحديد وضعية شخصية، وعرضها بأي نمط، ثم تحريكها باستخدام طلب نصي، ما يؤدي إلى إنشاء سير عمل سلس من تحديد وضعية ثلاثية الأبعاد إلى إنشاء صورة متحركة نهائية ذات نمط مميز.

من خلال الاستفادة من النماذج المتعدّدة الوسائط، مثل تلك المتوفرة في عائلة Gemini، توضّح أداة Cartwheel كيف يمكن للمطوّرين إنشاء أدوات متطورة تمنح الفنانين عناصر التحكّم والاتساق التي يحتاجون إليها، ما يحوّل الذكاء الاصطناعي التوليدي من أداة عشوائية إلى أداة تعكس النية الإبداعية بدقة.

ما وراء الطلبات النصية: كيف أنشأت Cartwheel صورًا ثلاثية الأبعاد تحاكي الوضعيات باستخدام Gemini Flash 2.5؟

التحدي: سدّ الفجوة بين النية والناتج

الحلّ: مسار معالجة متعدد النماذج لإنشاء صور تحافظ على الوضعيات

النتائج: الحفاظ على اتساق الشخصية من أي زاوية

الخطوة التالية: من الصور الثابتة إلى الفيديوهات التوليدية

دراسات الحالة ذات الصلة