3 نوفمبر 2025
ما وراء الطلبات النصية: كيف أنشأت Cartwheel صورًا ثلاثية الأبعاد دقيقة باستخدام Gemini Flash 2.5؟
أتاحت النماذج التوليدية إمكانيات جديدة للفنانين والمصمّمين. ومع ذلك، يظلّ تحويل رؤية إبداعية محدّدة إلى صورة من إنشاء الذكاء الاصطناعي تحديًا كبيرًا بالنسبة إلى صنّاع المحتوى المحترفين. يمكن أن يبدو إنشاء الصور باستخدام النصوص فقط وكأنّه "ماكينة قمار"، ما يصعّب التحكّم بدقة في وضعية الشخصية وزاوية الكاميرا والتكوين.
تعمل منصة Cartwheel على حلّ هذه المشكلة من خلال إنشاء حلّ جديد يستند إلى نماذج Google المتقدّمة، وتحديدًا Gemini 2.5 Flash Image Nano Banana، وهي منصة لإنشاء ألعاب ووسائط ثلاثية الأبعاد باستخدام الذكاء الاصطناعي. تتجاوز ميزة "وضعيات التصوير" في Cartwheel Studio عملية إنشاء الصور من النصوص البسيطة من خلال دمج عناصر تحكّم ثلاثية الأبعاد، ما يمنح صنّاع المحتوى تحكّمًا مباشرًا وتكراريًا في المحتوى الذي ينشئونه.
التحدي: سد الفجوة بين النية والناتج
في مهام سير العمل الإبداعية الاحترافية، الدقة أمر ضروري. يحتاج الفنان أو المعلِن أو مصمّم الألعاب غالبًا إلى إنشاء شخصية في وضعية معيّنة أو من زاوية معيّنة لتناسب لوحة عرض قصصية أو موجز حملة.
"بشكل عام، كان من الصعب التحكّم في أدوات إنشاء الصور"، هذا ما قاله "جوناثان جارفيس"، المؤسس المشارك لشركة Cartwheel. "من الصعب تحقيق رؤية حقيقية. أردنا دائمًا أن نتيح لك الدخول والتلاعب بالشخصية مباشرةً".
أدّى هذا الشرط المتعلق بالتلاعب المباشر إلى تطوير Cartwheel لخطوات متعددة الوسائط تدمج بين إنشاء وضعيات ثلاثية الأبعاد وطلبات نصية ونماذج متعددة من الذكاء الاصطناعي للعمل معًا.
الحلّ: مسار متعدد النماذج لإنشاء صور تحافظ على الوضعيات
بدلاً من الاعتماد على النص فقط، يقدّم "وضع الوضعية" في Cartwheel للمستخدم دمية عرض ثلاثية الأبعاد. يمكن للمستخدم النقر مباشرةً على أطراف عارضة الأزياء وسحبها لإنشاء وضعية معيّنة وتعديل الكاميرا الافتراضية على أي زاوية. يصبح مشهد الأبعاد الثلاثية هذا بعد ذلك إدخالاً أساسيًا في عملية الإنشاء.
في ما يلي خطوات سير العمل الفني:
- تصنيف الوضعيات باستخدام Gemini 2.5 Flash أولاً، يتم إرسال لقطة شاشة لعارضة أزياء ثلاثية الأبعاد إلى Gemini 2.5 Flash. تستخدم أداة Cartwheel نموذج 2.5 Flash في هذه الخطوة، لأنّ سرعته مثالية لمتطلبات وقت الاستجابة المنخفض التي تتطلّبها أداة إبداعية في الوقت الفعلي. مهمة النموذج هي عرض تصنيف نصي بسيط يصف الوضعية، مثل "شخصية في وضعية القفز" أو "شخصية تحيي".
- تجميع الطلبات المتعدّدة الوسائط: يتم بعد ذلك دمج تصنيف الوضعية هذا الذي تم إنشاؤه باستخدام Flash تلقائيًا مع طلب النص الوصفي الخاص بالمستخدم (مثل "روبوت في حقل من الأزهار").
- إنشاء الصور المشروطة: أخيرًا، يتم إرسال طلب النص المدمج هذا إلى نموذج صور عالي الدقة يحافظ على الوضعية، وهو Gemini 2.5 Flash Image، بالإضافة إلى لقطة الشاشة الأصلية للوضعية الثلاثية الأبعاد. يؤدي هذا الطلب المتعدّد الوسائط، الذي يتضمّن صورة الوضعية والوصف النصي المفصّل، إلى توجيه نموذج Gemini 2.5 Flash Image لإنشاء صورة تلتزم تمامًا بالوضعية وزاوية الكاميرا، مع تطبيق النمط الفني والشخصية وتفاصيل المشهد من النص.
يتيح ربط النماذج هذا، أي استخدام 2.5 Flash للتحليل المرئي والتصنيف، و2.5 Flash Image للعرض النهائي المشروط، لـ Cartwheel تقديم سير عمل فريد يجمع بين التحكّم السهل في برامج التصميم الثلاثي الأبعاد والقوة الإبداعية للذكاء الاصطناعي التوليدي. النتائج: الحفاظ على اتساق الشخصية من أي زاوية لقد أثبتت هذه الطريقة فعاليتها في إنشاء صور كان من الصعب إنشاؤها في السابق. وأوضح "أندرو كار"، المؤسس المشارك لشركة Cartwheel، أنّ "عرض الشخصيات من أي زاوية غير الأمامية لم يكن ممكنًا في أي نموذج آخر". "ما إن أدرتُ الكاميرا حتى تفكّكت".
بما أنّ معظم نماذج الصور مدرَّبة على بيانات تعرض الشخصيات بشكل أساسي من الأمام، فإنّها تواجه صعوبة في إنشاء تركيبات أقل شيوعًا، مثل اللقطات من زاوية مرتفعة أو المناظر من الخلف. من خلال توفير الوضعية كإدخال مرئي مباشر، تتجاوز أداة Cartwheel هذا الانحياز في بيانات التدريب، ما يسمح للفنان بإنشاء شخصيات متسقة من أي زاوية يختارها.
يؤدي سير العمل هذا إلى تسريع العملية الإبداعية بشكل كبير. يمكن الآن إنجاز مهمة كان من الممكن أن تتطلّب في السابق ساعات من الطلبات التكرارية أو التركيب اليدوي من قِبل فنّان ثلاثي الأبعاد في ثوانٍ.
الخطوة التالية: من الصور الثابتة إلى الفيديوهات التوليدية
تخطّط شركة Cartwheel حاليًا للخطوات التالية بشأن هذه التكنولوجيا. ويختبر الفريق حاليًا إمكانية دمج مكتبة تضم 150,000 وضعية مصنّفة مسبقًا يمكن للمستخدمين البحث فيها وتحسينها، ما يؤدي إلى تسريع سير العمل بشكل أكبر.
تتمثّل الرؤية طويلة الأمد في توسيع نطاق مسار تحويل الوضعية إلى بكسل ليشمل الحركة. يمكن استخدام الوضعية الثلاثية الأبعاد والصورة المعروضة نفسها كإطار بداية لنموذج يحوّل الفيديوهات إلى فيديوهات، مثل Veo. سيسمح ذلك لصانع المحتوى بتحديد وضعية شخصية، وعرضها بأي نمط، ثم تحريكها باستخدام طلب نصي، ما يؤدي إلى إنشاء سير عمل سلس من تحديد وضعية ثلاثية الأبعاد إلى إنشاء صورة متحركة نهائية ذات نمط مميز.
من خلال الاستفادة من النماذج المتعدّدة الوسائط، مثل تلك المتوفّرة في عائلة Gemini، توضّح أداة Cartwheel كيف يمكن للمطوّرين إنشاء أدوات متطوّرة تمنح الفنانين عناصر التحكّم والاتساق اللازمَين، ما يحوّل الذكاء الاصطناعي التوليدي من أداة عشوائية إلى أداة تعكس النية الإبداعية بدقة.