3 नवंबर, 2025
सिर्फ़ टेक्स्ट प्रॉम्प्ट नहीं: Cartwheel ने Gemini Flash 2.5 की मदद से, पोज़ के हिसाब से 3D इमेज जनरेट करने की सुविधा कैसे बनाई
जनरेटिव मॉडल ने कलाकारों और डिज़ाइनरों के लिए नए अवसर पैदा किए हैं. हालांकि, प्रोफ़ेशनल क्रिएटर्स के लिए, किसी क्रिएटिव विज़न को जनरेट की गई इमेज में बदलना अब भी एक बड़ी चुनौती है. सिर्फ़ टेक्स्ट का इस्तेमाल करके प्रॉम्प्ट देने पर, अक्सर ऐसा लगता है कि "स्लॉट मशीन" का इस्तेमाल किया जा रहा है. इससे किसी किरदार के पोज़, कैमरे के ऐंगल, और कंपोज़िशन पर सटीक कंट्रोल पाना मुश्किल हो जाता है.
Cartwheel, एआई की मदद से 3D गेम और मीडिया बनाने का एक प्लैटफ़ॉर्म है. यह Google के ऐडवांस मॉडल के आधार पर एक नया समाधान तैयार करके, इस समस्या को हल कर रहा है. इस मामले में, Gemini 2.5 Flash Image Nano Banana का इस्तेमाल किया जा रहा है. Cartwheel Studio में मौजूद "Pose Mode" सुविधा, सिर्फ़ टेक्स्ट से इमेज जनरेट करने से आगे बढ़कर, 3D-नेटिव कंट्रोल को शामिल करती है. इससे क्रिएटर्स को अपने आउटपुट पर सीधे तौर पर कंट्रोल मिलता है.
चुनौती: इंटेंट और आउटपुट के बीच के अंतर को कम करना
प्रोफ़ेशनल क्रिएटिव वर्कफ़्लो में, सटीक जानकारी होना ज़रूरी है. किसी कलाकार, विज्ञापन देने वाले व्यक्ति या कंपनी या गेम डिज़ाइनर को अक्सर किसी स्टोरीबोर्ड या कैंपेन की खास जानकारी के हिसाब से, किसी किरदार को किसी खास पोज़ में या किसी खास ऐंगल से बनाना पड़ता है.
कार्टव्हील के सह-संस्थापक, जॉनाथन जार्विस ने कहा, "इमेज जनरेट करने वाले टूल को कंट्रोल करना मुश्किल होता है." "आपको जो विज़न हासिल करना है उसे पाना मुश्किल है. हम हमेशा से ही आपको सीधे तौर पर कैरेक्टर में बदलाव करने की सुविधा देना चाहते थे."
सीधे तौर पर बदलाव करने की इस ज़रूरत को पूरा करने के लिए, Cartwheel ने एक मल्टीमॉडल पाइपलाइन तैयार की है. इसमें 3D पोज़िंग, टेक्स्ट प्रॉम्प्टिंग, और कई एआई मॉडल को एक साथ काम करने के लिए इंटिग्रेट किया गया है.
समाधान: पोज़ के हिसाब से इमेज जनरेट करने के लिए, मल्टी-मॉडल पाइपलाइन
सिर्फ़ टेक्स्ट पर भरोसा करने के बजाय, Cartwheel का पोज़ मोड, उपयोगकर्ता को 3D मैनकिन दिखाता है. उपयोगकर्ता, सीधे तौर पर मैनकिन के अंगों पर क्लिक करके उन्हें खींच सकता है, ताकि कोई खास पोज़ बनाया जा सके. साथ ही, वर्चुअल कैमरे को किसी भी ऐंगल पर अडजस्ट किया जा सकता है. इसके बाद, यह 3D सीन जनरेटिव प्रोसेस के लिए मुख्य इनपुट बन जाता है.
तकनीकी वर्कफ़्लो इस तरह है:
- Gemini 2.5 Flash की मदद से, इमेज में मौजूद लोगों के पोज़ को लेबल करना. सबसे पहले, पोज़ में खड़े 3D मैनकिन का स्क्रीनशॉट Gemini 2.5 Flash को भेजा जाता है. Cartwheel इस चरण के लिए 2.5 Flash का इस्तेमाल करता है, क्योंकि इसकी स्पीड रीयल-टाइम क्रिएटिव टूल की कम-लेटेंसी की ज़रूरत के लिए सही है. मॉडल का काम, पोज़ के बारे में बताने वाला एक सामान्य टेक्स्ट लेबल दिखाना है. जैसे, "कूदने की पोज़ में एक किरदार" या "सलाम करता हुआ एक किरदार."
- मल्टीमोडल प्रॉम्प्ट असेंबली. इसके बाद, फ़्लैश से जनरेट किए गए इस 2.5 पोज़ लेबल को, उपयोगकर्ता के दिए गए टेक्स्ट प्रॉम्प्ट (जैसे, "फूलों के खेत में एक रोबोट").
- शर्तों के हिसाब से इमेज जनरेट करना. आखिर में, इस टेक्स्ट प्रॉम्प्ट को Gemini 2.5 Flash Image के इमेज मॉडल को भेजा जाता है. यह मॉडल, पोज़ के हिसाब से सटीक इमेज जनरेट करता है. साथ ही, 3D पोज़ का ओरिजनल स्क्रीनशॉट भी भेजा जाता है. इस मल्टीमॉडल प्रॉम्प्ट में, पोज़ की इमेज और टेक्स्ट में दी गई पूरी जानकारी शामिल है. इससे Gemini 2.5 Flash Image को ऐसी इमेज जनरेट करने में मदद मिलती है जो पोज़ और कैमरे के ऐंगल के हिसाब से हो. साथ ही, टेक्स्ट में दी गई आर्ट स्टाइल, किरदार, और सीन की जानकारी को भी इमेज में शामिल किया जा सके.
मॉडल की इस चेनिंग की मदद से, Cartwheel एक यूनीक वर्कफ़्लो उपलब्ध कराता है. इसमें विज़ुअल विश्लेषण और लेबलिंग के लिए 2.5 Flash का इस्तेमाल किया जाता है. साथ ही, फ़ाइनल और कंडीशन के हिसाब से रेंडरिंग के लिए 2.5 Flash Image का इस्तेमाल किया जाता है. इससे 3D सॉफ़्टवेयर के आसान कंट्रोल को जनरेटिव एआई की क्रिएटिव पावर के साथ जोड़ा जा सकता है. नतीजे: किसी भी ऐंगल से एक जैसी इमेज जनरेट करना यह तरीका, ऐसी इमेज जनरेट करने में कारगर साबित हुआ है जिन्हें पहले बनाना मुश्किल था. Cartwheel के सह-संस्थापक, ऐंड्रयू कार ने कहा, "किसी भी ऐंगल से वर्णों को रेंडर करने की सुविधा, किसी अन्य मॉडल में काम नहीं करती थी." "कैमरे को घुमाते ही, वह टूट गया."
ज़्यादातर इमेज मॉडल को ऐसे डेटा पर ट्रेन किया जाता है जिसमें सामने से लिए गए किरदार शामिल होते हैं. इसलिए, वे कम इस्तेमाल होने वाली कंपोज़िशन नहीं बना पाते. जैसे, ऊपर से लिए गए शॉट या पीछे से लिए गए व्यू. पोज़ को सीधे तौर पर विज़ुअल इनपुट के तौर पर इस्तेमाल करने से, Cartwheel का टूल ट्रेनिंग डेटा के इस पूर्वाग्रह को नज़रअंदाज़ कर देता है. इससे कलाकार, अपनी पसंद के किसी भी ऐंगल से एक जैसे किरदार जनरेट कर सकता है.
इस वर्कफ़्लो से, क्रिएटिव प्रोसेस को काफ़ी तेज़ी से पूरा किया जा सकता है. पहले, किसी 3D आर्टिस्ट को किसी टास्क को पूरा करने के लिए, घंटों तक बार-बार प्रॉम्प्ट देना पड़ता था या मैन्युअल कंपोज़िटिंग करनी पड़ती थी. अब इस टास्क को कुछ ही सेकंड में पूरा किया जा सकता है.
आगे क्या है: स्टैटिक इमेज से जनरेटिव वीडियो तक
Cartwheel, इस टेक्नोलॉजी के लिए अगले चरणों की योजना पहले ही बना रहा है. टीम, पहले से कैटगरी में बांटी गई 1,50,000 पोज़ की लाइब्रेरी को इंटिग्रेट करने पर काम कर रही है. इससे उपयोगकर्ता, पोज़ को खोज और बेहतर बना सकेंगे. साथ ही, इससे वर्कफ़्लो को और भी तेज़ किया जा सकेगा.
हमारा लक्ष्य, पोज़ से पिक्सेल तक के इस पाइपलाइन को मोशन में बदलना है. एक ही 3D पोज़ और रेंडर की गई इमेज को, वीडियो-टू-वीडियो मॉडल के लिए शुरुआती फ़्रेम के तौर पर इस्तेमाल किया जा सकता है. जैसे, Veo. इससे कोई क्रिएटर, किसी किरदार को पोज़ दे पाएगा, उसे किसी भी स्टाइल में रेंडर कर पाएगा, और फिर टेक्स्ट प्रॉम्प्ट का इस्तेमाल करके उसे ऐनिमेट कर पाएगा. इससे 3D पोज़िंग से लेकर फ़ाइनल, स्टाइल वाले ऐनिमेशन तक का वर्कफ़्लो आसानी से पूरा किया जा सकेगा.
Cartwheel, Gemini फ़ैमिली के मल्टीमॉडल मॉडल पर आधारित है. यह दिखाता है कि डेवलपर, कलाकारों के लिए ऐसे बेहतर टूल कैसे बना सकते हैं जो उन्हें ज़रूरी कंट्रोल और एक जैसा अनुभव दें. इससे जनरेटिव एआई, सिर्फ़ एक टूल से बदलकर, क्रिएटिविटी के लिए सटीक टूल बन जाता है.