सिर्फ़ टेक्स्ट प्रॉम्प्ट नहीं: Cartwheel ने Gemini Flash 2.5 की मदद से, पोज़ के हिसाब से 3D इमेज जनरेट करने की सुविधा कैसे बनाई

विशाल धर्माधिकारी

प्रॉडक्ट सॉल्यूशंस इंजीनियर

जोनाथन जार्विस

सीईओ

एंड्रयू कार

को-फ़ाउंडर और चीफ़ साइंटिस्ट

Cartwheel के बारे में जानकारी देने वाली हीरो इमेज

जनरेटिव मॉडल ने कलाकारों और डिज़ाइनरों के लिए नए अवसर पैदा किए हैं. हालांकि, प्रोफ़ेशनल क्रिएटर्स के लिए, किसी क्रिएटिव विज़न को जनरेट की गई इमेज में बदलना अब भी एक बड़ी चुनौती है. सिर्फ़ टेक्स्ट का इस्तेमाल करके प्रॉम्प्ट देने पर, अक्सर ऐसा लगता है कि "स्लॉट मशीन" का इस्तेमाल किया जा रहा है. इससे किसी किरदार के पोज़, कैमरे के ऐंगल, और कंपोज़िशन पर सटीक कंट्रोल पाना मुश्किल हो जाता है.

Cartwheel, एआई की मदद से 3D गेम और मीडिया बनाने का एक प्लैटफ़ॉर्म है. यह Google के ऐडवांस मॉडल के आधार पर एक नया समाधान तैयार करके इस समस्या को हल कर रहा है. इस मामले में, Gemini 2.5 Flash Image Nano Banana का इस्तेमाल किया जा रहा है. Cartwheel Studio में मौजूद "Pose Mode" सुविधा, सिर्फ़ टेक्स्ट से इमेज जनरेट करने से आगे बढ़कर, 3D-नेटिव कंट्रोल को शामिल करती है. इससे क्रिएटर्स को अपने आउटपुट पर सीधे तौर पर कंट्रोल मिलता है.

चुनौती: इंटेंट और आउटपुट के बीच के अंतर को कम करना

प्रोफ़ेशनल क्रिएटिव वर्कफ़्लो में, सटीक जानकारी होना ज़रूरी है. किसी कलाकार, विज्ञापन देने वाले व्यक्ति या कंपनी या गेम डिज़ाइनर को अक्सर किसी स्टोरीबोर्ड या कैंपेन की खास जानकारी के हिसाब से, किसी किरदार को किसी खास पोज़ में या किसी खास ऐंगल से बनाना पड़ता है.

कार्टव्हील के सह-संस्थापक, जॉनाथन जारविस ने कहा,"हाई लेवल पर, इमेज जनरेट करने वाले टूल को कंट्रोल करना मुश्किल होता है." "आपको जो विज़न हासिल करना है उसे हासिल करना मुश्किल है. हम हमेशा से ही चाहते थे कि आप सीधे तौर पर जाकर, किरदार में बदलाव कर सकें."

सीधे तौर पर बदलाव करने की इस ज़रूरत की वजह से, Cartwheel ने एक मल्टीमॉडल पाइपलाइन तैयार की है. इसमें 3D पोज़िंग, टेक्स्ट प्रॉम्प्टिंग, और कई एआई मॉडल को एक साथ काम करने के लिए इंटिग्रेट किया गया है.

समाधान: पोज़ के हिसाब से इमेज जनरेट करने के लिए, मल्टी-मॉडल पाइपलाइन

सिर्फ़ टेक्स्ट पर निर्भर रहने के बजाय, Cartwheel का Pose Mode, उपयोगकर्ता को 3D मैनकिन दिखाता है. उपयोगकर्ता, सीधे तौर पर मैनकिन के अंगों पर क्लिक करके उन्हें खींच सकता है, ताकि कोई खास पोज़ बनाया जा सके. साथ ही, वर्चुअल कैमरे को किसी भी ऐंगल पर अडजस्ट किया जा सकता है. इसके बाद, यह 3D सीन जनरेटिव प्रोसेस के लिए मुख्य इनपुट बन जाता है.

तकनीकी वर्कफ़्लो इस तरह है:

Gemini 2.5 Flash की मदद से, पोज़ को लेबल करना. सबसे पहले, पोज़ में खड़े 3D मैनकिन का स्क्रीनशॉट Gemini 2.5 Flash को भेजा जाता है. Cartwheel इस चरण के लिए 2.5 Flash का इस्तेमाल करता है, क्योंकि इसकी स्पीड रीयल-टाइम क्रिएटिव टूल की कम-लेटेंसी की ज़रूरत के लिए सही है. मॉडल का काम, पोज़ के बारे में बताने वाला एक सामान्य टेक्स्ट लेबल दिखाना है. जैसे, "कूदने की पोज़ में एक किरदार" या "सलाम करता हुआ एक किरदार."
मल्टीमोडल प्रॉम्प्ट असेंबली. इसके बाद, फ़्लैश से जनरेट किए गए इस 2.5D पोज़ लेबल को, उपयोगकर्ता के टेक्स्ट प्रॉम्प्ट के साथ अपने-आप जोड़ दिया जाता है. उदाहरण के लिए, "फूलों के खेत में एक रोबोट").
शर्तों के हिसाब से इमेज जनरेट करना. आखिर में, इस टेक्स्ट प्रॉम्प्ट को, इमेज जनरेट करने वाले बेहतरीन मॉडल, Gemini 2.5 Flash Image को भेजा जाता है. साथ ही, 3D पोज़ का ओरिजनल स्क्रीनशॉट भी भेजा जाता है. इस मल्टीमॉडल प्रॉम्प्ट में, पोज़ की इमेज और उसके बारे में पूरी जानकारी देने वाला टेक्स्ट, दोनों शामिल हैं. इससे Gemini 2.5 Flash Image को ऐसी इमेज जनरेट करने के लिए निर्देश मिलता है जो पोज़ और कैमरा ऐंगल के हिसाब से हो. साथ ही, टेक्स्ट में दी गई जानकारी के हिसाब से आर्टिस्टिक स्टाइल, किरदार, और सीन की जानकारी को इमेज में शामिल किया गया हो.

मॉडल की इस चेन में, विज़ुअल विश्लेषण और लेबलिंग के लिए 2.5 Flash का इस्तेमाल किया जाता है. साथ ही, फ़ाइनल और कंडीशन के हिसाब से रेंडरिंग के लिए 2.5 Flash Image का इस्तेमाल किया जाता है. इससे Cartwheel को एक यूनीक वर्कफ़्लो मिलता है. इसमें 3D सॉफ़्टवेयर के इस्तेमाल में आसान कंट्रोल को जनरेटिव एआई की क्रिएटिव पावर के साथ जोड़ा जाता है.

नतीजे: किसी भी ऐंगल से किरदार की एक जैसी इमेज जनरेट करना

इस तरीके से, ऐसी इमेज जनरेट की जा सकती हैं जिन्हें पहले बनाना मुश्किल था. Cartwheel के सह-संस्थापक, ऐंड्रयू कार ने कहा, "किसी भी मॉडल में, सामने के अलावा किसी और ऐंगल से वर्ण रेंडर करने की सुविधा काम नहीं करती थी." "कैमरे को घुमाते ही, वह टूट गया."

ज़्यादातर इमेज मॉडल को ऐसे डेटा पर ट्रेन किया जाता है जिसमें सामने से लिए गए किरदार शामिल होते हैं. इसलिए, वे कम इस्तेमाल होने वाली कंपोज़िशन नहीं बना पाते. जैसे, ऊपर से लिए गए शॉट या पीछे से लिए गए व्यू. पोज़ को सीधे तौर पर विज़ुअल इनपुट के तौर पर इस्तेमाल करने से, Cartwheel का टूल ट्रेनिंग डेटा के इस पूर्वाग्रह को नज़रअंदाज़ कर देता है. इससे कलाकार, अपनी पसंद के किसी भी ऐंगल से एक जैसे किरदार जनरेट कर सकता है.

इस वर्कफ़्लो से, क्रिएटिव प्रोसेस को काफ़ी तेज़ी से पूरा किया जा सकता है. पहले, किसी 3D आर्टिस्ट को किसी टास्क को पूरा करने के लिए, घंटों तक बार-बार प्रॉम्प्ट देना पड़ता था या मैन्युअल कंपोज़िटिंग करनी पड़ती थी. अब इस टास्क को कुछ ही सेकंड में पूरा किया जा सकता है.

आगे क्या है: स्टैटिक इमेज से जनरेटिव वीडियो तक

Cartwheel, इस टेक्नोलॉजी के लिए अगले चरणों की योजना पहले ही बना रहा है. टीम, पहले से कैटगरी में बांटी गई 1,50,000 पोज़ की लाइब्रेरी को इंटिग्रेट करने पर काम कर रही है. इससे उपयोगकर्ता, पोज़ को खोज और बेहतर बना सकेंगे. साथ ही, इससे वर्कफ़्लो को और भी तेज़ किया जा सकेगा.

हमारा लक्ष्य, पोज़ से पिक्सेल तक के इस पाइपलाइन को मोशन में बदलना है. एक ही 3D पोज़ और रेंडर की गई इमेज को, वीडियो-टू-वीडियो मॉडल के लिए शुरुआती फ़्रेम के तौर पर इस्तेमाल किया जा सकता है. जैसे, Veo. इससे क्रिएटर को किसी किरदार को पोज़ देने, उसे किसी भी स्टाइल में रेंडर करने, और फिर टेक्स्ट प्रॉम्प्ट का इस्तेमाल करके उसे ऐनिमेट करने की सुविधा मिलेगी. इससे 3D पोज़िंग से लेकर फ़ाइनल, स्टाइल वाले ऐनिमेशन तक का वर्कफ़्लो आसान हो जाएगा.

Cartwheel, Gemini फ़ैमिली के मल्टीमॉडल मॉडल पर आधारित है. यह दिखाता है कि डेवलपर, कलाकारों के लिए ऐसे बेहतरीन टूल कैसे बना सकते हैं जो उन्हें ज़रूरी कंट्रोल और एक जैसा अनुभव दें. इससे जनरेटिव एआई, सिर्फ़ एक टूल से बदलकर क्रिएटिविटी के लिए सटीक टूल बन जाता है.

सिर्फ़ टेक्स्ट प्रॉम्प्ट नहीं: Cartwheel ने Gemini Flash 2.5 की मदद से, पोज़ के हिसाब से 3D इमेज जनरेट करने की सुविधा कैसे बनाई

चुनौती: इंटेंट और आउटपुट के बीच के अंतर को कम करना

समाधान: पोज़ के हिसाब से इमेज जनरेट करने के लिए, मल्टी-मॉडल पाइपलाइन

नतीजे: किसी भी ऐंगल से किरदार की एक जैसी इमेज जनरेट करना

आगे क्या है: स्टैटिक इमेज से जनरेटिव वीडियो तक

मिलती-जुलती केस स्टडी