शेयर करें

3 नवंबर, 2025

सिर्फ़ टेक्स्ट प्रॉम्प्ट नहीं: Cartwheel ने Gemini Flash 2.5 की मदद से, पोज़ के हिसाब से 3D इमेज जनरेट करने की सुविधा कैसे बनाई

विशाल धर्माधिकारी

प्रॉडक्ट सॉल्यूशंस इंजीनियर

जोनाथन जार्विस

सीईओ

एंड्रयू कार

को-फ़ाउंडर और चीफ़ साइंटिस्ट

Cartwheel के बारे में जानकारी देने वाली हीरो इमेज

जनरेटिव मॉडल ने कलाकारों और डिज़ाइनरों के लिए नए अवसर पैदा किए हैं. हालांकि, प्रोफ़ेशनल क्रिएटर्स के लिए, किसी क्रिएटिव विज़न को जनरेट की गई इमेज में बदलना अब भी एक बड़ी चुनौती है. सिर्फ़ टेक्स्ट का इस्तेमाल करके प्रॉम्प्ट देने पर, अक्सर ऐसा लगता है कि "स्लॉट मशीन" का इस्तेमाल किया जा रहा है. इससे किसी किरदार के पोज़, कैमरे के ऐंगल, और कंपोज़िशन पर सटीक कंट्रोल पाना मुश्किल हो जाता है.

Cartwheel, एआई की मदद से 3D गेम और मीडिया बनाने का एक प्लैटफ़ॉर्म है. यह Google के ऐडवांस मॉडल के आधार पर एक नया समाधान तैयार करके इस समस्या को हल कर रहा है. इस मामले में, Gemini 2.5 Flash Image Nano Banana का इस्तेमाल किया जा रहा है. Cartwheel Studio में मौजूद "Pose Mode" सुविधा, सिर्फ़ टेक्स्ट से इमेज जनरेट करने की सुविधा से आगे बढ़कर, 3D-नेटिव कंट्रोल को शामिल करती है. इससे क्रिएटर्स को अपने आउटपुट पर सीधे तौर पर कंट्रोल मिलता है.

कार्टव्हील पोज़

चुनौती: इंटेंट और आउटपुट के बीच के अंतर को कम करना

प्रोफ़ेशनल क्रिएटिव वर्कफ़्लो में, सटीक जानकारी होना ज़रूरी है. किसी कलाकार, विज्ञापन देने वाले व्यक्ति या कंपनी या गेम डिज़ाइनर को अक्सर किसी स्टोरीबोर्ड या कैंपेन की खास जानकारी के हिसाब से, किसी किरदार को किसी खास पोज़ में या किसी खास ऐंगल से बनाना होता है.

कार्टव्हील के सह-संस्थापक, जॉनाथन जार्विस ने कहा, "इमेज जनरेट करने वाले टूल को कंट्रोल करना मुश्किल होता है." "आपके पास जो विज़न है उसे हासिल करना मुश्किल है. हम हमेशा से ही आपको सीधे तौर पर कैरेक्टर में बदलाव करने की सुविधा देना चाहते थे."

सीधे तौर पर बदलाव करने की इस ज़रूरत को पूरा करने के लिए, Cartwheel ने एक मल्टीमॉडल पाइपलाइन तैयार की है. इसमें 3D पोज़िंग, टेक्स्ट प्रॉम्प्टिंग, और कई एआई मॉडल को एक साथ काम करने के लिए इंटिग्रेट किया गया है.

समाधान: पोज़ के हिसाब से इमेज जनरेट करने के लिए, मल्टी-मॉडल पाइपलाइन

सिर्फ़ टेक्स्ट पर निर्भर रहने के बजाय, Cartwheel का पोज़ मोड, उपयोगकर्ता को 3D मैनकिन दिखाता है. उपयोगकर्ता, सीधे तौर पर मैनकिन के अंगों पर क्लिक करके उन्हें खींच सकता है. इससे वह मैनकिन को कोई खास पोज़ दे सकता है. साथ ही, वर्चुअल कैमरे को किसी भी ऐंगल पर अडजस्ट कर सकता है. इसके बाद, यह 3D सीन जनरेटिव प्रोसेस के लिए मुख्य इनपुट बन जाता है.

तकनीकी वर्कफ़्लो इस तरह है:

  1. Gemini 2.5 Flash की मदद से, इमेज में मौजूद लोगों के पोज़ को लेबल करना. सबसे पहले, पोज़ में खड़े 3D मैनकिन का स्क्रीनशॉट Gemini 2.5 Flash को भेजा जाता है. Cartwheel इस चरण के लिए 2.5 Flash का इस्तेमाल करता है, क्योंकि इसकी स्पीड रीयल-टाइम क्रिएटिव टूल की कम-लेटेंसी की ज़रूरत के लिए सही है. मॉडल का काम, पोज़ के बारे में बताने वाला एक सामान्य टेक्स्ट लेबल दिखाना है. जैसे, "कूदने की पोज़ में एक किरदार" या "सलाम करता हुआ एक किरदार."
  2. मल्टीमोडल प्रॉम्प्ट असेंबली. इसके बाद, फ़्लैश से जनरेट किए गए इस 2.5 पोज़ लेबल को, उपयोगकर्ता के दिए गए टेक्स्ट प्रॉम्प्ट (जैसे, "फूलों के खेत में एक रोबोट").
  3. शर्तों के हिसाब से इमेज जनरेट करना. आखिर में, इस टेक्स्ट प्रॉम्प्ट को, पोज़ के हिसाब से सटीक इमेज जनरेट करने वाले मॉडल, Gemini 2.5 Flash Image को भेजा जाता है. साथ ही, 3D पोज़ का ओरिजनल स्क्रीनशॉट भी भेजा जाता है. इस मल्टीमॉडल प्रॉम्प्ट में, पोज़ की इमेज और उसके बारे में पूरी जानकारी देने वाला टेक्स्ट, दोनों शामिल हैं. इससे Gemini 2.5 Flash Image को ऐसी इमेज जनरेट करने के लिए कहा गया है जो पोज़ और कैमरा ऐंगल के हिसाब से हो. साथ ही, टेक्स्ट में दी गई जानकारी के हिसाब से आर्टिस्टिक स्टाइल, किरदार, और सीन की जानकारी को भी शामिल किया गया हो.


मॉडल की इस चेन में, विज़ुअल विश्लेषण और लेबलिंग के लिए 2.5 Flash का इस्तेमाल किया जाता है. साथ ही, फ़ाइनल और कंडीशन के हिसाब से रेंडरिंग के लिए 2.5 Flash Image का इस्तेमाल किया जाता है. इससे Cartwheel को एक ऐसा यूनीक वर्कफ़्लो मिलता है जिसमें 3D सॉफ़्टवेयर के इस्तेमाल में आसानी और जनरेटिव एआई की क्रिएटिविटी को एक साथ इस्तेमाल किया जा सकता है.

नतीजे: किसी भी ऐंगल से किरदार की एक जैसी इमेज जनरेट करना

इस तरीके से, ऐसी इमेज जनरेट की जा सकती हैं जिन्हें पहले बनाना मुश्किल था. Cartwheel के सह-संस्थापक, ऐंड्रयू कार ने कहा, "किसी भी मॉडल में, सामने के अलावा किसी और ऐंगल से वर्णों को रेंडर करने की सुविधा काम नहीं करती थी." "कैमरे को घुमाते ही, वह टूट गया."

ज़्यादातर इमेज मॉडल को ऐसे डेटा पर ट्रेन किया जाता है जिसमें सामने से लिए गए कैरेक्टर की इमेज होती हैं. इसलिए, वे कम इस्तेमाल होने वाली कंपोज़िशन नहीं बना पाते. जैसे, ऊपर से लिए गए शॉट या पीछे से लिए गए व्यू. Cartwheel का टूल, पोज़ को सीधे तौर पर विज़ुअल इनपुट के तौर पर इस्तेमाल करता है. इससे, ट्रेनिंग के लिए इस्तेमाल किए गए डेटा में मौजूद पूर्वाग्रह से बचा जा सकता है. साथ ही, कलाकार को अपनी पसंद के किसी भी ऐंगल से एक जैसे किरदार जनरेट करने की सुविधा मिलती है.

इस वर्कफ़्लो से, क्रिएटिव प्रोसेस को काफ़ी हद तक तेज़ किया जा सकता है. पहले, किसी 3D आर्टिस्ट को किसी टास्क को पूरा करने के लिए, कई घंटों तक बार-बार प्रॉम्प्ट देने पड़ते थे या मैन्युअल कंपोज़िटिंग करनी पड़ती थी. अब इस टास्क को कुछ ही सेकंड में पूरा किया जा सकता है.

आगे क्या है: स्टैटिक इमेज से जनरेटिव वीडियो तक

Cartwheel, इस टेक्नोलॉजी के लिए अगले चरणों की योजना पहले ही बना रहा है. टीम, पहले से कैटगरी में बांटी गई 1,50,000 पोज़ की लाइब्रेरी को इंटिग्रेट करने पर काम कर रही है. इससे उपयोगकर्ता, पोज़ को खोज और बेहतर बना सकेंगे. साथ ही, इससे वर्कफ़्लो को और भी तेज़ किया जा सकेगा.

हमारा लक्ष्य, पोज़ से पिक्सेल तक के इस पाइपलाइन को मोशन में बदलना है. एक ही 3D पोज़ और रेंडर की गई इमेज को, वीडियो-टू-वीडियो मॉडल के लिए शुरुआती फ़्रेम के तौर पर इस्तेमाल किया जा सकता है. जैसे, Veo. इससे क्रिएटर को किसी किरदार को पोज़ देने, उसे किसी भी स्टाइल में रेंडर करने, और फिर टेक्स्ट प्रॉम्प्ट का इस्तेमाल करके उसे ऐनिमेट करने की सुविधा मिलेगी. इससे 3D पोज़िंग से लेकर फ़ाइनल, स्टाइल वाले ऐनिमेशन तक एक आसान वर्कफ़्लो तैयार होगा.

Cartwheel, Gemini फ़ैमिली के मल्टीमॉडल जैसे मॉडल पर आधारित है. यह दिखाता है कि डेवलपर, कलाकारों के लिए ऐसे बेहतर टूल कैसे बना सकते हैं जो उन्हें ज़रूरी कंट्रोल और एकरूपता दे सकें. इससे जनरेटिव एआई, सिर्फ़ एक टूल से बदलकर, क्रिएटिविटी के लिए सटीक टूल बन जाता है.