12 दिसंबर, 2025
Toongether, Gemini 2.5 Flash Image का इस्तेमाल करके, आर्ट स्टाइल को एक जैसा रखता है
जनरेटिव एआई के विकास ने क्रिएटिविटी के नए रास्ते खोल दिए हैं. इससे डेवलपर ऐसे टूल बना सकते हैं जो सामान्य उपयोगकर्ताओं को कलाकारों में बदल सकते हैं. हालांकि, कॉमिक्स जैसी सीक्वेंशियल आर्ट के लिए, सिर्फ़ एक अच्छी इमेज जनरेट करना काफ़ी नहीं है. इसमें कई पैनल में एक जैसे किरदार, स्टाइल, और कहानी जनरेट करना भी शामिल है.
वेबकॉमिक ऐप्लिकेशन बनाने वाली कंपनी Toongether, इस समस्या को हल करने की कोशिश कर रही है. इनका मकसद, विज़ुअल स्टोरीटेलिंग को सभी के लिए उपलब्ध कराना है. इसके लिए, यह एक ऐसा प्लैटफ़ॉर्म उपलब्ध कराता है जहां सामान्य उपयोगकर्ता न सिर्फ़ कॉमिक पढ़ सकते हैं, बल्कि अपने फ़ोन या टैबलेट से सीधे तौर पर कॉमिक बना और शेयर भी कर सकते हैं. Gemini 2.5 Flash Image को अपनी क्रिएशन पाइपलाइन में इंटिग्रेट करके, वे उपयोगकर्ताओं को ड्रॉइंग से जुड़ी तकनीकी समस्याओं को हल करने में मदद कर रहे हैं. इससे, कहानीकारों की एक नई कम्यूनिटी को साथ मिलकर काम करने का मौका मिल रहा है.
बड़े पैमाने पर एक जैसा अनुभव देना
कॉमिक बनाने के लिए, लगातार काम करना ज़रूरी है. अलग-अलग पोज़, कपड़ों, और चेहरे के भावों में भी किरदार की पहचान बनी रहनी चाहिए. साथ ही, सभी किरदार एक ही तरह के आर्ट स्टाइल में होने चाहिए.
शुरुआत में, Toongether की टीम ने एक जटिल स्टैक का इस्तेमाल किया. इसमें फ़ाइन-ट्यून किया गया Stable Diffusion XL मॉडल शामिल था. इसे ControlNet और IPAdapters जैसे टूल की मदद से बेहतर बनाया गया था. इससे अच्छी क्वालिटी के नतीजे मिले, लेकिन इसमें लेटेन्सी और फ़्लेक्सिबिलिटी से जुड़ी समस्याएं थीं. ये समस्याएं, मोबाइल ऐप्लिकेशन बनाने वालों के लिए बड़ी रुकावटें थीं. एक इमेज जनरेट करने में 20 से 30 सेकंड लगे. यह समय, उपयोगकर्ता को बेहतर अनुभव देने के लिए बहुत ज़्यादा है. इसके अलावा, नई पोज़ या ड्रॉइंग स्टाइल के लिए सहायता जोड़ने के लिए, इंजीनियरिंग टीम को काफ़ी मेहनत करनी पड़ी. इससे, इन सुविधाओं को तेज़ी से दोहराने की उनकी क्षमता सीमित हो गई.
Gemini की मदद से मुश्किल पाइपलाइन को मैनेज करना
इन समस्याओं को हल करने के लिए, toongether ने इमेज जनरेट करने वाली अपनी मुख्य पाइपलाइन को Gemini API पर माइग्रेट किया. उन्होंने Gemini 2.5 Flash Image को चुना. इसे “Nano Banana” भी कहा जाता है. यह इमेज जनरेट करने और उनमें बदलाव करने का बेहतरीन टूल है. यह जटिल और कई चरणों वाले टास्क को पूरा करने के लिए, बेहतर एडिटिंग और निर्देशों का पालन करने की सुविधा देता है.
इस ट्रांज़िशन की वजह से, उनकी डेवलपमेंट वेलोसिटी में काफ़ी तेज़ी आई. टीम ने सिर्फ़ दो हफ़्तों में प्रोटोटाइप से लेकर प्रोडक्शन तक का काम पूरा कर लिया.
उपयोगकर्ताओं को अपनी पसंद के मुताबिक़ बदलाव करने की सुविधा देने के साथ-साथ, किरदार की एक जैसी इमेज बनाए रखने के लिए, toongether ने Gemini 2.5 Flash Image का इस्तेमाल करके, कई चरणों वाली एक बेहतर पाइपलाइन बनाई है:
- स्टाइल का विश्लेषण करना और रेफ़रंस जनरेट करना: जब कोई उपयोगकर्ता नया किरदार बनाता है, तो ऐप्लिकेशन, मॉडल को रेफ़रंस किरदारों की चुनी गई सूची उपलब्ध कराता है, ताकि वह किरदार की स्टाइल का विश्लेषण कर सके. आसान शब्दों में दी गई जानकारी के आधार पर, मॉडल इस नए ओरिजनल किरदार के लिए “न्यूट्रल पोज़” वाली रेफ़रंस इमेज जनरेट करता है.
- ऐसेट पैक और पोज़ जनरेट करना: किसी किरदार को कहानी में शामिल करने के लिए, toongether “ऐसेट पैक” का इस्तेमाल करता है. ये ऐसेट पैक, पोज़ और इस्तेमाल के उदाहरणों की ग्रुप की गई सूचियां होती हैं. निर्देश वाले प्रॉम्प्ट के साथ-साथ न्यूट्रल रेफ़रंस इमेज का इस्तेमाल करके, Gemini 2.5 Flash Image को खास स्थितियों के हिसाब से इमेज जनरेट करने के लिए कहा जा सकता है. इससे, किरदार की विज़ुअल पहचान में कोई बदलाव नहीं होगा.
- सीन कंपोज़िशन: बैकग्राउंड और अन्य एलिमेंट के लिए, टीम रेफ़रंस इमेज उपलब्ध कराती है. इससे सही आर्ट स्टाइल का पता चलता है और पैनल एक जैसे दिखते हैं.
toongether के सह-संस्थापक, समीर नासिर एड्डीन बताते हैं, “Gemini 2.5 Flash Image की इमेज में बदलाव करने और निर्देश देने की बेहतर सुविधाओं का इस्तेमाल करके, हम अपने सभी इस्तेमाल के उदाहरणों को पूरा कर पाए.” “अब यह इमेज जनरेट करने की हमारी पाइपलाइन का एक ज़रूरी हिस्सा बन गया है.”
toongether के लिए आगे क्या है
बुनियादी एलिमेंट को लागू करने के बाद, toongether की टीम अब बेहतर नैरटिव सुविधाओं पर काम कर रही है. पहले इन सुविधाओं को लागू करने में बहुत ज़्यादा संसाधनों की ज़रूरत होती थी. इनका प्लान, Gemini के मॉडल का इस्तेमाल करके एक ही पैनल में कई किरदारों के बीच जटिल इंटरैक्शन को सपोर्ट करना है. साथ ही, ड्रॉइंग की अलग-अलग स्टाइल को पेश करना है.
toongether की यात्रा से पता चलता है कि Gemini API, बिल्डरों के अगले कोहॉर्ट को जटिल मॉडल स्टैक मैनेज करने के बजाय, बेहतर और एक जैसे क्रिएटिव टूल बनाने में कैसे मदद करता है. ये टूल, सामान्य उपयोगकर्ताओं के लिए भी उपलब्ध होते हैं.
Gemini मॉडल की मदद से, अपने क्रिएटिव ऐप्लिकेशन बनाना शुरू करने के लिए, हमारा एपीआई दस्तावेज़ पढ़ें.