शेयर करें

12 दिसंबर, 2025

Toongether, Gemini 2.5 Flash Image का इस्तेमाल करके, आर्ट स्टाइल को एक जैसा बनाए रखता है

समीर नासिर एड्डीन

toongether के सह-संस्थापक

गियोम वर्नादे

DeepMind के सीनियर डेवलपर एडवोकेट

Toongether की हीरो इमेज

जनरेटिव एआई के विकास ने क्रिएटिविटी के नए रास्ते खोल दिए हैं. इससे डेवलपर ऐसे टूल बना सकते हैं जो सामान्य उपयोगकर्ताओं को कलाकारों में बदल सकते हैं. हालांकि, कॉमिक जैसी सीक्वेंशियल आर्ट के लिए, सिर्फ़ एक अच्छी इमेज जनरेट करना काफ़ी नहीं है. इसमें कई पैनल में एक जैसे किरदार, स्टाइल, और कहानी जनरेट करना ज़रूरी होता है.

वेबकॉमिक ऐप्लिकेशन बनाने वाली कंपनी Toongether, इस समस्या को हल करने के लिए लगातार काम कर रही है. इनका मकसद, विज़ुअल स्टोरीटेलिंग को सभी के लिए उपलब्ध कराना है. इसके लिए, यह एक ऐसा प्लैटफ़ॉर्म उपलब्ध कराता है जहां सामान्य उपयोगकर्ता न सिर्फ़ कॉमिक पढ़ सकते हैं, बल्कि अपने फ़ोन या टैबलेट से सीधे तौर पर कॉमिक बना और शेयर भी कर सकते हैं. Gemini 2.5 Flash Image को अपनी क्रिएशन पाइपलाइन में इंटिग्रेट करके, वे उपयोगकर्ताओं को ड्रॉइंग से जुड़ी तकनीकी समस्याओं को हल करने में मदद कर रहे हैं. इससे कहानीकारों की एक नई कम्यूनिटी को साथ मिलकर काम करने का मौका मिल रहा है.

बड़े पैमाने पर एक जैसा कॉन्टेंट जनरेट करना

कॉमिक बनाने के लिए, लगातार काम करना ज़रूरी है. अलग-अलग पोज़, कपड़ों, और चेहरे के भावों में भी किरदार की पहचान बनी रहनी चाहिए. साथ ही, सभी में एक जैसी आर्ट स्टाइल का इस्तेमाल किया जाना चाहिए.

शुरुआत में, Toongether की टीम ने एक जटिल स्टैक का इस्तेमाल किया. इसमें फ़ाइन-ट्यून किया गया Stable Diffusion XL मॉडल शामिल था. इसे ControlNet और IPAdapters जैसे टूल की मदद से बेहतर बनाया गया था. इससे अच्छी क्वालिटी के नतीजे मिले, लेकिन इसमें लेटेन्सी और फ़्लेक्सिबिलिटी से जुड़ी समस्याएं थीं. ये समस्याएं, मोबाइल ऐप्लिकेशन बनाने वालों के लिए बड़ी रुकावटें थीं. एक इमेज जनरेट करने में 20 से 30 सेकंड लगते थे. यह समय, उपयोगकर्ता को बेहतर अनुभव देने के लिए बहुत ज़्यादा है. इसके अलावा, नई पोज़ या ड्रॉइंग स्टाइल के लिए सहायता जोड़ने के लिए, इंजीनियरिंग टीम को काफ़ी मेहनत करनी पड़ी. इससे, इन सुविधाओं को जल्दी-जल्दी अपडेट करने की उनकी क्षमता सीमित हो गई.

Gemini की मदद से मुश्किल पाइपलाइन को मैनेज करना

इन समस्याओं को हल करने के लिए, toongether ने इमेज जनरेट करने वाली अपनी मुख्य पाइपलाइन को Gemini API पर माइग्रेट किया. उन्होंने Gemini 2.5 Flash Image को चुना. इसे “Nano Banana” भी कहा जाता है. यह मॉडल, तेज़ी से और आसानी से काम करता है. इसमें एडिटिंग करने और निर्देशों का पालन करने की बेहतर क्षमता है. इससे मुश्किल और कई चरणों वाले जनरेशन टास्क को आसानी से पूरा किया जा सकता है.

इस ट्रांज़िशन की वजह से, उनकी डेवलपमेंट वेलोसिटी में काफ़ी तेज़ी आई. टीम ने सिर्फ़ दो हफ़्तों में प्रोटोटाइप से लेकर प्रोडक्शन तक का काम पूरा कर लिया.

उपयोगकर्ताओं को अपनी पसंद के मुताबिक़ इमेज बनाने की सुविधा देने के साथ-साथ, इमेज में किरदार को एक जैसा बनाए रखने के लिए, toongether ने Gemini 2.5 Flash Image का इस्तेमाल करके, कई चरणों वाली एक बेहतर पाइपलाइन बनाई है:

  • स्टाइल का विश्लेषण करना और रेफ़रंस जनरेट करना: जब कोई उपयोगकर्ता नया किरदार बनाता है, तो ऐप्लिकेशन, मॉडल को रेफ़रंस किरदारों की चुनी गई सूची उपलब्ध कराता है, ताकि वह किरदार की स्टाइल का विश्लेषण कर सके. आसान शब्दों में दी गई जानकारी के आधार पर, मॉडल इस नए ओरिजनल किरदार के लिए “न्यूट्रल पोज़” वाली रेफ़रंस इमेज जनरेट करता है.
  • ऐसेट पैक और पोज़ जनरेट करना: किसी किरदार को कहानी में शामिल करने के लिए, toongether “ऐसेट पैक” का इस्तेमाल करता है. ये ऐसेट पैक, पोज़ और इस्तेमाल के उदाहरणों की ग्रुप की गई सूचियां होती हैं. निर्देश वाले प्रॉम्प्ट के साथ-साथ, न्यूट्रल रेफ़रंस इमेज का इस्तेमाल करके, Gemini 2.5 Flash Image को खास स्थितियों के हिसाब से इमेज जनरेट करने के लिए कहा जा सकता है. इससे, किरदार की विज़ुअल पहचान में कोई बदलाव नहीं होगा.
  • सीन कंपोज़िशन: बैकग्राउंड और अन्य एलिमेंट के लिए, टीम रेफ़रंस इमेज उपलब्ध कराती है. इससे सही आर्ट स्टाइल का पता चलता है और यह पक्का किया जाता है कि पैनल एक-दूसरे से जुड़े हों.

toongether की केस स्टडी की इमेज

toongether के सह-संस्थापक, समीर नासिर एड्डीन बताते हैं, “Gemini 2.5 Flash Image की इमेज में बदलाव करने और निर्देश देने की बेहतर सुविधाओं का इस्तेमाल करके, हम अपने सभी इस्तेमाल के उदाहरणों को पूरा कर पाए.” “अब यह इमेज जनरेट करने की हमारी पाइपलाइन का एक ज़रूरी हिस्सा है.”

toongether के लिए आगे क्या है

बुनियादी एलिमेंट को लागू करने के बाद, toongether की टीम अब नैरटिव से जुड़ी उन बेहतर सुविधाओं पर काम कर रही है जिनके लिए पहले बहुत ज़्यादा संसाधनों की ज़रूरत होती थी. Gemini के मॉडल का इस्तेमाल, एक ही पैनल में कई किरदारों के बीच जटिल इंटरैक्शन को सपोर्ट करने के लिए किया जाएगा. साथ ही, इससे ड्राइंग की अलग-अलग स्टाइल को पेश किया जा सकेगा.

toongether की यात्रा से पता चलता है कि Gemini API, बिल्डरों के अगले कोहॉर्ट को जटिल मॉडल स्टैक मैनेज करने के बजाय, बेहतर और एक जैसे क्रिएटिव टूल बनाने में कैसे मदद करता है. ये टूल, सामान्य उपयोगकर्ताओं के लिए भी उपलब्ध होते हैं.

Gemini मॉडल की मदद से, अपने क्रिएटिव ऐप्लिकेशन बनाना शुरू करने के लिए, हमारा एपीआई दस्तावेज़ पढ़ें.