शेयर करें

20 मई, 2025

Toonsutra ने कॉमिक को बनाया और भी मज़ेदार: Gemini API, Gemini 2.5 Pro की झलक, और Lyria 2 की मदद से, पढ़ने का शानदार अनुभव पाएं

शरद देवराजन | विशाल आनंद

Toonsutra के फ़ाउंडर

अवनीत सिंह

प्रॉडक्ट मैनेजर, Google Partner Innovation

Cartwheel के बारे में जानकारी देने वाली हीरो इमेज

भारत में वेबकॉमिक और ग्राफ़िक नॉवेल पढ़ने के लिए सबसे बड़ा प्लैटफ़ॉर्म, Toonsutra है. इसका मकसद, दुनिया भर के दर्शकों को वेबकॉमिक की विशाल दुनिया से जोड़ना है. साथ ही, इसका खास फ़ोकस भारतीय भाषाओं में बेहतरीन कहानियां उपलब्ध कराने पर है. Toonsutra का मकसद, ऑडियंस की दिलचस्पी बढ़ाना था. इसलिए, उसने पूछा: कॉमिक पढ़ने के पारंपरिक तरीके को एक शानदार, सिनेमाई अनुभव में कैसे बदला जा सकता है, ताकि आवाज़, संगीत, और कहानी का फ़्लो उस भाषा में स्वाभाविक रूप से हो जिसमें लोग सपने देखते हैं?

इंटरैक्टिव स्टोरीटेलिंग में अगला चैप्टर तैयार करना

यह सवाल, Toonsutra का मुख्य फ़ोकस बन गया. कम्यूनिटी से मिले सुझावों से पता चला कि लोग, चैनल से ज़्यादा जुड़ना चाहते हैं और वे चाहते हैं कि चैनल का कॉन्टेंट ज़्यादा लोगों तक पहुंचे. एआई की अपार संभावनाओं को देखते हुए, Toonsutra ने Google की Labs और Partner Innovation टीमों के साथ साझेदारी की. इसे Google के AI Futures Fund से मदद मिली. ये दोनों मिलकर Gemini API का इस्तेमाल कर रहे हैं. इसमें Gemini 2.5 Pro Preview और Lyria 2 (Google DeepMind का संगीत जनरेट करने वाला मॉडल) शामिल है. इससे दुनिया भर के प्रशंसकों के लिए, वेबकॉमिक का अनुभव बेहतर बनाया जा रहा है.

Google I/O में इस साझेदारी के बारे में बताया गया था. इसमें एआई की मदद से कॉमिक पढ़ने का अनुभव मिलता है. इसमें कहानियां सिर्फ़ पेज पर नहीं दिखतीं, बल्कि वे जवाब देती हैं और लोगों की दिलचस्पी बढ़ाती हैं. साथ ही, स्टैटिक इमेज को डाइनैमिक ऑडियो नैरेटिव में बदल देती हैं :

  • एआई की मदद से अडैप्टिव नैरेशन: Gemini 2.5 Pro Preview, एआई की मदद से नैरेशन तैयार करता है. यह नैरेशन, पढ़ने की रफ़्तार के हिसाब से होती है. साथ ही, इसमें अलग-अलग आवाज़ों का इस्तेमाल करके, किरदारों को जीवंत बनाया जाता है. यह सुविधा, भारत में रहने वाले लोगों के लिए ज़्यादा फ़ायदेमंद है. यहां भाषा में सांस्कृतिक बारीकियां अलग-अलग होती हैं. Gemini 2.5 Pro में, अलग-अलग भाषाओं में काम करने और अडैप्टिव होने की क्षमता है. साथ ही, इसमें Toonsutra का मालिकाना हक वाला कैरेक्टर कॉन्टेक्स्ट इंजन भी है. इससे, कहानी कहने के तरीके में एकरूपता बनी रहती है और कहानी को बारीकी से बताया जा सकता है.
  • डाइनैमिक साउंडस्केप: Gemini 2.5 Pro Preview में मल्टीमॉडल को समझने की क्षमता है. साथ ही, Lyria और Gemini में ऑडियो जनरेट करने की क्षमता है. इनकी मदद से, यह प्लैटफ़ॉर्म साउंडस्केप जनरेट करता है. इनमें खास तौर पर तैयार किया गया संगीत, वॉइस-ओवर, और आवाज़ें शामिल होती हैं. जैसे, तलवार के टकराने की आवाज़ से लेकर बाज़ार की भीड़-भाड़ की आवाज़ तक.
  • बेहतर इंटरैक्टिविटी: Gemini 2.5 Pro Preview की मदद से काम करने वाले एलिमेंट, पढ़ने वालों को खास बातचीत शुरू करने, छिपी हुई जानकारी एक्सप्लोर करने या कहानी के थ्रेड पर थोड़ा-बहुत असर डालने की सुविधा देते हैं. इससे पढ़ने वालों को अलग-अलग तरह के अनुभव मिलते हैं.

तकनीकी विवरण

इस प्रोजेक्ट में, डिजिटल कॉमिक के लिए इमर्सिव ऑडियो अपने-आप जनरेट करने का नया तरीका पेश किया गया है. इसमें सिंक्रनाइज़ किया गया स्पेशल मेटाडेटा भी शामिल है. यह Gemini 2.5 Pro Preview पर आधारित मल्टी-एजेंट आर्किटेक्चर है. इसमें खास एजेंट शामिल हैं: कॉमिक कॉन्टेक्स्ट एक्सट्रैक्टर, नरेटर, संगीतकार, संगीत निर्देशक, और साउंड इफ़ेक्ट एजेंट.

इस वर्कफ़्लो की शुरुआत, कॉमिक कॉन्टेक्स्ट एक्सट्रैक्टर एजेंट से होती है. यह एजेंट, कॉमिक के कई चैप्टर का विश्लेषण करता है, ताकि कॉमिक की खास जानकारी, शैली, और किरदार की विशेषताओं के बारे में पता चल सके. इसके बाद, तय की गई सीमाओं के हिसाब से पैनल निकाले जाते हैं. नरेटर एजेंट, ट्रांसक्रिप्ट में मौजूद डायलॉग को इन पैनल के साथ अलाइन करता है. किरदार के कॉन्टेक्स्ट के हिसाब से बेहतर बनाए गए इन डायलॉग को Gemini की नेटिव ऑडियो सुविधा की मदद से सुनाया जाता है. इसके साथ ही, म्यूज़िक कंपोज़र एजेंट, फ़िल्म स्कोरिंग से प्रेरणा लेकर Gemini 2.5 Pro Preview का इस्तेमाल करता है. इससे वह अलग-अलग चैप्टर में थीम और भावनाओं को समझ पाता है. इसके बाद, वह Lyria के लिए संगीत के प्रॉम्प्ट में इन्हें बदल देता है, ताकि बैकग्राउंड स्कोर जनरेट किए जा सकें. म्यूज़िक डायरेक्टर एजेंट, इस संगीत को खास पैनल पर मैप करता है. वहीं, साउंड इफ़ेक्ट एजेंट, पैनल को डेटाबेस से लिए गए साउंड इफ़ेक्ट के टैग से मैप करता है.

इस वर्कफ़्लो के आखिर में, एक JSON फ़ाइल तैयार होती है. इसमें पैनल के कोऑर्डिनेट, वॉइस-ओवर, साउंड इफ़ेक्ट, और सिंक किया गया संगीत शामिल होता है. इसे Toonsutra के फ़्रंट-एंड को डिलीवर किया जाता है.

Gemini की सबसे बड़ी सफलता यह है कि यह भारतीय भाषाओं में, सिनेमा के ऑडियो को नेटिव तरीके से जनरेट कर सकता है. इसकी शुरुआत हिंदी से हुई है. इससे Toonsutra के ऐक्सेस से जुड़े मिशन को आगे बढ़ाने में मदद मिलेगी.

“Gemini की मल्टीमॉडल और कई भाषाओं में काम करने की क्षमताओं का इस्तेमाल करना बहुत मज़ेदार और दिलचस्प रहा. Google के बड़े लैंग्वेज मॉडल का इस्तेमाल करके, इमेज और वर्णों को सेमैंटिक तौर पर समझा जा सकता है. साथ ही, स्केच और थीम बनाई जा सकती हैं. यह इनपुट मीडिया को उसके बुनियादी सिद्धांतों में बदलने का एक बेहतरीन तरीका है. Lyria की संगीत जनरेट करने की बेहतरीन सुविधा और Gemini की बोलकर जवाब देने की सुविधा, खास तौर पर भारतीय भाषाओं में, हमें Toonsutra के साथ मिलकर बेहतर अनुभव देने में मदद करती है”

- अवनीत (पीएम, Google Partner Innovation)

Google I/O से लेकर सामान्य तौर पर उपलब्ध होने तक

Google I/O का शोकेस एक शानदार माइलस्टोन था. इससे पता चला कि एआई, डिजिटल कॉन्टेंट को किस तरह बेहतर बना सकता है. Toonsutra के लिए, यह सिर्फ़ पहला चैप्टर है.

हमारी टीम अक्सर कहती है: "Toonsutra का विज़न हमेशा से कॉमिक को ज़्यादा दिलचस्प बनाना और इसे हर जगह, हर किसी के लिए उपलब्ध कराना रहा है. Google के साथ यह साझेदारी, उस विज़न की ओर एक बड़ा कदम है. एआई की मदद से, पढ़ने का बेहतरीन अनुभव देने वाली इन सुविधाओं को बनाने से, हमें अपनी कम्यूनिटी से मिले सुझाव/राय या शिकायत पर सीधे तौर पर काम करने में मदद मिलती है. साथ ही, इससे हमें नई-नई सुविधाएं बनाने में भी मदद मिलती है. हमें I/O में मिले रिस्पॉन्स से बेहद खुशी हुई है. हम इस सुविधा को Toonsutra ऐप्लिकेशन में इंटिग्रेट करने के लिए उत्सुक हैं. साथ ही, हम अन्य क्रिएटर्स को बेहतर सुविधा देने के लिए, एपीआई का इस्तेमाल करने की संभावना पर भी विचार कर रहे हैं."

Toonsutra अब इन सुविधाओं को अपने मुख्य ऐप्लिकेशन में चरणबद्ध तरीके से इंटिग्रेट करने पर फ़ोकस कर रहा है. साथ ही, वह कम्यूनिटी से मिले सुझाव/राय या शिकायत पर ध्यान दे रहा है. उनका मानना है कि वे न सिर्फ़ अपने प्लैटफ़ॉर्म को बेहतर बना रहे हैं, बल्कि एआई की मदद से बेहतर कॉन्टेंट बनाने के लिए एक नया ब्लूप्रिंट तैयार कर रहे हैं.

क्या आप इसे बनाने के लिए तैयार हैं? Gemini API के दस्तावेज़ देखें और आज ही Google AI Studio का इस्तेमाल शुरू करें.

Toonsutra, Google के AI Futures Fund में शामिल है. यह फंड, एआई के क्षेत्र में नई टेक्नोलॉजी बनाने वाले स्टार्टअप में निवेश करता है और उनके साथ मिलकर काम करता है.