शेयर करें

AI Singapore, Gemma 2 की मदद से दक्षिण-पूर्व एशिया के लिए एआई को ज़्यादा समावेशी बनाता है

एआई सिंगापुर, एआई रिसर्च से जुड़े संस्थानों और संगठनों का एक नैशनल नेटवर्क है. इसे 2017 में लॉन्च किया गया था. यह सिंगापुर में एआई के विकास को आगे बढ़ाने के लिए काम करता है. इसका एक प्रोजेक्ट, SEA-LION, ओपन मॉडल का एक फ़ैमिली है. यह दक्षिण-पूर्व एशियाई (एसईए) देशों में एलएलएम की सुविधा उपलब्ध कराता है. इन देशों को एआई की दुनिया में पहले अनदेखा किया जाता था.

SEA-LION की टीम ने Gemma को चुना. यह Google का लाइटवेट और बेहतरीन ओपन मॉडल है. इसकी शब्दावली और भाषा की समझ के साथ-साथ, साइज़-टू-परफ़ॉर्मेंस रेशियो भी बेहतर है. Gemma की मदद से, SEA-LION के डेवलपर ने एक ऐसा एलएलएम बनाया है जो बेहतर, असरदार, और आसानी से इस्तेमाल किया जा सकता है. आज दक्षिण-पूर्व एशिया (एसईए) क्षेत्र के लाखों लोग इसका इस्तेमाल कर रहे हैं.

चुनौती

SEA-LION टीम ने पाया कि इस इलाके में बोली जाने वाली कई भाषाओं को, आज के सबसे लोकप्रिय एलएलएम में शामिल नहीं किया गया है. इसका मतलब है कि इस इलाके के कुछ हिस्सों और लोगों के पूरे ग्रुप के पास, एआई के कई संभावित ऐप्लिकेशन का बहुत कम या कोई ऐक्सेस नहीं है. टीम को यह भी पता चला कि इन मुख्य एलएलएम में, दक्षिण-पूर्व एशिया की स्थानीय भाषाओं की बुनियादी समझ थी. हालांकि, इन एलएलएम में भाषाई और सांस्कृतिक अंतर को समझने की क्षमता नहीं थी. यह अंतर, स्थानीय भाषा बोलने वाले लोगों को पता होता है.

जैसा कि एआई सिंगापुर के आर्टिफ़िशियल इंटेलिजेंस के हेड विलियम थि बताते हैं, दुनिया का ज़्यादातर एआई, पश्चिमी और पूर्वी भाषाओं पर आधारित है. इसका मतलब है कि अनुवाद में बहुत कुछ छूट सकता है: “ग्लोबल एलएलएम लैंडस्केप, दो बॉडी के आस-पास विकसित हुआ: वेस्ट कोस्ट और चीन. ये मॉडल, उन डेटा सेट के आधार पर दुनिया के नज़रिए को दिखाते हैं जिनसे उन्हें ट्रेनिंग दी जाती है. साथ ही, उन भाषाओं के आधार पर भी ऐसा होता है जिनसे उन्हें ट्रेनिंग दी जाती है.”

“Gemma का टोकनेटर, हमारे इलाके में इस्तेमाल होने वाली भाषाओं पर लागू होने पर बेहतर परफ़ॉर्म करता है. इसे आउटपुट में देखा जा सकता है. इससे SEA टोकन पर ट्रेनिंग के दौरान, मॉडल की परफ़ॉर्मेंस काफ़ी बेहतर होती है. इसकी वजह यह है कि tokenizer, दूसरे मॉडल के tokenizer की तुलना में ज़्यादा ऑप्टिमाइज़ होता है.”

— विलियम थि, एआई सिंगापुर में आर्टिफ़िशियल इंटेलिजेंस की हेड

समाधान

SEA-LION टीम ने एलएलएम का एक ऐसा सेट बनाया है जो इस इलाके की बारीकियों, संदर्भों, और सांस्कृतिक विविधता को सटीक तरीके से दिखाता है. भाषाओं के पूरे नए सेट को सही तरीके से समझने के लिए, एलएलएम को बेहतर बनाने के लिए टीम को अलग-अलग तरह का और अच्छी क्वालिटी का ट्रेनिंग डेटा चाहिए था. इसलिए, उन्होंने Google DeepMind और रिसर्च टीम के साथ मिलकर काम करने का फ़ैसला लिया. उन्होंने नैटिव स्पीकर और भाषाविदों के साथ भी काम किया, ताकि जुए से जुड़े कॉन्टेंट और विज्ञापनों जैसे सोर्स से आने वाले ग़ैर-ज़रूरी डेटा को फ़िल्टर किया जा सके. साथ ही, यह पक्का किया जा सके कि अनुवाद सही और स्वाभाविक हो.

टीम के नए वर्शन, SEA-LION V3 को Gemma 2 पर लगातार पहले से ट्रेन किया गया था. इसके लिए, SEA के डेटा के 200 अरब टोकन का इस्तेमाल किया गया था. टीम को पता चला कि Gemma के टोकनेटर में, इस्तेमाल की जा रही भाषाओं के लिए ज़्यादा टोकन मौजूद थे. साथ ही, यह अन्य मॉडल की तुलना में बेहतर परफ़ॉर्म करता है. Gemma के 9 अरब पैरामीटर वाले वर्शन को उसके साइज़ और परफ़ॉर्मेंस की वजह से चुना गया था. इसकी वजह यह है कि बड़े पैमाने पर मॉडल चलाने के लिए ज़रूरी संसाधन, इलाके के कई हिस्सों में सीमित हो सकते हैं.

SEA-LION के अंग्रेज़ी टास्क की परफ़ॉर्मेंस और SEA की औसत परफ़ॉर्मेंस के बीच का संबंध.
SEA-LION के अंग्रेज़ी टास्क की परफ़ॉर्मेंस और SEA की औसत परफ़ॉर्मेंस के बीच के संबंध को प्लॉट करने वाले मानदंड.

असर

SEA-LION V3, टीम का अब तक का सबसे बेहतर वर्शन है. स्थानीय एआई डेवलपर और शोधकर्ता पहले से ही इसका इस्तेमाल कर रहे हैं. टेक्नोलॉजी कंपनी GoTo ने हाल ही में Sahabat-AI लॉन्च किया है. यह इंडोनेशियन डेवलपर के लिए, SEA-LION पर आधारित एलएलएम (लॉन्ग लांग मैसेज) नेटवर्क है. Sahabat-AI को GoTo की एआई वॉइस असिस्टेंट Dira में इंटिग्रेट किया गया है. इससे उपयोगकर्ता, अपनी भाषाओं और बोलियों में बोलकर Gojek और GoPay, दोनों की पेमेंट सेवाओं को ऐक्सेस कर सकते हैं.

GoTo के सीईओ पैट्रिक वलुजो ने कहा कि उन्हें उम्मीद है कि Sahabat-AI, इंडोनेशिया में लाखों लोगों के जीवन पर सकारात्मक असर डालेगा: “इससे हमारे कारोबारों को ग्राहकों के साथ नए तरीके से बातचीत करने में मदद मिलेगी. साथ ही, इससे हमारे सरकारी मंत्रालयों को नागरिकों के साथ बेहतर तरीके से जुड़ने के लिए टूल बनाने में मदद मिलेगी.”

11

दक्षिण पूर्व एशियाई भाषाओं में प्रवीणता

14 हज़ार से ज़्यादा

Hugging Face पर डाउनलोड

3.8 करोड़

GoPay पर हर महीने के सक्रिय उपयोगकर्ताओं के पास Dira का ऐक्सेस होता है

अब क्या होगा

एआई सिंगापुर की टीम, SEA-LION के अगले वर्शन पर पहले से ही काम कर रही है. उनका लक्ष्य, Gemma का इस्तेमाल करके छोटे और बड़े पैरामीटर वर्शन बनाना है. इससे, अलग-अलग तरह के इस्तेमाल के उदाहरणों को पूरा किया जा सकता है. साथ ही, स्थानीय समुदायों को ज़्यादा सुविधाएं दी जा सकती हैं. SEA-LION की सफलता, दक्षिण-पूर्व एशिया में एआई के इस्तेमाल में हुई बढ़ोतरी के लिए ज़रूरी थी. साथ ही, Sahabat-AI जैसे अन्य एलएलएम को इस पर बनाया जा रहा है. यह सिर्फ़ शुरुआत है.

“AI Singapore के साथ Gemma पर आधारित SEA-LION v3 के नए वर्शन को लॉन्च करना, सभी के लिए उपलब्ध एआई के लिए एक अहम कदम है. Google के Gemma 2 का इस्तेमाल करके, यह नया मॉडल दक्षिण-पूर्व एशिया के आकलन की मेट्रिक के कई वर्शन में, पिछले वर्शन की तुलना में काफ़ी बेहतर परफ़ॉर्म करता है,” Google DeepMind के सीनियर डायरेक्टर मनीष गुप्ता ने बताया. “हमें उम्मीद है कि इस सुविधा से, दक्षिण-पूर्व एशिया की अलग-अलग कम्यूनिटी को कई फ़ायदे मिलेंगे. साथ ही, इसकी मदद से कई दिलचस्प ऐप्लिकेशन बनाए जा सकेंगे.”