INSAIT ने बुल्गारिया में पहला एलएलएम प्रोग्राम शुरू किया, जिसमें Gemma 2 का इस्तेमाल किया गया

द इंस्टिट्यूट फ़ॉर कंप्यूटर साइंस, आर्टिफ़िशियल इंटेलिजेंस ऐंड टेक्नोलॉजी (INSAIT), बुल्गारिया के सोफ़िया में मौजूद एक दुनिया-स्तर का रिसर्च ऑर्गेनाइज़ेशन है. साल 2022 में अपनी स्थापना के बाद से, INSAIT ने दुनिया भर के टॉप शिक्षाविदों और रिसर्चर का ध्यान खींचा है. ये लोग टेक्नोलॉजी में नई चीज़ें करने की कोशिश कर रहे हैं. बुल्गारिया में एलएलएम की पहुंच बढ़ाने के लिए, INSAIT ने BgGPT बनाया है. यह बुल्गारियाई भाषा का एक लार्ज लैंग्वेज मॉडल (एलएलएम) है, जो बुल्गारियन और अंग्रेज़ी में बातचीत और निर्देश-आधारित टास्क को समझता है.

BgGPT के फ़ाउंडेशन के लिए अन्य मॉडल आज़माने के बाद, BgGPT की टीम ने यह फ़ैसला लिया कि Google के ओपन मॉडल की Gemma फ़ैमिली, इस काम के लिए सबसे सही है. इसकी वजह यह है कि यह बुल्गारियाई और अंग्रेज़ी में तुलनात्मक रूप से बेहतर परफ़ॉर्म करती है और इसका साइज़ छोटा है. Gemma की बेहतर भाषाई सुविधाओं का इस्तेमाल करके, INSAIT ने दो भाषाओं में काम करने वाला ज़्यादा असरदार और बेहतर मॉडल बनाया.

चुनौती

INSAIT ने पाया कि बुल्गारियाई भाषा के लिए, नेचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) मॉडल का इस्तेमाल नहीं किया जा रहा है. ऐसा इसलिए है, क्योंकि दुनिया के ज़्यादातर एलएलएम, अंग्रेज़ी या चाइनीज़ जैसी पूर्वी भाषाओं पर फ़ोकस करते हैं. मॉडल की कमी का मतलब यह भी था कि बातचीत वाले ऐसे एआई एजेंट नहीं थे जो बुल्गारियाई भाषा और संस्कृति की बारीकियों को अच्छी तरह से समझते हों. साथ ही, इनकी ऑपरेशनल लागत भी कम हो. INSAIT को पता था कि अगर उन्हें एआई की दुनिया में बुल्गारिया और पूर्वी यूरोप की पहचान बनानी है, तो उन्हें बेहतर और सटीक परफ़ॉर्मेंस वाला अपना एलएलएम बनाना होगा.

बुल्गारियाई भाषा में एलएलएम की परफ़ॉर्मेंस की तुलना.

चार्ट में, बुल्गारिया में एलएलएम प्रोग्राम की परफ़ॉर्मेंस की तुलना की गई है.

समाधान

बुल्गारियाई भाषा बोलने वाले डेवलपर और उपयोगकर्ताओं की ज़रूरतों को पूरा करने के लिए, INSAIT के शोधकर्ताओं ने BgGPT बनाया है. यह मॉडल 27B, 9B, और 2B पैरामीटर साइज़ में उपलब्ध है. बुल्गारियाई भाषा में, 27B और 9B, दोनों वैरिएंट, Alibaba के Qwen 2.5 72B और Meta के Llama 3.1 70B जैसे बड़े मॉडल से बेहतर परफ़ॉर्म करते हैं. वहीं, 2B वर्शन, Microsoft के Phi 3.5 और Alibaba के Qwen 2.5 3B जैसे अन्य छोटे भाषा मॉडल की तुलना में बेहतर परफ़ॉर्म करता है. Gemma 2 की भाषा से जुड़ी बेहतरीन क्षमताओं की मदद से, ये तीनों मॉडल अंग्रेज़ी में बेहतर परफ़ॉर्म करते हैं.

“Gemma, बेहतर बनाने के लिए मज़बूत और स्केलेबल फ़ाउंडेशन उपलब्ध कराकर, हमें बुल्गारियाई एनएलपी में बेहतरीन परफ़ॉर्मेंस हासिल करने में मदद करता है.”

— एंटोन अलेक्जेंड्रोव, INSAIT में डॉक्टरेट के छात्र

BgGPT को 85 अरब बुल्गारियन टोकन और 15 अरब अंग्रेज़ी टोकन पर पहले से ट्रेन किया गया था. BgGPT को डेवलप करने के दौरान, INSAIT की ब्रांच-एंड-मर्ज की लगातार प्री-ट्रेनिंग की रणनीति का इस्तेमाल किया गया. इसकी मदद से, मॉडल को बुल्गारियाई जैसी नई जानकारी सीखने में मदद मिलती है. साथ ही, पुरानी जानकारी को बदले या मिटाए बिना, उसे बनाए रखा जा सकता है. जैसे, जेमा की गणित और अंग्रेज़ी की गहरी समझ. इस घटना को “कैटैस्ट्रॉफ़िक फ़ोरगेटिंग” कहा जाता है. यह एलएलएम के डेवलपमेंट में एक बार-बार आने वाली समस्या है.

ब्रैंड और मेगा कैंपेन के लिए, ट्रेनिंग से पहले की रणनीति.

फ़्लोचार्ट, जिसमें ब्रैंच-एंड-मर्ज प्री-ट्रेनिंग की रणनीति के बारे में बताया गया है.

असर

BgGPT अब BgGPTt.ai पर मौजूद सार्वजनिक चैट प्लैटफ़ॉर्म को बेहतर बनाता है. इसके लिए, 27B और 2B, दोनों वैरिएंट का इस्तेमाल किया जाता है. 2B मॉडल, उपयोगकर्ता की क्वेरी को फिर से लिखने और उन्हें अलग-अलग कैटगरी में बांटने जैसे खास टास्क को मैनेज करते हैं. वहीं, 27B मॉडल, बातचीत वाले एलिमेंट को मैनेज करता है. मार्च 2024 में रिलीज़ होने के बाद से, BgGPT.ai ने उपयोगकर्ताओं के लाखों सवालों के जवाब दिए हैं. BgGPT के रिलीज़ होने के बाद, INSAIT मध्य और पूर्वी यूरोप का पहला ऐसा संगठन बन गया है जिसने सार्वजनिक तौर पर डेवलप किया गया, दुनिया भर में प्रतिस्पर्धी एलएलएम लॉन्च किया है. इससे, इस क्षेत्र में इस संगठन की लीडरशिप की पुष्टि होती है.

INSAIT ने डेवलपर के साथ, ब्रांच-एंड-मर्ज की अपनी लगातार प्री-ट्रेनिंग की रणनीति भी शेयर की है. इससे एआई मॉडल की परफ़ॉर्मेंस को तेज़ी से बेहतर बनाया जा सकता है. साथ ही, उसने अपनी पूरी ट्रेनिंग पाइपलाइन भी शेयर की है. एलएलएम के नॉलेज बेस को लगातार बड़ा करने की सुविधा, पहले से मौजूद डेटा को खोए बिना ट्रेनिंग की क्षमता को बेहतर बनाती है. साथ ही, एलएलएम को स्मार्ट बनाती है.

48 हज़ार से ज़्यादा

गले लगाने वाले चेहरे की सुविधा से जुड़े डाउनलोड*

50 लाख

BgGPT.ai पर पूछे गए सवालों के जवाब

*1 दिसंबर से 31 दिसंबर, 2024 तक के डाउनलोड की संख्या

अब क्या होगा

BgGPT का इस्तेमाल लगातार बढ़ रहा है. नेशनल रेवेन्यू एजेंसी (एनआरए) जैसी बुल्गारिया की सरकारी एजेंसियों में पायलट प्रोग्राम शुरू हो गए हैं. इनमें खास मामलों में एलएलएम के असर की जांच की जा रही है. INSAIT ने BgGPT की पहुंच को शिक्षा, सार्वजनिक प्रशासन, और कारोबार के ऑटोमेशन जैसे दूसरे क्षेत्रों तक बढ़ाने में भी दिलचस्पी दिखाई है.

INSAIT के डेवलपर, रिसर्चर, और शिक्षाविद, पूर्वी यूरोप और विदेशों में एआई टेक्नोलॉजी को आगे बढ़ाने के लिए प्रतिबद्ध हैं. आने वाले समय में, INSAIT BgGPT को बेहतर बनाने के लिए फ़ंक्शन-कॉल करने की सुविधा को शामिल करेगा. साथ ही, बड़े बेस मॉडल के साथ-साथ अन्य देशों के लिए ट्रेनिंग मॉडल के साथ बेहतर ट्यूनिंग करेगा.

बुल्गारिया में पहली बार, Gemma 2 की मदद से एलएलएम प्रोग्राम शुरू करने वाला INSAIT

चुनौती

समाधान

असर

अब क्या होगा

मिलती-जुलती केस स्टडी