শেয়ার করুন

AI সিঙ্গাপুর AI কে Gemma 2 এর সাথে দক্ষিণ-পূর্ব এশিয়ার জন্য আরও অন্তর্ভুক্ত করে তোলে

2017 সালে চালু করা হয়েছে, AI সিঙ্গাপুর হল AI গবেষণা প্রতিষ্ঠান এবং সংস্থাগুলির একটি জাতীয় নেটওয়ার্ক যা সিঙ্গাপুরের AI উন্নয়নের অগ্রগতির জন্য নিবেদিত। এর একটি প্রকল্প, SEA-LION হল উন্মুক্ত মডেলের একটি পরিবার যা দক্ষিণ-পূর্ব এশীয় (SEA) দেশগুলিতে LLM-এর শক্তি নিয়ে আসে যা পূর্বে AI-এর বিশ্ব দ্বারা উপেক্ষা করা হয়েছিল।

SEA-LION-এর পিছনে থাকা দলটি Gemma, Google-এর লাইটওয়েট এবং দক্ষ ওপেন মডেলের পরিবারকে বেছে নিয়েছে, এর শব্দভাণ্ডার এবং ভাষাগত বোঝার জন্য, সেইসাথে এর আকার-থেকে-পারফরম্যান্স অনুপাতের জন্য। Gemma-এর সাহায্যে, SEA-LION ডেভেলপাররা একটি শক্তিশালী, দক্ষ, এবং অ্যাক্সেসযোগ্য LLM তৈরি করেছে যা আজকে SEA অঞ্চলের লক্ষ লক্ষ লোক ব্যবহার করে৷

চ্যালেঞ্জ

SEA-LION টিম স্বীকার করেছে যে এই অঞ্চল জুড়ে কথিত অনেক ভাষা আজকের সবচেয়ে জনপ্রিয় LLM দ্বারা প্রতিনিধিত্ব করা হয় না, যার অর্থ এই অঞ্চলের কিছু অংশ এবং সমগ্র জনগোষ্ঠীর AI এর সম্ভাব্য অনেক অ্যাপ্লিকেশনগুলিতে অ্যাক্সেস ছিল না। দলটি আরও দেখেছে যে এমনকি যখন এই মূলধারার এলএলএম-এর স্থানীয় এসইএ ভাষার একটি প্রাথমিক বোঝাপড়া ছিল, তখনও এলএলএমগুলি স্থানীয় ভাষাভাষীদের কাছে পরিচিত ভাষাগত এবং সাংস্কৃতিক পার্থক্যগুলির বোঝার অভাব ছিল।

AI সিঙ্গাপুরের কৃত্রিম বুদ্ধিমত্তার প্রধান উইলিয়াম টিঝি ব্যাখ্যা করেছেন, বিশ্বের বেশিরভাগ AI পশ্চিমা এবং পূর্ব ভাষাগুলিতে নির্মিত, যার অর্থ অনুবাদে অনেক কিছু হারিয়ে যেতে পারে: “গ্লোবাল LLM ল্যান্ডস্কেপ দুটি সংস্থাকে ঘিরে: পশ্চিম উপকূল এবং চীন। এই মডেলগুলি ডেটা সেটগুলির উপর ভিত্তি করে সেই বিশ্বদর্শনগুলিকে প্রতিফলিত করে যা তাদের প্রশিক্ষণ দেয় এবং যে ভাষাগুলি তাদের প্রশিক্ষণ দেয়।"

“আমাদের অঞ্চলের ভাষাগুলিতে প্রয়োগ করা হলে জেমার টোকেনাইজার আরও ভাল কাজ করে। আপনি আউটপুট দেখতে পারেন. এটি SEA টোকেনগুলিতে প্রশিক্ষণের সময় মডেলের কার্যকারিতাকে ব্যাপকভাবে বৃদ্ধি করে, কারণ টোকেনাইজারটি অন্যান্য মডেলের টোকেনাইজারের তুলনায় আরও অনুকূল।"

— উইলিয়াম টিঝি, এআই সিঙ্গাপুরের কৃত্রিম বুদ্ধিমত্তার প্রধান

সমাধান

SEA-LION টিম LLM-এর একটি অন্তর্ভুক্তিমূলক সেট তৈরি করেছে যা এই অঞ্চলের সূক্ষ্মতা, প্রসঙ্গ এবং সাংস্কৃতিক বৈচিত্র্যকে সঠিকভাবে প্রতিফলিত করে। ভাষার সম্পূর্ণ নতুন সেটের প্রকৃত বোঝার সাথে একটি সঠিক LLM তৈরি করতে, টিমের বিভিন্ন ধরনের, উচ্চ-মানের প্রশিক্ষণ ডেটার প্রয়োজন ছিল, তাই তারা Google DeepMind এবং গবেষণা দলগুলির সাথে সহযোগিতা করার সিদ্ধান্ত নিয়েছে৷ জুয়া খেলার বিষয়বস্তু এবং বিজ্ঞাপনের মতো উত্স থেকে আসা অপ্রাসঙ্গিক ডেটা ফিল্টার করতে এবং সঠিক, স্বাভাবিক-শব্দযুক্ত অনুবাদগুলি নিশ্চিত করতে তারা স্থানীয় ভাষাভাষী এবং ভাষাবিদদের সাথে কাজ করেছে।

দলের সর্বশেষ পুনরাবৃত্তি, SEA-LION V3, SEA ডেটার 200 বিলিয়ন টোকেন ব্যবহার করে জেমা 2-এ ক্রমাগত পূর্ব-প্রশিক্ষিত ছিল। দলটি দেখেছে যে জেমার টোকেনাইজারে শুধুমাত্র অভিপ্রেত ভাষার জন্য বেশি টোকেনই ধারণ করেনি বরং অন্যান্য মডেলের চেয়েও ভালো পারফর্ম করেছে। জেমার 9 বিলিয়ন প্যারামিটার সংস্করণটি এর আকার এবং দক্ষতার জন্য বেছে নেওয়া হয়েছিল, কারণ বড় আকারের মডেলগুলি চালানোর জন্য প্রয়োজনীয় সংস্থানগুলি অঞ্চলের অনেক অংশে সীমিত হতে পারে।

SEA-LION এর ইংরেজি টাস্ক পারফরম্যান্স এবং SEA গড় পারফরম্যান্সের মধ্যে পারস্পরিক সম্পর্ক।
SEA-LION এর ইংরেজি টাস্ক পারফরম্যান্স এবং SEA গড় পারফরম্যান্সের মধ্যে সম্পর্ক প্লট করে বেঞ্চমার্ক।

প্রভাব

SEA-LION V3 হল টিমের সবচেয়ে উন্নত পুনরাবৃত্তি এবং অন্যান্য স্থানীয় AI বিকাশকারী এবং গবেষকরা ইতিমধ্যেই এটি ব্যবহার করছেন৷ টেক কোম্পানি GoTo সম্প্রতি Sahabat-AI চালু করেছে , ইন্দোনেশিয়ান ডেভেলপারদের জন্য SEA-LION-এ নির্মিত একটি LLM ইকোসিস্টেম। Sahabat-AI GoTo-এর দিরা AI ভয়েস অ্যাসিস্ট্যান্টের সাথে একীভূত হয়েছে, যা ব্যবহারকারীদের স্থানীয় ভাষা এবং উপভাষায় ভয়েস কমান্ড সহ Gojek এবং GoPay উভয় পেমেন্ট পরিষেবা অ্যাক্সেস করতে দেয়।

GoTo-এর সিইও প্যাট্রিক ওয়ালুজো বলেছেন যে তিনি Sahabat-AI ইন্দোনেশিয়ার লক্ষ লক্ষ মানুষের জীবনকে ইতিবাচকভাবে প্রভাবিত করবে বলে আশা করেন: "এটি আমাদের ব্যবসাগুলিকে গ্রাহকদের সাথে নতুন উপায়ে যোগাযোগ করতে সাহায্য করবে, এটি আমাদের সরকারী মন্ত্রণালয়গুলিকে আরও ব্যাপকভাবে নাগরিকদের সাথে জড়িত হওয়ার জন্য সরঞ্জামগুলি বিকাশে সহায়তা করবে।"

11

দক্ষিণ-পূর্ব এশীয় ভাষার দক্ষতা

14k+

আলিঙ্গন মুখে ডাউনলোড

38M

GoPay-এ মাসিক সক্রিয় ব্যবহারকারীদের Dira-এ অ্যাক্সেস আছে

এরপর কি

AI সিঙ্গাপুরের দল ইতিমধ্যেই SEA-LION এর পরবর্তী পুনরাবৃত্তির পরিকল্পনা করছে। তাদের লক্ষ্য হল জেমা ব্যবহার করে ছোট এবং বড় প্যারামিটার সংস্করণ তৈরি করা, বিভিন্ন ধরণের ব্যবহারের ক্ষেত্রে ক্যাটারিং করা এবং স্থানীয় সম্প্রদায়কে আরও বেশি নমনীয়তা প্রদান করা। SEA-LION-এর সাফল্য SEA-এর AI বুমের জন্য অপরিহার্য ছিল, এবং সাহাবাত-AI-এর মতো অন্যান্য LLMগুলি এটির উপর নির্মিত হচ্ছে, এটি কেবল শুরু।

“এআই সিঙ্গাপুরের সাথে নতুন জেমা-ভিত্তিক SEA-LION v3 চালু করা অন্তর্ভুক্তিমূলক AI এর জন্য একটি বড় পদক্ষেপের প্রতিনিধিত্ব করে। Google-এর Gemma 2-এর শক্তিকে কাজে লাগিয়ে, এই নতুন মডেলটি দক্ষিণ-পূর্ব এশীয় মূল্যায়ন মেট্রিকগুলির একটি পরিসরে আগের সংস্করণগুলিকে উল্লেখযোগ্যভাবে ছাড়িয়ে গেছে, "গুগল ডিপমাইন্ডের সিনিয়র ডিরেক্টর মনীশ গুপ্তা বলেছেন৷ "আমরা উত্তেজনাপূর্ণ অ্যাপ্লিকেশনের জন্য অপেক্ষা করছি যা এটি আনলক করে এবং এটি দক্ষিণ-পূর্ব এশিয়া জুড়ে বিভিন্ন সম্প্রদায়ের জন্য যে সুবিধাগুলি চালায়।"