শেয়ার করুন

INSAIT Gemma 2 এর সাথে বুলগেরিয়ান-প্রথম LLM তৈরি করেছে৷

The Institute for Computer Science, Artificial Intelligence and Technology (INSAIT) হল সোফিয়া, বুলগেরিয়ার একটি বিশ্বমানের গবেষণা সংস্থা। 2022 সালে প্রতিষ্ঠার পর থেকে, INSAIT বিশ্বের শীর্ষস্থানীয় শিক্ষাবিদ এবং গবেষকদের আকৃষ্ট করেছে যারা প্রযুক্তিতে কী সম্ভব তা এগিয়ে নিতে চাইছে। বুলগেরিয়াতে এলএলএম অ্যাক্সেসযোগ্যতা প্রসারিত করার জন্য, INSAIT BgGPT তৈরি করেছে, একটি বুলগেরিয়ান বড় ভাষা মডেল (LLM) যা বুলগেরিয়ান এবং ইংরেজিতে কথোপকথন এবং নির্দেশ-ভিত্তিক কাজগুলি বোঝে।

BgGPT-এর ফাউন্ডেশনের জন্য অন্যান্য মডেলগুলির সাথে পরীক্ষা করার পরে, BgGPT টিম সিদ্ধান্ত নেয় যে Google-এর খোলা মডেলের Gemma পরিবার টাস্কের জন্য সবচেয়ে উপযুক্ত, বুলগেরিয়ান এবং ইংরেজিতে তুলনামূলকভাবে ভাল পারফরম্যান্স এবং এর কম্প্যাক্ট আকারের জন্য ধন্যবাদ। জেমার উচ্চতর ভাষা ক্ষমতা ব্যবহার করে, INSAIT অনেক বেশি দক্ষ এবং কার্যকর দ্বিভাষিক মডেল তৈরি করতে সক্ষম হয়েছিল।

চ্যালেঞ্জ

INSAIT বুলগেরিয়ান ভাষায় শক্তিশালী ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (NLP) মডেলের অনুপস্থিতি পর্যবেক্ষণ করেছে, কারণ বিশ্বের বেশিরভাগ এলএলএম ইংরেজি বা চীনা ভাষার মতো প্রাচ্য ভাষাগুলিতে ফোকাস করা হয়েছে। মডেলের অভাবের অর্থ হল কথোপকথনমূলক এআই এজেন্টের অভাব যা বুলগেরিয়ান ভাষা এবং সাংস্কৃতিক সূক্ষ্মতা গভীরভাবে বোঝে এবং একটি যুক্তিসঙ্গত অপারেশনাল খরচও ধরে রাখে। INSAIT জানত যে তারা যদি এআই বিশ্বে বুলগেরিয়া এবং পূর্ব ইউরোপের জন্য একটি উপস্থিতি প্রতিষ্ঠা করতে চায়, তবে তাদের শক্তিশালী এবং সঠিক কর্মক্ষমতা সহ তাদের নিজস্ব এলএলএম তৈরি করতে হবে।

বুলগেরিয়ানে এলএলএম-এর পারফরম্যান্সের তুলনা।
শীর্ষ LLM-এর বুলগেরিয়ান পারফরম্যান্সের তুলনা করে চার্ট।

সমাধান

INSAIT গবেষকরা BgGPT তৈরি করেছেন বুলগেরিয়ান-ভাষী ডেভেলপার এবং ব্যবহারকারীদের জন্য বিস্তৃত চাহিদা পূরণ করতে। মডেলটি 27B, 9B, এবং 2B প্যারামিটার আকারে আসে। 27B এবং 9B উভয় ভেরিয়েন্টই বুলগেরিয়ান ভাষায় Alibaba এর Qwen 2.5 72B এবং Meta's Llama 3.1 70B এর মতো বড় মডেলকে ছাড়িয়ে যায়। ইতিমধ্যে, 2B সংস্করণটি মাইক্রোসফ্টের Phi 3.5 এবং আলিবাবার Qwen 2.5 3B এর মতো অন্যান্য ছোট ভাষার মডেলগুলিকে ছাড়িয়ে গেছে। Gemma 2 এর চিত্তাকর্ষক ভাষাগত ক্ষমতার জন্য ধন্যবাদ, তিনটি মডেলই প্রতিযোগিতামূলক ইংরেজি পারফরম্যান্স বজায় রাখে।

"জেমা আমাদেরকে বুলগেরিয়ান এনএলপি-তে অত্যাধুনিক পারফরম্যান্স অর্জনে সাহায্য করে সূক্ষ্ম টিউনিংয়ের জন্য একটি শক্তিশালী, মাপযোগ্য ভিত্তি প্রদান করে।"

— আন্তন আলেকজান্দ্রভ, INSAIT-এর ডক্টরাল ছাত্র

BgGPT প্রায় 85B বুলগেরিয়ান টোকেন এবং 15B ইংরেজিতে প্রাক-প্রশিক্ষিত ছিল। BgGPT-এর বিকাশের আরও অনন্য উপাদানগুলির মধ্যে একটি হল INSAIT-এর নিজস্ব শাখা-এবং-মার্জন ক্রমাগত প্রাক-প্রশিক্ষণ কৌশলের ব্যবহার, যা মডেলটিকে বুলগেরিয়ানের মতো নতুন তথ্য শিখতে সক্ষম করে যেমন পুরানো তথ্য প্রতিস্থাপন বা হারানো ছাড়াই, যেমন Gemma-এর গণিত এবং ইংরেজি সম্পর্কে গভীর জ্ঞান। এই ঘটনাটিকে "বিপর্যয়কর ভুলে যাওয়া" হিসাবে উল্লেখ করা হয় এবং এলএলএম বিকাশে এটি একটি পুনরাবৃত্তিমূলক চ্যালেঞ্জ হিসাবে রয়ে গেছে।

ব্র্যান্ড-এন্ড-মেজ প্রাক-প্রশিক্ষণ কৌশল।
শাখা-এবং-মেজ প্রাক-প্রশিক্ষণ কৌশলের নথিভুক্ত ফ্লোচার্ট।

প্রভাব

BgGPT এখন এর 27B এবং 2B ভেরিয়েন্ট ব্যবহার করে BgGPTt.ai- তে পাবলিক চ্যাট প্ল্যাটফর্মকে ক্ষমতা দেয়। 2B মডেলগুলি নির্দিষ্ট কাজগুলি পরিচালনা করে যেমন ব্যবহারকারীর প্রশ্নগুলি এবং শ্রেণিবিন্যাসের পুনঃপ্রক্রিয়াকরণ, যখন 27B মডেল কথোপকথনমূলক উপাদানগুলি পরিচালনা করে। 2024 সালের মার্চ মাসে এটি প্রকাশের পর থেকে, BgGPT.ai লক্ষ লক্ষ ব্যবহারকারীর প্রশ্নের উত্তর দিয়েছে। BgGPT-এর প্রকাশও INSAIT-কে মধ্য ও পূর্ব ইউরোপের প্রথম সংস্থায় পরিণত করেছে যা বিশ্বব্যাপী প্রতিযোগিতামূলক সর্বজনীনভাবে উন্নত LLM চালু করেছে, সংস্থাটিকে এই অঞ্চলে একটি নেতা হিসাবে প্রতিষ্ঠা করেছে।

INSAIT তার শাখা-এবং-মার্জন ক্রমাগত প্রাক-প্রশিক্ষণ কৌশলও ডেভেলপারদের সাথে ভাগ করেছে, যার AI মডেলের বৃদ্ধিকে দ্রুততর করার সম্ভাবনা রয়েছে। এটি তার সম্পূর্ণ প্রশিক্ষণ পাইপলাইনও ভাগ করেছে। পূর্বের ডেটার ক্ষতি ছাড়াই ক্রমাগত LLM-এর জ্ঞানের ভিত্তি প্রসারিত করার ক্ষমতা প্রশিক্ষণের দক্ষতা উন্নত করতে এবং এলএলএমগুলিকে আরও স্মার্ট করে তোলে।

48k+

আলিঙ্গন মুখের উপর ডাউনলোডগুলি*

5M

BgGPT.ai-তে প্রশ্নের উত্তর দেওয়া হয়েছে

  • *১ ডিসেম্বর থেকে ৩১ ডিসেম্বর, ২০২৪ পর্যন্ত ডাউনলোডের সংখ্যা

এরপর কি

BgGPT গ্রহণ বাড়তে থাকে। জাতীয় রাজস্ব সংস্থা (NRA) এর মতো বুলগেরিয়ান সরকারী সংস্থাগুলিতে পাইলট প্রোগ্রামগুলি শুরু হয়েছে, বিশেষ পরিস্থিতিতে এলএলএম-এর কার্যকারিতা পরীক্ষা করে৷ INSAIT শিক্ষা, জনপ্রশাসন, এবং ব্যবসায়িক অটোমেশনের মতো অন্যান্য ক্ষেত্রে BgGPT-এর নাগাল সম্প্রসারণেও আগ্রহ প্রকাশ করেছে।

INSAIT-এর উত্সাহী বিকাশকারী, গবেষক এবং শিক্ষাবিদরা পূর্ব ইউরোপ এবং বিদেশে AI প্রযুক্তিকে এগিয়ে নিতে প্রতিশ্রুতিবদ্ধ। সামনের দিকে তাকিয়ে, INSAIT অন্যান্য দেশের জন্য বৃহত্তর বেস মডেলের পাশাপাশি প্রশিক্ষণ মডেলগুলির সাথে ফাংশন-কলিংয়ের সম্ভাব্য সংযোজন এবং আরও সূক্ষ্ম টিউনিং সহ BgGPT উন্নত করার পরিকল্পনা করেছে।