إنشاء نموذج لغوي كبير رائد باللغة البلغارية لأول مرة من قِبل INSAIT باستخدام Gemma 2
معهد علوم الكمبيوتر والذكاء الاصطناعي والتكنولوجيا (INSAIT) هو مؤسسة بحثية عالمية المستوى في صوفيا، بلغاريا. منذ تأسيسها في عام 2022، جذبت INSAIT أبرز الأكاديميين والباحثين من جميع أنحاء العالم الذين يسعون إلى تطوير التكنولوجيا إلى أقصى حدّ. وفي إطار جهودها لتوسيع نطاق توفّر النماذج اللغوية الكبيرة في بلغاريا، أنشأت INSAIT BgGPT، وهو نموذج لغوي كبير بلغاري يفهم المهام الحوارية والمهام المستندة إلى التعليمات باللغتَين البلغارية والإنجليزية.
بعد تجربة نماذج أخرى لإنشاء BgGPT، قرّر فريق BgGPT أنّ مجموعة النماذج المتاحة للجميع Gemma من Google هي الأنسب لهذه المهمة، وذلك بفضل أدائها الأفضل مقارنةً بالنماذج الأخرى باللغتَين البلغارية والإنجليزية وصغر حجمها. باستخدام إمكانات Gemma اللغوية الفائقة، تمكّنت INSAIT من إنشاء نموذج ثنائي اللغة أكثر فعالية وكفاءة.
التحدي
لاحظت شركة INSAIT عدم توفّر نماذج قوية لمعالجة اللغة الطبيعية (NLP) باللغة البلغارية، لأنّ معظم النماذج اللغوية الكبيرة في العالم تركّز على اللغة الإنجليزية أو اللغات الشرقية مثل الصينية. وأدّى نقص النماذج أيضًا إلى عدم توفّر موظّفي دعم ذكاء اصطناعي حواري يفهمون اللغة البلغارية والتفاصيل الثقافية بشكلٍ جيد مع الحفاظ على تكلفة تشغيل معقولة. عرفت شركة INSAIT أنّها إذا أرادت أن تُثبت وجودها في بلغاريا وأوروبا الشرقية في عالم الذكاء الاصطناعي، عليها إنشاء نموذج لغوي كبير خاص بها يتمتع بأداء قوي ودقيق.

الحل
أنشأ باحثو INSAIT نموذج BgGPT لتلبية مجموعة كبيرة من احتياجات المطوّرين والمستخدمين الناطقين باللغة البلغارية. يتوفّر النموذج بمقاسات المَعلمات 27B و9B و2B. يتفوق كلا الصيغتَين 27B و9B على النماذج الأكبر حجمًا، مثل Qwen 2.5 72B من Alibaba وLlama 3.1 70B من Meta، وذلك باللغة البلغارية. في الوقت نفسه، يتفوق إصدار 2B على النماذج اللغوية الصغيرة الأخرى، مثل Phi 3.5 من Microsoft وQwen 2.5 3B من Alibaba. تحافظ النماذج الثلاثة على أداء تنافسي باللغة الإنجليزية، وذلك بفضل الإمكانات اللغوية المميّزة التي توفّرها Gemma 2.
"تساعدنا Gemma في تحقيق أفضل أداء في مجال معالجة اللغة الطبيعية باللغة البلغارية من خلال توفير أساس قوي وقابل للتطوير لإجراء التحسينات الدقيقة".
تم تدريب BgGPT مسبقًا على حوالي 85 مليار رمز بلغاري و15 مليار رمز باللغة الإنجليزية. كان أحد العناصر الأكثر رواجًا في تطوير BgGPT هو استخدام استراتيجية التدريب المُسبَق المستمر التقسيم والدمج الخاصة بمعهد INSAIT، ما يتيح للنموذج تعلُّم معلومات جديدة مثل البلغارية بدون استبدال المعلومات القديمة أو فقدانها، مثل فهم "جيما" العميق للرياضيات واللغة الإنجليزية. تُعرف هذه الظاهرة باسم "النسيان الكارثي"، ولا تزال تمثل تحديًا متكرّرًا في تطوير النماذج اللغوية الكبيرة.

التأثير
توفّر BgGPT الآن منصة المحادثة العامة على BgGPTt.ai باستخدام الصيغتَين 27B و2B. تعالج نماذج 2B مهام محدّدة، مثل إعادة صياغة طلبات بحث المستخدمين وتصنيفها، في حين يعالج نموذج 27B العناصر الحوارية. منذ إطلاقه في آذار (مارس) 2024، أجابت BgGPT.ai عن ملايين أسئلة المستخدمين. من خلال إصدار BgGPT، أصبحت INSAIT أيضًا أول مؤسسة في أوروبا الوسطى والشرقية تطلق نموذج لغوي كبير متقدّم ومنافس على مستوى العالم تم تطويره بشكل علني، ما يعزّز مكانة المؤسسة كمؤسسة رائدة في المنطقة.
شارك معهد INSAIT أيضًا مع المطوّرين استراتيجية التدريب المُسبَق المستمر التقسيم والدمج، والتي يمكن أن تؤدي إلى تسريع نمو نماذج الذكاء الاصطناعي بسرعة. كما شارك مسار التدريب بالكامل. إنّ إمكانية توسيع قاعدة المعلومات الخاصة بالنموذج اللغوي الكبير باستمرار بدون فقدان البيانات السابقة من شأنها تحسين كفاءة التدريب وجعل النماذج اللغوية الكبيرة أكثر ذكاءً.
48 كيلوهرتز أو أكثر
عمليات التنزيل على تطبيق "وجه ودود"*
5 ملايين
الأسئلة التي تمت الإجابة عنها على BgGPT.ai
- *عدد عمليات التنزيل من 1 إلى 31 كانون الأول (ديسمبر) 2024
الخطوات التالية
يزداد استخدام BgGPT بشكل مستمر. بدأت البرامج التجريبية في الوكالات الحكومية البلغارية، مثل "الوكالة الوطنية للإيرادات"، لاختبار فعالية نموذج اللغة الضخمة في سيناريوهات مخصّصة. أبدى معهد INSAIT أيضًا اهتمامه بتوسيع نطاق وصول BgGPT إلى مجالات أخرى، مثل التعليم والإدارة العامة وعمليات التشغيل الآلي للأنشطة التجارية.
يلتزم المطوّرون والباحثون والأكاديميون المتحمّسون في INSAIT بتطوير تكنولوجيات الذكاء الاصطناعي في أوروبا الشرقية وخارجها. في المستقبل، تخطّط INSAIT لتحسين BgGPT من خلال دمج وظائف الاتصال وإجراء المزيد من التحسينات باستخدام نماذج أساسية أكبر بالإضافة إلى نماذج التدريب لبلدان أخرى.