مشاركة

مبادرة AI Singapore توفّر الذكاء الاصطناعي بشكل أكثر شمولية في جنوب شرق آسيا باستخدام Gemma 2

تم إطلاق AI Singapore في عام 2017، وهي شبكة وطنية من المؤسسات والهيئات البحثية في مجال الذكاء الاصطناعي المخصّصة لتطوير الذكاء الاصطناعي في سنغافورة. أحد هذه المشاريع هو SEA-LION، وهو مجموعة من النماذج المفتوحة التي توفّر إمكانات النماذج اللغوية الكبيرة في بلدان جنوب شرق آسيا التي لم يسبق أن حظيت باهتمام كبير في مجال الذكاء الاصطناعي.

اختار فريق SEA-LION مجموعة Gemma، وهي مجموعة النماذج المفتوحة الخفيفة والفعّالة من Google، وذلك بسبب مفرداتها وفهمها اللغوي، بالإضافة إلى نسبة حجمها إلى أدائها. باستخدام Gemma، أنشأ مطوّرو SEA-LION نموذجًا لغويًا كبيرًا فعّالًا وسهل الاستخدام يستخدمه ملايين الأشخاص في منطقة جنوب شرق آسيا اليوم.

التحدي

لاحظ فريق SEA-LION أنّ العديد من اللغات المنطوقة في المنطقة لا يتم تمثيلها من خلال النماذج اللغوية الكبيرة الأكثر رواجًا في الوقت الحالي، ما يعني أنّ أجزاء من المنطقة ومجموعات كاملة من الأشخاص لا يمكنهم الوصول إلى العديد من تطبيقات الذكاء الاصطناعي المحتملة أو لا يمكنهم الوصول إليها على الإطلاق. تبيّن للفريق أيضًا أنّه حتى عندما كانت نماذج اللغة الكبيرة الشائعة هذه تمتلك فهمًا أساسيًا للغات المحلية في جنوب شرق آسيا، كانت تفتقر إلى فهم الاختلافات اللغوية والثقافية المعروفة للمتحدثين الأصليين.

وفقًا لما أوضحه "ويليام تيجي"، رئيس قسم الذكاء الاصطناعي في شركة AI Singapore، فإنّ معظم تقنيات الذكاء الاصطناعي في العالم تستند إلى اللغات الغربية والشرقية، ما يعني أنّه يمكن أن تضيع الكثير من المعلومات أثناء الترجمة: "تطوّرت منظومة النماذج اللغوية الكبيرة على مستوى العالم حول كيانَين: الساحل الغربي والصين. وتعكس هذه النماذج وجهات النظر هذه استنادًا إلى مجموعات البيانات التي يتم تدريبها عليها واللغات التي يتم تدريبها عليها".

"يحقّق أداة تقسيم الجمل في Gemma أداءً أفضل عند تطبيقها على اللغات المتوفّرة في منطقتنا. يمكنك الاطّلاع على ذلك في الإخراج. ويؤدي ذلك إلى تحسين أداء النموذج بشكل كبير عند تدريبه على الرموز المميّزة لإعلانات شبكة البحث، لأنّ أداة تقسيم الكلمات هذه أكثر كفاءة مقارنةً بأداة تقسيم الكلمات في النماذج الأخرى".

— "ويليام تيجي"، رئيس قسم الذكاء الاصطناعي في شركة AI Singapore

الحل

أنشأ فريق SEA-LION مجموعة شاملة من النصوص اللغوية الكبيرة التي تعكس بدقة الاختلافات الدقيقة والسياقات والتنوع الثقافي في المنطقة. لبناء نموذج لغوي كبير ملائم يفهم مجموعة جديدة تمامًا من اللغات، احتاج الفريق إلى بيانات تدريب متنوعة وعالية الجودة، لذلك قرّر التعاون مع فِرق Google DeepMind & Research. تعاون الفريق أيضًا مع متحدثين أصليين ولغويين لتصفية البيانات غير ذات الصلة الواردة من مصادر مثل محتوى المقامرة والإعلانات، ولضمان تقديم ترجمات دقيقة وطبيعية.

تم تدريب الإصدار الأخير من الفريق، وهو SEA-LION V3، بشكل متواصل مسبقًا على Gemma 2، باستخدام 200 مليار رمز مميز من بيانات SEA. تبيّن للفريق أنّ أداة تقسيم الكلمات في Gemma لم تتضمّن فقط المزيد من الرموز للغات المعنيّة، بل حقّقت أيضًا أداءً أفضل من النماذج الأخرى. تم اختيار النسخة التي تتضمّن 9 مليارات مَعلمة من Gemma لحجمها وكفاءتها، لأنّ الموارد المطلوبة لتشغيل النماذج الأكبر حجمًا قد تكون محدودة في العديد من أجزاء المنطقة.

الارتباط بين أداء "مهام اللغة الإنجليزية" في SEA-LION ومتوسط أداء SEA
مقاييس الأداء التي ترسم العلاقة بين أداء "مهام اللغة الإنجليزية" في SEA-LION ومتوسط أداء SEA

التأثير

SEA-LION V3 هي النسخة الأكثر تقدّمًا التي أنشأها الفريق حتى الآن، ويستخدمها حاليًا مطوّرو الذكاء الاصطناعي والباحثون المحليون الآخرون. أطلقت شركة التكنولوجيا GoTo مؤخرًا Sahabat-AI، وهي منظومة متكاملة للتعلم الآلي (LLM) تم إنشاؤها استنادًا إلى SEA-LION للمطوّرين الإندونيسيين. تم دمج Sahabat-AI في مساعد الذكاء الاصطناعي Dira من GoTo، ما يتيح للمستخدمين الوصول إلى خدمات الدفع Gojek وGoPay باستخدام أوامر صوتية باللغات المحلية واللهجات المحلية.

قال الرئيس التنفيذي لشركة GoTo، باتريك والوجو، إنّه يتوقّع أن تساهم مبادرة Sahabat-AI في تحسين حياة ملايين الأشخاص في إندونيسيا، مضيفًا: "ستساعد هذه المبادرة الأنشطة التجارية في التواصل مع العملاء بطرق جديدة، وستساعد الوزارات الحكومية في تطوير أدوات للتفاعل مع المواطنين بشكل أكثر شمولاً".

11

مستويات الكفاءة في لغات جنوب شرق آسيا

أكثر من 14 ألف

عمليات التنزيل في ميزة "وجه ودود"

‫38 مليون

يمكن للمستخدمين النشطين شهريًا على GoPay الوصول إلى Dira.

الخطوات التالية

يخطّط فريق الذكاء الاصطناعي في سنغافورة حاليًا للإصدار التالي من SEA-LION. والهدف من ذلك هو إنشاء إصدارات أصغر وأكبر من المَعلمات باستخدام Gemma، لتلبية مجموعة أكبر من حالات الاستخدام وتوفير مرونة أكبر للمنتديات المحلية. كان نجاح SEA-LION ضروريًا لازدهار الذكاء الاصطناعي في جنوب شرق آسيا، وتعد النماذج اللغوية الكبيرة الأخرى التي يتم إنشاؤها استنادًا إليه، مثل Sahabat-AI، مجرد البداية.

"يمثّل إطلاق الإصدار 3 من SEA-LION المستنِد إلى Gemma من خلال AI Singapore خطوة كبيرة إلى الأمام في مجال الذكاء الاصطناعي الشامل. من خلال الاستفادة من إمكانات Gemma 2 من Google، يتفوق هذا النموذج الجديد بشكل كبير على الإصدارات السابقة على مستوى مجموعة من مقاييس التقييم في جنوب شرق آسيا"، وفقًا لما قاله مانيش غوبتا، كبير المدراء في Google DeepMind. "نحن نتطلّع إلى التطبيقات المشوّقة التي ستتيح هذه الميزة والفوائد التي ستعود على المنتديات المتنوعة في جنوب شرق آسيا".