أنشأت شركة Nexa AI نموذج الذكاء الاصطناعي التوليدي OmniAudio لتطبيقات الحواف باستخدام Gemma.
Nexa AI هي شركة متخصصة في إنشاء أدوات الذكاء الاصطناعي لسوق الأجهزة والبرامج الطرفية. لتحقيق مهمتها المتمثّلة في توفير الذكاء الاصطناعي للجميع وعلى أي جهاز، تقدّم الشركة "نماذج صغيرة" جاهزة للاستخدام، وخدمات تحسين بنية النماذج وضغطها، وتسريع الاستنتاج على الأجهزة الطرفية.
استخدَم مطوّرو الذكاء الاصطناعي في Nexa Gemma كأساس لأحد حلول الذكاء الاصطناعي المبتكرة التي توفّرها الشركة: OmniAudio، وهو نموذج للغة الصوتية. تكمن قوة OmniAudio في بنيتها الفريدة التي تحقّق أفضل أداء للتطبيقات التي تعمل على الأجهزة الطرفية. بفضل Gemma، تم إطلاق النموذج بحجم صغير مع وقت استجابة منخفض ودقة عالية وخصوصية محسّنة.
التحدي
أرادت شركة Nexa AI إنشاء نموذج جديد للغة الصوتية لإضافته إلى مستودعها من أدوات الذكاء الاصطناعي. على عكس النماذج التقليدية للغة الصوتية، أراد الفريق إنشاء نموذج يعمل بالكامل على الجهاز لتوفير إمكانية وصول أكبر. وأدى عدم استخدام نموذج مستند إلى السحابة الإلكترونية إلى تقليل المخاوف المتعلقة بالخصوصية ووقت الاستجابة لدى المستخدم النهائي، كما قلّل التكاليف على المطوّرين.
بعد إجراء اختبارات مكثّفة، تبيّن لمطوّري الذكاء الاصطناعي في Nexa أنّ النماذج التجارية المتاحة كانت أقل ملاءمةً للنشر على الأجهزة، وكانوا بحاجة إلى العثور على نموذج أصغر حجمًا وأكثر كفاءةً يمكن تشغيله على الجهاز بأفضل أداء في فئته. عندها، اتجه الفريق إلى نماذج Gemma المتاحة للجميع من Google. سبق أن تعاون مطوّرو Nexa AI مع Gemma لإنشاء نموذج Octopus v2 الذي يحظى بتقدير كبير، وهو نموذج لغوي كبير توليدي (LLM) تم إنشاؤه أيضًا للتطبيقات التي تعمل على الأجهزة الطرفية. استنادًا إلى هذه المعرفة، علموا أنّه سيكون الحلّ المثالي لإنشاء نموذج اللغة OmniAudio.
"تُعدّ Gemma ثورة في تطوير الذكاء الاصطناعي على الأجهزة الطرفية، إذ توفّر كفاءة ود accuracy لا مثيل لهما لإنشاء نماذج فعّالة وخفيفة على الموارد. وتُعدّ قابلية التوسّع وسهولة الدمج من بين العوامل التي تجعلها مثالية للتجربة والتنفيذ التدريجي".
الحل
OmniAudio هو نموذج متعدد الوسائط للغة والصوت يتضمّن 2.6 مليار مَعلمة، ويجمع بين Gemma-2-2b ونموذج التعرّف التلقائي على الكلام WhisperTurbo ووحدة مخصّصة لجهاز العرض لتوحيد إمكانات التعرّف على الكلام والمحتوى الصوتي وإمكانيات تعلُّم اللغة الآلي في بنية واحدة. يمكن لهذا النموذج تسجيل الملخصات وإنشاء محتوى صوتي وضمان جودة الصوت وغير ذلك. من خلال استخدام Gemma 2 كأساس، تمكّن فريق الذكاء الاصطناعي في Nexa من تحقيق أولويات الخصوصية والأداء، وذلك بفضل إمكانات الاستنتاج المتنوعة على الجهاز للنموذج.
"لقد سهّلت قدرات Gemma القوية في فهم اللغة وإنشاء المحتوى على تحسين النموذج لتوفير ميزات اللغة الصوتية"، هذا ما قاله "زاك لي"، رئيس قسم التكنولوجيا في شركة Nexa AI. بالإضافة إلى استخدام الرموز الوظيفية لتحسين استدعاء الدوال في OmniAudio، دمج مطوّرو Nexa AI أيضًا Gemma 2 مع WhisperTurbo لمعالجة الصوت والنص بسلاسة. استخدَم الفريق Nexa SDK، وهو محرّك الاستنتاج على الأجهزة الطرفية من Nexa AI، لاستنتاج نموذج OmniAudio.
وفقًا للفريق، يقلل التصميم الفعّال لـ "جيما" بشكل كبير من التكلفة لكل استنتاج. تعمل إمكانات Gemma على الجهاز أيضًا على تقليل استهلاك الطاقة والحدّ من الحاجة إلى الاتصال المستمر بخدمات السحابة الإلكترونية، ما يوفر حلولًا قابلة للتطوير وفعالة من حيث التكلفة لحالات الاستخدام التي تتضمن عدة وسائط. بالإضافة إلى ذلك، ساعدت بنية Gemma المدمجة شركة Nexa AI في تطوير OmniAudio، الذي يتميز بسرعة استنتاج مثيرة للإعجاب مع الحد الأدنى من وقت الاستجابة.

التأثير
من خلال البنية الأساسية التي تمّ تدريبها مسبقًا في Gemma، حقّق مهندسو Gemma تحسينات كبيرة في الأداء مع الحفاظ على الكفاءة "لتطوير سلس"، كما قال "زاك". قال "أليكس": "نموذج Gemma2 خفيف الوزن وقد جذب منتدى كبيرًا للمطوّرين، ما يشجّعنا على استخدام Gemma كمحور للنماذج اللغوية الكبرى". أشار الفريق أيضًا إلى المستندات الممتازة التي قدّمتها جيما، والتي ساعدتهم كثيرًا أثناء عملية التطوير.
من 5.5 إلى 10.3x
أداء أسرع على أجهزة المستهلك
31 ألف أو أكثر
عمليات التنزيل على تطبيق Hugging Face**
- *على مستوى إصدارات FP16 GGUF وQ4_K_M GGUF المقيَّدة
- **عدد عمليات التنزيل من 1 إلى 31 كانون الأول (ديسمبر) 2024
الخطوات التالية
وفقًا لفريق الذكاء الاصطناعي في Nexa، تساهم Gemma في تسهيل استخدام الذكاء الاصطناعي على الأجهزة التي تُعدّ فيها مدة الاستجابة والخصوصية وكفاءة استهلاك الطاقة من أهم العوامل. قال "زاك": "تحافظ النماذج المستندة إلى Gemma على دقة استثنائية لمهام محدّدة داخل النطاق، مع أنّها صغيرة بما يكفي للنشر على الأجهزة الطرفية". يسرّ الفريق رؤية المزيد من المطوّرين يشاركون في رحلة إنشاء حلول فعّالة ومستدامة.
يخطّط فريق الذكاء الاصطناعي في Nexa لمواصلة تحسين OmniAudio لتحسين الدقة وتقليل وقت الاستجابة على الأجهزة الطرفية. يريد الفريق أيضًا توسيع نطاق استخدام جميع نماذج Gemma في تطبيقات الذكاء الاصطناعي على الأجهزة، مثل موظّفي الدعم الحواري والمعالجة المتعدّدة الوسائط وطلبات تنفيذ الدوالّ، ما يؤدّي إلى تغيير طريقة تفاعل المستخدمين مع أجهزتهم. ومن الآن فصاعدًا، يعتزم الفريق الاعتماد على Gemma لإنشاء نماذج محسّنة للذكاء الاصطناعي تستند إلى عدّة وسائل وتكون موجّهة إلى الإجراءات.