به اشتراک بگذارید

Nexa AI مدل هوش مصنوعی OmniAudio خود را برای کاربردهای لبه با استفاده از Gemma ساخته است.

Nexa AI یک شرکت متخصص در ساخت ابزارهای هوش مصنوعی برای بازار سخت افزار و نرم افزار لبه است. این شرکت برای انجام ماموریت خود در رساندن هوش مصنوعی به همه و در هر دستگاهی، "مدل های کوچک" آماده تولید، بهینه سازی و فشرده سازی معماری مدل، و خدمات شتاب استنتاج لبه را ارائه می دهد.

توسعه دهندگان Nexa AI از Gemma به عنوان پایه و اساس یکی از راه حل های خلاقانه هوش مصنوعی این شرکت استفاده کردند: OmniAudio ، یک مدل به زبان صوتی. قدرت OmniAudio در معماری منحصر به فرد آن نهفته است که عملکرد را برای برنامه های لبه به حداکثر می رساند. به لطف Gemma، این مدل در اندازه جمع و جور با تأخیر کم، دقت بالا و حفظ حریم خصوصی افزایش یافته راه اندازی شد.

چالش

Nexa AI می خواست یک مدل جدید به زبان صوتی بسازد تا به موجودی ابزارهای هوش مصنوعی خود اضافه کند. برخلاف مدل‌های سنتی‌تر زبان صوتی، آن‌ها می‌خواستند مدلی بسازند که برای دسترسی بیشتر روی دستگاه کار کند. عدم استفاده از یک مدل مبتنی بر ابر همچنین باعث کاهش نگرانی‌های مربوط به حریم خصوصی و تأخیر برای کاربر نهایی و کاهش هزینه‌ها برای توسعه‌دهندگان شد.

پس از آزمایش‌های گسترده، توسعه‌دهندگان Nexa AI دریافتند که مدل‌های تجاری موجود برای استقرار روی دستگاه مناسب‌تر نیستند و باید مدلی کوچک‌تر و کارآمدتر پیدا کنند که بتواند روی دستگاه با بهترین قدرت در کلاس کار کند. این زمانی بود که تیم به مدل‌های باز Gemma گوگل روی آورد. توسعه‌دهندگان Nexa AI قبلاً با Gemma کار کرده بودند تا مدل Octopus v2 بسیار مورد توجه آن را بسازند، یک مدل زبان بزرگ (LLM) که برای برنامه‌های کاربردی ساخته شده است. با در نظر گرفتن این دانش، آنها می دانستند که این راه حل عالی برای ساخت مدل زبان OmniAudio آنها خواهد بود.

جما یک تغییر دهنده بازی برای توسعه هوش مصنوعی لبه‌ای است که کارایی و دقت بی‌نظیری را برای ایجاد مدل‌های قدرتمند و سازگار با منابع ارائه می‌دهد. مقیاس پذیری و سهولت ادغام آن نیز آن را برای آزمایش و اجرای تدریجی ایده آل می کند.

- الکس چن، زک لی - بنیانگذاران Nexa AI

راه حل

OmniAudio یک مدل چندوجهی با پارامتر 2.6B است که Gemma-2-2b، مدل تشخیص خودکار گفتار WhisperTurbo و یک ماژول پروژکتور سفارشی را برای یکپارچه سازی قابلیت های تشخیص گفتار صوتی و LLM در یک معماری ترکیب می کند. این مدل می تواند خلاصه ها را ضبط کند، محتوای صوتی تولید کند، تضمین کیفیت صدا را انجام دهد و موارد دیگر. استفاده از Gemma 2 به عنوان پایه و اساس آن، تیم Nexa AI را قادر می‌سازد تا به اولویت‌های حریم خصوصی و عملکرد خود، به لطف قابلیت‌های مختلف استنتاج بر روی دستگاه، دست یابد.

Zack Li، مدیر ارشد فناوری Nexa AI، گفت: «درک زبان قوی و قابلیت‌های تولید محتوا Gemma، تنظیم دقیق مدل را برای قابلیت‌های زبان صوتی آسان کرد. توسعه دهندگان Nexa AI علاوه بر استفاده از توکن های کاربردی برای بهبود فراخوانی عملکرد در OmniAudio، Gemma 2 را با WhisperTurbo برای پردازش متن صوتی یکپارچه ادغام کردند. این تیم از Nexa SDK خود، موتور استنتاج لبه Nexa AI، برای استنتاج مدل OmniAudio استفاده کرد.

به گفته این تیم، طراحی کارآمد Gemma به طور قابل توجهی هزینه هر استنتاج را کاهش می دهد. قابلیت‌های روی دستگاه نیز مصرف انرژی را به حداقل می‌رساند و نیاز به اتصال دائمی ابری را از بین می‌برد و راه‌حل‌های مقیاس‌پذیر و مقرون‌به‌صرفه را برای موارد استفاده چندوجهی ارائه می‌کند. همه اینها، همراه با معماری فشرده Gemma، از توسعه OmniAudio توسط Nexa AI پشتیبانی می کند که دارای سرعت استنتاج چشمگیر با حداقل تأخیر است.

معماری مدل OmniAudio
نمودار مقایسه عملکرد بلغارستان از LLM های برتر.

تاثیر

زک گفت: با معماری از پیش آموزش دیده Gemma، مهندسان آن به عملکرد قابل توجهی دست یافتند و در عین حال کارایی را برای "توسعه هموار" حفظ کردند. الکس گفت: «مدل Gemma2 سبک وزن است و جامعه توسعه دهندگان بزرگی را به خود جذب کرده است، که ما را به استفاده از Gemma به عنوان ستون فقرات LLM تشویق می کند. این تیم همچنین به مستندات عالی Gemma اشاره کرد که در طول توسعه به آنها کمک زیادی کرد.

5.5-10.3x

عملکرد سریعتر در سخت افزار مصرف کننده

31k+

دانلود در Hugging Face**

  • *در سراسر نسخه های FP16 GGUF و Q4_K_M کوانتیزه GGUF
  • **تعداد بارگیری از 1 دسامبر تا 31 دسامبر 2024

بعدش چی

به گفته تیم Nexa AI، Gemma در دسترسی به هوش مصنوعی در دستگاه‌هایی که تأخیر، حریم خصوصی و بهره‌وری انرژی بیشترین اهمیت را دارند، نقش بسزایی دارد. زاک گفت: «مدل‌های مبتنی بر جما دقت استثنایی را برای کارهای خاص درون دامنه حفظ می‌کنند، در حالی که برای استقرار لبه‌ها به اندازه کافی کوچک هستند. تیم از دیدن پیوستن توسعه دهندگان بیشتر به سفر ایجاد راه حل های تاثیرگذار و پایدار هیجان زده است.

تیم Nexa AI قصد دارد به اصلاح OmniAudio برای بهبود دقت و کاهش تأخیر در دستگاه‌های لبه ادامه دهد. آن‌ها همچنین می‌خواهند استفاده از تمام مدل‌های Gemma خود را در برنامه‌های هوش مصنوعی روی دستگاه مانند عوامل مکالمه، پردازش چندوجهی و فراخوانی عملکرد گسترش دهند و نحوه تعامل کاربران با دستگاه‌هایشان را تغییر دهند. در حرکت رو به جلو، تیم قصد دارد برای ساخت مدل‌های هوش مصنوعی چندوجهی و عمل‌گرا به Gemma تکیه کند.