Nexa AI مدل هوش مصنوعی OmniAudio خود را برای کاربردهای لبه با استفاده از Gemma ساخته است.
Nexa AI یک شرکت متخصص در ساخت ابزارهای هوش مصنوعی برای بازار سخت افزار و نرم افزار لبه است. این شرکت برای انجام ماموریت خود در رساندن هوش مصنوعی به همه و در هر دستگاهی، "مدل های کوچک" آماده تولید، بهینه سازی و فشرده سازی معماری مدل، و خدمات شتاب استنتاج لبه را ارائه می دهد.
توسعه دهندگان Nexa AI از Gemma به عنوان پایه و اساس یکی از راه حل های خلاقانه هوش مصنوعی این شرکت استفاده کردند: OmniAudio ، یک مدل به زبان صوتی. قدرت OmniAudio در معماری منحصر به فرد آن نهفته است که عملکرد را برای برنامه های لبه به حداکثر می رساند. به لطف Gemma، این مدل در اندازه جمع و جور با تأخیر کم، دقت بالا و حفظ حریم خصوصی افزایش یافته راه اندازی شد.
چالش
Nexa AI می خواست یک مدل جدید به زبان صوتی بسازد تا به موجودی ابزارهای هوش مصنوعی خود اضافه کند. برخلاف مدلهای سنتیتر زبان صوتی، آنها میخواستند مدلی بسازند که برای دسترسی بیشتر روی دستگاه کار کند. عدم استفاده از یک مدل مبتنی بر ابر همچنین باعث کاهش نگرانیهای مربوط به حریم خصوصی و تأخیر برای کاربر نهایی و کاهش هزینهها برای توسعهدهندگان شد.
پس از آزمایشهای گسترده، توسعهدهندگان Nexa AI دریافتند که مدلهای تجاری موجود برای استقرار روی دستگاه مناسبتر نیستند و باید مدلی کوچکتر و کارآمدتر پیدا کنند که بتواند روی دستگاه با بهترین قدرت در کلاس کار کند. این زمانی بود که تیم به مدلهای باز Gemma گوگل روی آورد. توسعهدهندگان Nexa AI قبلاً با Gemma کار کرده بودند تا مدل Octopus v2 بسیار مورد توجه آن را بسازند، یک مدل زبان بزرگ (LLM) که برای برنامههای کاربردی ساخته شده است. با در نظر گرفتن این دانش، آنها می دانستند که این راه حل عالی برای ساخت مدل زبان OmniAudio آنها خواهد بود.
جما یک تغییر دهنده بازی برای توسعه هوش مصنوعی لبهای است که کارایی و دقت بینظیری را برای ایجاد مدلهای قدرتمند و سازگار با منابع ارائه میدهد. مقیاس پذیری و سهولت ادغام آن نیز آن را برای آزمایش و اجرای تدریجی ایده آل می کند.
راه حل
OmniAudio یک مدل چندوجهی با پارامتر 2.6B است که Gemma-2-2b، مدل تشخیص خودکار گفتار WhisperTurbo و یک ماژول پروژکتور سفارشی را برای یکپارچه سازی قابلیت های تشخیص گفتار صوتی و LLM در یک معماری ترکیب می کند. این مدل می تواند خلاصه ها را ضبط کند، محتوای صوتی تولید کند، تضمین کیفیت صدا را انجام دهد و موارد دیگر. استفاده از Gemma 2 به عنوان پایه و اساس آن، تیم Nexa AI را قادر میسازد تا به اولویتهای حریم خصوصی و عملکرد خود، به لطف قابلیتهای مختلف استنتاج بر روی دستگاه، دست یابد.
Zack Li، مدیر ارشد فناوری Nexa AI، گفت: «درک زبان قوی و قابلیتهای تولید محتوا Gemma، تنظیم دقیق مدل را برای قابلیتهای زبان صوتی آسان کرد. توسعه دهندگان Nexa AI علاوه بر استفاده از توکن های کاربردی برای بهبود فراخوانی عملکرد در OmniAudio، Gemma 2 را با WhisperTurbo برای پردازش متن صوتی یکپارچه ادغام کردند. این تیم از Nexa SDK خود، موتور استنتاج لبه Nexa AI، برای استنتاج مدل OmniAudio استفاده کرد.
به گفته این تیم، طراحی کارآمد Gemma به طور قابل توجهی هزینه هر استنتاج را کاهش می دهد. قابلیتهای روی دستگاه نیز مصرف انرژی را به حداقل میرساند و نیاز به اتصال دائمی ابری را از بین میبرد و راهحلهای مقیاسپذیر و مقرونبهصرفه را برای موارد استفاده چندوجهی ارائه میکند. همه اینها، همراه با معماری فشرده Gemma، از توسعه OmniAudio توسط Nexa AI پشتیبانی می کند که دارای سرعت استنتاج چشمگیر با حداقل تأخیر است.

تاثیر
زک گفت: با معماری از پیش آموزش دیده Gemma، مهندسان آن به عملکرد قابل توجهی دست یافتند و در عین حال کارایی را برای "توسعه هموار" حفظ کردند. الکس گفت: «مدل Gemma2 سبک وزن است و جامعه توسعه دهندگان بزرگی را به خود جذب کرده است، که ما را به استفاده از Gemma به عنوان ستون فقرات LLM تشویق می کند. این تیم همچنین به مستندات عالی Gemma اشاره کرد که در طول توسعه به آنها کمک زیادی کرد.
5.5-10.3x
عملکرد سریعتر در سخت افزار مصرف کننده
31k+
دانلود در Hugging Face**
- *در سراسر نسخه های FP16 GGUF و Q4_K_M کوانتیزه GGUF
- **تعداد بارگیری از 1 دسامبر تا 31 دسامبر 2024
بعدش چی
به گفته تیم Nexa AI، Gemma در دسترسی به هوش مصنوعی در دستگاههایی که تأخیر، حریم خصوصی و بهرهوری انرژی بیشترین اهمیت را دارند، نقش بسزایی دارد. زاک گفت: «مدلهای مبتنی بر جما دقت استثنایی را برای کارهای خاص درون دامنه حفظ میکنند، در حالی که برای استقرار لبهها به اندازه کافی کوچک هستند. تیم از دیدن پیوستن توسعه دهندگان بیشتر به سفر ایجاد راه حل های تاثیرگذار و پایدار هیجان زده است.
تیم Nexa AI قصد دارد به اصلاح OmniAudio برای بهبود دقت و کاهش تأخیر در دستگاههای لبه ادامه دهد. آنها همچنین میخواهند استفاده از تمام مدلهای Gemma خود را در برنامههای هوش مصنوعی روی دستگاه مانند عوامل مکالمه، پردازش چندوجهی و فراخوانی عملکرد گسترش دهند و نحوه تعامل کاربران با دستگاههایشان را تغییر دهند. در حرکت رو به جلو، تیم قصد دارد برای ساخت مدلهای هوش مصنوعی چندوجهی و عملگرا به Gemma تکیه کند.