Nexa AI Gemma ব্যবহার করে প্রান্ত অ্যাপ্লিকেশনের জন্য তার OmniAudio generative AI মডেল তৈরি করেছে।
Nexa AI হল এজ হার্ডওয়্যার এবং সফ্টওয়্যার বাজারের জন্য AI টুল তৈরিতে বিশেষায়িত একটি কোম্পানি। প্রত্যেকের কাছে এবং যেকোন ডিভাইসে AI নিয়ে আসার লক্ষ্য পূরণ করতে, কোম্পানিটি প্রোডাকশন-রেডি "ক্ষুদ্র মডেল", মডেল আর্কিটেকচার অপ্টিমাইজেশান এবং কম্প্রেশন এবং এজ ইনফরেন্স এক্সিলারেশন পরিষেবা অফার করে।
Nexa AI বিকাশকারীরা কোম্পানির উদ্ভাবনী AI সমাধানগুলির একটির ভিত্তি হিসাবে জেমা ব্যবহার করেছে: OmniAudio , একটি অডিও-ভাষা মডেল। OmniAudio এর শক্তি তার অনন্য আর্কিটেকচারে নিহিত যা প্রান্ত অ্যাপ্লিকেশনের জন্য পারফরম্যান্সকে সর্বাধিক করে তোলে। Gemma কে ধন্যবাদ, কম লেটেন্সি, উচ্চ নির্ভুলতা এবং উন্নত গোপনীয়তা সহ একটি কমপ্যাক্ট আকারে মডেলটি চালু হয়েছে।
চ্যালেঞ্জ
Nexa AI তার AI টুলের তালিকায় যোগ করার জন্য একটি নতুন অডিও-ভাষা মডেল তৈরি করতে চেয়েছিল। আরও ঐতিহ্যগত অডিও-ভাষা মডেলের বিপরীতে, তারা এমন একটি তৈরি করতে চেয়েছিল যা বৃহত্তর অ্যাক্সেসিবিলিটির জন্য সম্পূর্ণরূপে অন-ডিভাইস কাজ করে। ক্লাউড-ভিত্তিক মডেলে কল না করাও শেষ ব্যবহারকারীর জন্য গোপনীয়তা উদ্বেগ এবং বিলম্বিতা হ্রাস করে এবং বিকাশকারীদের জন্য খরচ কমিয়ে দেয়।
ব্যাপক পরীক্ষার পর, Nexa AI ডেভেলপাররা খুঁজে পেয়েছেন যে উপলব্ধ বাণিজ্যিক মডেলগুলি অন-ডিভাইস স্থাপনের জন্য কম উপযুক্ত এবং একটি ছোট, আরও দক্ষ মডেল খুঁজে বের করা প্রয়োজন যা সর্বোত্তম-শ্রেণীর শক্তির সাথে ডিভাইসে চলতে পারে। তখনই দলটি গুগলের জেমা ওপেন মডেলের দিকে ফিরে যায়। Nexa AI ডেভেলপাররা এর আগে Gemma-এর সাথে কাজ করেছিল এর উচ্চ-সম্মানিত অক্টোপাস v2 মডেল, একটি জেনারেটিভ লার্জ ল্যাঙ্গুয়েজ মডেল (LLM) যা প্রান্ত অ্যাপ্লিকেশনের জন্যও তৈরি করা হয়েছে। এই জ্ঞানকে মাথায় রেখে, তারা জানত যে এটি তাদের OmniAudio ভাষার মডেল তৈরি করার জন্য নিখুঁত সমাধান হবে।
“জেমা হল এজ এআই ডেভেলপমেন্টের জন্য একটি গেম-চেঞ্জার, যা শক্তিশালী, সম্পদ-বান্ধব মডেল তৈরি করতে অতুলনীয় দক্ষতা এবং নির্ভুলতা প্রদান করে। এর পরিমাপযোগ্যতা এবং একীকরণের সহজতা এটিকে পরীক্ষা এবং ধীরে ধীরে বাস্তবায়নের জন্য আদর্শ করে তোলে।"
সমাধান
OmniAudio হল একটি 2.6B-প্যারামিটার অডিও-ল্যাংগুয়েজ মাল্টিমোডাল মডেল যা Gemma-2-2b, স্বয়ংক্রিয় স্পিচ রিকগনিশন মডেল WhisperTurbo, এবং একটি কাস্টম প্রজেক্টর মডিউলকে একটি আর্কিটেকচারে অডিও-স্পিচ রিকগনিশন এবং LLM ক্ষমতাকে একত্রিত করে। এই মডেলটি সারসংক্ষেপ রেকর্ড করতে পারে, অডিও সামগ্রী তৈরি করতে পারে, ভয়েস মানের নিশ্চয়তা এবং আরও অনেক কিছু করতে পারে। Gemma 2 এর ভিত্তি হিসাবে ব্যবহার করে Nexa AI টিমকে এর গোপনীয়তা এবং কর্মক্ষমতা অগ্রাধিকারগুলি পূরণ করতে সক্ষম করেছে, মডেলটির বিভিন্ন অন-ডিভাইস ইনফারেন্স ক্ষমতার জন্য ধন্যবাদ।
নেক্সা এআই-এর CTO জ্যাক লি বলেন, "জেমার শক্তিশালী ভাষা বোঝার এবং বিষয়বস্তু তৈরির ক্ষমতা অডিও-ভাষার ক্ষমতার জন্য মডেলটিকে সূক্ষ্ম সুর করা সহজ করেছে।" OmniAudio-এ ফাংশন কলিং বাড়ানোর জন্য কার্যকরী টোকেন ব্যবহার করার পাশাপাশি, Nexa AI ডেভেলপাররা নিরবচ্ছিন্ন অডিও-টেক্সট প্রক্রিয়াকরণের জন্য WhisperTurbo-এর সাথে Gemma 2 সংহত করেছে। OmniAudio মডেল অনুমানের জন্য দলটি তাদের Nexa SDK , Nexa AI এর নিজস্ব এজ ইনফারেন্স ইঞ্জিন ব্যবহার করেছে।
দলের মতে, জেমার দক্ষ নকশা উল্লেখযোগ্যভাবে খরচ-প্রতি-অনুমানকে হ্রাস করে। এর অন-ডিভাইস ক্ষমতাগুলিও শক্তি খরচ কম করে এবং স্থির ক্লাউড সংযোগের প্রয়োজনীয়তা দূর করে, মাল্টিমোডাল ব্যবহারের ক্ষেত্রে স্কেলযোগ্য এবং সাশ্রয়ী সমাধান প্রদান করে। এই সমস্ত, জেমার কমপ্যাক্ট আর্কিটেকচারের সাথে মিলিত, Nexa AI-এর OmniAudio-এর বিকাশকে সমর্থন করে, যা ন্যূনতম লেটেন্সি সহ চিত্তাকর্ষক অনুমান গতির গর্ব করে।

প্রভাব
জেমার পূর্বপ্রশিক্ষিত স্থাপত্যের সাথে, এর প্রকৌশলীরা "মসৃণ উন্নয়ন" এর জন্য দক্ষতা বজায় রেখে উল্লেখযোগ্য কর্মক্ষমতা অর্জন করেছে, জ্যাক বলেছেন। “Gemma2 মডেল হালকা ওজনের এবং একটি বৃহৎ ডেভেলপার সম্প্রদায়কে আকৃষ্ট করেছে, যা আমাদের জেমাকে এলএলএম ব্যাকবোন হিসেবে ব্যবহার করতে অনুপ্রাণিত করে”, অ্যালেক্স বলেন। দলটি জেমার চমৎকার ডকুমেন্টেশনও উদ্ধৃত করেছে, যা তাদের বিকাশের সময় ব্যাপকভাবে সাহায্য করেছিল।
5.5-10.3x
ভোক্তা হার্ডওয়্যার উপর দ্রুত কর্মক্ষমতা
31k+
আলিঙ্গন মুখে ডাউনলোড করুন**
- *FP16 GGUF এবং Q4_K_M কোয়ান্টাইজড GGUF সংস্করণ জুড়ে
- **১ ডিসেম্বর থেকে ৩১ ডিসেম্বর, ২০২৪ পর্যন্ত ডাউনলোডের সংখ্যা
এরপর কি
Nexa AI টিমের মতে, Gemma ডিভাইসগুলিতে AI অ্যাক্সেসযোগ্য করার ক্ষেত্রে সহায়ক ভূমিকা পালন করে যেখানে লেটেন্সি, গোপনীয়তা এবং শক্তি দক্ষতা সবচেয়ে গুরুত্বপূর্ণ। "জেমা-ভিত্তিক মডেলগুলি প্রান্ত স্থাপনের জন্য যথেষ্ট ছোট থাকাকালীন নির্দিষ্ট ইন-ডোমেন কাজের জন্য ব্যতিক্রমী নির্ভুলতা বজায় রাখে," জ্যাক বলেছেন। প্রভাবশালী এবং টেকসই সমাধান তৈরির যাত্রায় আরো ডেভেলপারদের যোগ দিতে দেখে দলটি উত্তেজিত।
Nexa AI টিম সঠিকতা উন্নত করতে এবং প্রান্ত ডিভাইসে লেটেন্সি কমাতে OmniAudio পরিমার্জন চালিয়ে যাওয়ার পরিকল্পনা করেছে। ব্যবহারকারীরা তাদের ডিভাইসের সাথে কীভাবে ইন্টারঅ্যাক্ট করে তা রূপান্তরিত করে তারা অন-ডিভাইস এআই অ্যাপ্লিকেশন যেমন কথোপকথন এজেন্ট, মাল্টিমডাল প্রসেসিং এবং ফাংশন কলিং-এ এর সমস্ত জেমা মডেলের ব্যবহার প্রসারিত করতে চায়। এগিয়ে যাওয়ার জন্য, দলটি উন্নত মাল্টিমডাল এবং অ্যাকশন-ভিত্তিক এআই মডেল তৈরির জন্য জেমার উপর নির্ভর করার পরিকল্পনা করেছে।