शेयर करें

Nexa AI ने Gemma का इस्तेमाल करके, एज ऐप्लिकेशन के लिए OmniAudio जनरेटिव एआई मॉडल बनाया है.

Nexa AI एक ऐसी कंपनी है जो एज हार्डवेयर और सॉफ़्टवेयर मार्केट के लिए एआई टूल बनाने में माहिर है. एआई को सभी के लिए और हर डिवाइस पर उपलब्ध कराने के अपने मिशन को पूरा करने के लिए, कंपनी प्रोडक्शन के लिए तैयार “छोटे मॉडल”, मॉडल के आर्किटेक्चर को ऑप्टिमाइज़ करने और कंप्रेस करने की सुविधाएं, और एज इंफ़रेंस की सुविधाओं को तेज़ करने की सेवाएं देती है.

Nexa के एआई डेवलपर ने कंपनी के एआई से जुड़े इनोवेटिव समाधानों में से एक के लिए, Gemma का इस्तेमाल किया: OmniAudio, जो ऑडियो-भाषा मॉडल है. OmniAudio की खास बात यह है कि यह एक यूनीक आर्किटेक्चर पर काम करता है. इससे, एज ऐप्लिकेशन की परफ़ॉर्मेंस बेहतर होती है. Gemma की मदद से, मॉडल को छोटे साइज़ में लॉन्च किया गया है. इसमें कम इंतज़ार, ज़्यादा सटीक नतीजे, और बेहतर निजता की सुविधा मिलती है.

चुनौती

Nexa AI को एआई टूल की इन्वेंट्री में जोड़ने के लिए, ऑडियो-भाषा का नया मॉडल बनाना था. वे ऑडियो-भाषा के पारंपरिक मॉडल के बजाय, ऐसा मॉडल बनाना चाहते थे जो ज़्यादा से ज़्यादा लोगों के लिए उपलब्ध हो. क्लाउड-आधारित मॉडल का इस्तेमाल न करने से, असली उपयोगकर्ता की निजता से जुड़ी समस्याओं और इंतज़ार के समय में भी कमी आई. साथ ही, डेवलपर के लिए लागत भी कम हुई.

ज़्यादा टेस्टिंग के बाद, Nexa के एआई डेवलपर को पता चला कि डिवाइस पर लागू करने के लिए, मौजूदा कमर्शियल मॉडल काफ़ी सही नहीं हैं. इसलिए, उन्हें एक ऐसा छोटा और ज़्यादा असरदार मॉडल ढूंढना था जो डिवाइस पर सबसे बेहतर तरीके से काम कर सके. इसके बाद, टीम ने Google के Gemma ओपन मॉडल का इस्तेमाल किया. Nexa के एआई डेवलपर ने पहले भी Gemma के साथ मिलकर काम किया था. इस दौरान, उन्होंने Octopus v2 मॉडल बनाया था. यह एक जनरेटिव लार्ज लैंग्वेज मॉडल (एलएलएम) है, जिसे एज ऐप्लिकेशन के लिए भी बनाया गया है. इस जानकारी को ध्यान में रखते हुए, उन्हें पता था कि यह उनके OmniAudio भाषा मॉडल को बनाने का सबसे सही तरीका होगा.

“Gemma, एज एआई के डेवलपमेंट के लिए एक गेम-चेंजर है. यह बेहतरीन और सटीक तरीके से काम करता है. साथ ही, यह ज़्यादा संसाधनों वाले मॉडल बनाने में मदद करता है. इसे आसानी से स्केल किया जा सकता है और इंटिग्रेट किया जा सकता है. इसलिए, यह एक्सपेरिमेंट करने और धीरे-धीरे लागू करने के लिए भी सही है.”

— ऐलेक्स चेन, जैक ली — Nexa AI के को-फ़ाउंडर

समाधान

OmniAudio, 2.6 अरब पैरामीटर वाला ऑडियो-भाषा मल्टीमोडल मॉडल है. इसमें Gemma-2-2b, अपने-आप बोली पहचानने की सुविधा देने वाला मॉडल WhisperTurbo, और कस्टम प्रोजेक्टर मॉड्यूल को एक साथ जोड़ा गया है. इससे ऑडियो-बोली पहचानने की सुविधा और एलएलएम की सुविधाओं को एक ही आर्किटेक्चर में एक साथ जोड़ा जा सकता है. यह मॉडल, खास जानकारी रिकॉर्ड कर सकता है, ऑडियो कॉन्टेंट जनरेट कर सकता है, और आवाज़ की क्वालिटी की जांच कर सकता है. इसके अलावा, यह और भी कई काम कर सकता है. Gemma 2 को फ़ाउंडेशन के तौर पर इस्तेमाल करने से, Nexa की एआई टीम को निजता और परफ़ॉर्मेंस से जुड़ी प्राथमिकताओं को पूरा करने में मदद मिली. इसकी वजह यह है कि मॉडल में, डिवाइस पर अनुमान लगाने की अलग-अलग सुविधाएं हैं.

Nexa AI के सीटीओ जैक ली ने कहा, “भाषा को बेहतर तरीके से समझने और कॉन्टेंट जनरेट करने की Gemma की क्षमताओं की मदद से, ऑडियो-भाषा की सुविधाओं के लिए मॉडल को आसानी से बेहतर बनाया जा सका.” OmniAudio में फ़ंक्शन कॉलिंग को बेहतर बनाने के लिए फ़ंक्शनल टोकन का इस्तेमाल करने के अलावा, Nexa के एआई डेवलपर ने ऑडियो-टेक्स्ट को आसानी से प्रोसेस करने के लिए, Gemma 2 को WhisperTurbo के साथ इंटिग्रेट किया है. OmniAudio मॉडल के अनुमान के लिए, टीम ने अपने Nexa SDK का इस्तेमाल किया. यह Nexa AI का अपना एज इंफ़रेंस इंजन है.

टीम के मुताबिक, Gemma के बेहतर डिज़ाइन की वजह से, हर अनुमान की लागत काफ़ी कम हो जाती है. डिवाइस पर काम करने की इस सुविधा की मदद से, ऊर्जा की खपत भी कम होती है. साथ ही, क्लाउड से लगातार कनेक्ट रहने की ज़रूरत भी नहीं होती. इससे, अलग-अलग तरह के इस्तेमाल के उदाहरणों के लिए, स्केलेबल और किफ़ायती समाधान मिलते हैं. इन सभी सुविधाओं के साथ-साथ, Gemma के कॉम्पैक्ट आर्किटेक्चर की मदद से, Nexa AI ने OmniAudio को डेवलप किया है. इसमें कम से कम इंतज़ार के साथ, अनुमान लगाने की बेहतर स्पीड मिलती है.

OmniAudio का मॉडल आर्किटेक्चर
चार्ट में, बुल्गारिया में एलएलएम प्रोग्राम की परफ़ॉर्मेंस की तुलना की गई है.

असर

जैक ने बताया कि Gemma के पहले से ट्रेन किए गए आर्किटेक्चर की मदद से, उसके इंजीनियरों को परफ़ॉर्मेंस में काफ़ी बढ़ोतरी मिली. साथ ही, “बेहतर तरीके से डेवलपमेंट” के लिए, बेहतर परफ़ॉर्मेंस भी बनी रही. एलेक्स ने बताया, “Gemma2 मॉडल लाइटवेट है और इसने बड़ी डेवलपर कम्यूनिटी का ध्यान खींचा है. इससे हमें एलएलएम के बैकबोन के तौर पर Gemma का इस्तेमाल करने की प्रेरणा मिली है.” टीम ने Gemma के बेहतरीन दस्तावेज़ का भी हवाला दिया, जिससे उन्हें डेवलपमेंट के दौरान काफ़ी मदद मिली.

5.5 से 10.3 गुना

उपभोक्ता के हार्डवेयर पर तेज़ परफ़ॉर्मेंस

31 हज़ार से ज़्यादा

Hugging Face पर डाउनलोड**

  • *FP16 GGUF और Q4_K_M क्वांटिज़ किए गए GGUF वर्शन में
  • **1 दिसंबर से 31 दिसंबर, 2024 तक के डाउनलोड की संख्या

अब क्या होगा

Nexa की एआई टीम के मुताबिक, Gemma की मदद से एआई को उन डिवाइसों पर इस्तेमाल किया जा सकता है जहां इंतज़ार का समय, निजता, और ऊर्जा की खपत सबसे ज़्यादा मायने रखती है. जैक ने बताया, “Gemma पर आधारित मॉडल, डोमेन के खास टास्क के लिए बेहद सटीक नतीजे देते हैं. साथ ही, ये एज डिप्लॉयमेंट के लिए काफ़ी छोटे होते हैं.” टीम को यह देखकर खुशी हो रही है कि ज़्यादा डेवलपर, असरदार और बेहतर समाधान बनाने की इस यात्रा में शामिल हो रहे हैं.

Nexa की एआई टीम, OmniAudio को बेहतर बनाना जारी रखेगी, ताकि एज डिवाइसों पर सटीक नतीजे मिल सकें और इंतज़ार का समय कम हो सके. वे डिवाइस पर मौजूद एआई (AI) ऐप्लिकेशन में, Gemma के सभी मॉडल का इस्तेमाल बढ़ाना चाहते हैं. जैसे, बातचीत वाले एजेंट, कई मोड में प्रोसेस करने की सुविधा, और फ़ंक्शन कॉलिंग. इससे, उपयोगकर्ताओं के डिवाइसों के साथ इंटरैक्ट करने के तरीके में बदलाव होगा. आने वाले समय में, टीम बेहतर मल्टीमोडल और कार्रवाई पर आधारित एआई मॉडल बनाने के लिए, Gemma का इस्तेमाल करेगी.