Udostępnij

Firma Nexa AI stworzyła model generatywnej AI OmniAudio do zastosowań na urządzeniach brzegowych, korzystając z platformy Gemma.

Nexa AI to firma specjalizująca się w tworzeniu narzędzi AI na potrzeby rynku urządzeń i oprogramowania dla urządzeń peryferyjnych. Aby realizować swoją misję udostępniania AI wszystkim i na każdym urządzeniu, firma oferuje gotowe do wdrożenia „małe modele”, optymalizację i kompresję architektury modelu oraz usługi przyspieszania wnioskowania na urządzeniach brzegowych.

Deweloperzy Nexa AI wykorzystali Gemma jako podstawę jednego z innowacyjnych rozwiązań AI firmy: OmniAudio, modelu języka audio. Moc OmniAudio tkwi w jego unikalnej architekturze, która maksymalizuje wydajność w przypadku aplikacji działających na urządzeniach z systemem Linux. Dzięki Gemma model został wprowadzony w kompaktowym rozmiarze, z niskim opóźnieniem, wysoką dokładnością i większą prywatnością.

Wyzwanie

Nexa AI chciała utworzyć nowy model języka audio, aby poszerzyć swój katalog narzędzi AI. W odróżnieniu od tradycyjnych modeli językowych opartych na dźwięku chcieli stworzyć model, który działałby całkowicie na urządzeniu, aby był bardziej dostępny. Nieużywanie modelu opartego na chmurze zmniejszyło też obawy dotyczące prywatności i opóźnienia dla użytkowników oraz obniżyło koszty dla deweloperów.

Po przeprowadzeniu obszernych testów deweloperzy Nexa AI stwierdzili, że dostępne modele komercyjne nie nadają się do wdrażania na urządzeniu, i musieli znaleźć mniejszy, wydajniejszy model, który mógłby działać na urządzeniu z najlepszą mocą w swojej klasie. Wtedy zespół zaczął korzystać z otwartych modeli Gemma od Google. Deweloperzy Nexa AI współpracowali wcześniej z Gemma nad stworzeniem cenionego modelu Octopus v2, generatywnego dużego modelu językowego (LLM), który został opracowany również na potrzeby aplikacji działających na urządzeniach z użyciem technologii edge. Wiedziały, że będzie to idealne rozwiązanie do tworzenia modelu językowego OmniAudio.

„Gemma to przełomowe rozwiązanie w zakresie rozwoju AI na urządzeniach brzegowych. Zapewnia niespotykaną wydajność i dokładność, co pozwala tworzyć wydajne modele, które nie wymagają wielu zasobów. Jego skalowalność i łatwość integracji sprawiają, że jest on idealny do eksperymentowania i stopniowego wdrażania”.

– Alex Chen i Zack Li, współzałożyciele Nexa AI

Rozwiązanie

OmniAudio to multimodalny model językowo-dźwiękowy oparty na 2,6 mld parametrów, który łączy model Gemma-2-2b, model automatycznego rozpoznawania mowy WhisperTurbo i niestandardowy moduł projektora, aby scalić rozpoznawanie mowy i możliwości LLM w jednej architekturze. Model ten może nagrywać podsumowania, generować treści audio, przeprowadzać weryfikację jakości głosu i wykonywać inne zadania. Dzięki wykorzystaniu Gemma 2 zespół Nexa AI mógł spełnić swoje priorytety dotyczące prywatności i wydajności dzięki różnorodnym możliwościom wnioskowania na urządzeniu.

„Dzięki temu, że Gemma dobrze rozumie język i potrafi generować treści, łatwo było dostosować model do obsługi języka dźwiękowego” – mówi Zack Li, dyrektor ds. technologii w Nexa AI. Oprócz użycia tokenów funkcjonalnych w celu ulepszenia wywoływania funkcji w OmniAudio, deweloperzy Nexa AI zintegrowali Gemma 2 z WhisperTurbo, aby zapewnić płynne przetwarzanie tekstu na dźwięk. Do wnioskowania na podstawie modelu OmniAudio zespół użył pakietu Nexa SDK, czyli własnego silnika do wnioskowania na brzegu sieci Nexa AI.

Według zespołu wydajna konstrukcja Gemma znacznie obniża koszt na jedno wywnioskowanie. Jego możliwości na urządzeniu minimalizują zużycie energii i eliminują potrzebę stałej łączności z chmurą, zapewniając skalowalne i ekonomiczne rozwiązania do zastosowań multimodalnych. Wszystko to w połączeniu z kompaktową architekturą Gemma umożliwiło firmie Nexa AI opracowanie OmniAudio, która charakteryzuje się imponującą szybkością wnioskowania przy minimalnym opóźnieniu.

Architektura modelu OmniAudio
Wykres porównujący skuteczność najlepszych modeli LLM w języku bułgarskim.

Wpływ

Dzięki wstępnie przetrenowanej architekturze Gemma inżynierowie osiągnęli znaczne zwiększenie wydajności przy zachowaniu wydajności „płynnego rozwoju”, jak powiedział Zack. „Model Gemma2 jest lekki i przyciągnął dużą społeczność programistów, co motywuje nas do korzystania z Gemma jako głównego modelu LLM” – mówi Alex. Zespół wspomniał też o doskonałej dokumentacji, która bardzo pomogła podczas tworzenia.

5,5–10,3 razy

szybsze działanie na sprzęcie konsumenckim

Ponad 31 tys.

pobieranie w Hugging Face**

  • *w przypadku wersji GGUF FP16 i GGUF zagęszczonej za pomocą Q4_K_M
  • **liczba pobrań w okresie od 1 do 31 grudnia 2024 r.

Co dalej?

Zdaniem zespołu Nexa AI Gemma pomaga udostępniać AI na urządzeniach, na których najbardziej liczy się opóźnienie, prywatność i oszczędność energii. „Modele oparte na Gemma zapewniają wyjątkową dokładność w przypadku określonych zadań w domenie, a jednocześnie są wystarczająco małe, aby można je było wdrażać na urządzeniach brzegowych” – mówi Zack. Nasz zespół z radością obserwuje, jak coraz więcej deweloperów tworzy skuteczne i zrównoważone rozwiązania.

Zespół Nexa AI planuje dalsze ulepszanie OmniAudio w celu zwiększenia dokładności i zmniejszenia opóźnień na urządzeniach peryferyjnych. Chce też rozszerzyć stosowanie wszystkich modeli Gemma w aplikacji AI na urządzeniu, np. w usługach agentów konwersacyjnych, przetwarzaniu multimodalnym i wyzwalaniu funkcji, aby zmienić sposób interakcji użytkowników z urządzeniami. W przyszłości zespół planuje korzystać z Gemma do tworzenia ulepszonych multimodalnych modeli AI i modeli AI ukierunkowanych na działanie.