Shpërndaje

Nexa AI ndërtoi modelin e saj gjenerues të AI OmniAudio për aplikacionet e skajshme duke përdorur Gemma.

Nexa AI është një kompani e specializuar në ndërtimin e veglave të AI për tregun e harduerit dhe softuerit. Për të përmbushur misionin e saj për të sjellë AI për të gjithë dhe në çdo pajisje, kompania ofron "modele të vogla" të gatshme për prodhim, optimizim dhe kompresim të arkitekturës së modeleve dhe shërbime të përshpejtimit të konkluzioneve të skajshme.

Zhvilluesit e Nexa AI përdorën Gemma si bazë për një nga zgjidhjet inovative të AI të kompanisë: OmniAudio , një model në gjuhë audio. Fuqia e OmniAudio qëndron në arkitekturën e tij unike që maksimizon performancën për aplikacionet e skajshme. Falë Gemma, modeli u lançua në një madhësi kompakte me vonesë të ulët, saktësi të lartë dhe privatësi të përmirësuar.

Sfida

Nexa AI dëshironte të ndërtonte një model të ri në gjuhë audio për ta shtuar në inventarin e veglave të AI. Ndryshe nga modelet më tradicionale të gjuhës audio, ata donin të krijonin një që funksiononte tërësisht në pajisje për akses më të madh. Mos thirrja në një model të bazuar në renë kompjuterike gjithashtu zvogëloi shqetësimet e privatësisë dhe vonesën për përdoruesin përfundimtar dhe uli kostot për zhvilluesit.

Pas testimit të gjerë, zhvilluesit e Nexa AI zbuluan se modelet komerciale të disponueshme ishin më pak të përshtatshme për vendosjen në pajisje dhe duhej të gjenin një model më të vogël, më efikas që mund të funksiononte në pajisje me fuqinë më të mirë në klasë. Pikërisht atëherë ekipi iu drejtua modeleve të hapura Gemma të Google. Zhvilluesit e Nexa AI kishin punuar me Gemma më parë për të ndërtuar modelin e tij shumë të vlerësuar Octopus v2 , një model gjenerues të gjuhës së madhe (LLM) i ndërtuar gjithashtu për aplikacione të skajshme. Me këtë njohuri në mendje, ata e dinin se do të ishte zgjidhja perfekte për të ndërtuar modelin e tyre të gjuhës OmniAudio.

“Gemma është një ndërrues i lojës për zhvillimin e inteligjencës artificiale, duke ofruar efikasitet dhe saktësi të pashembullt për të krijuar modele të fuqishme dhe miqësore me burimet. Shkallueshmëria dhe lehtësia e integrimit e bëjnë atë ideal për eksperimentim dhe zbatim gradual.”

— Alex Chen, Zack Li — Bashkëthemeluesit e Nexa AI

Zgjidhja

OmniAudio është një model multimodal i gjuhës audio me parametra 2,6 B që kombinon Gemma-2-2b, modelin e njohjes automatike të të folurit WhisperTurbo dhe një modul projektuesi të personalizuar për të unifikuar aftësitë e njohjes së të folurit audio dhe LLM në një arkitekturë. Ky model mund të regjistrojë përmbledhje, të gjenerojë përmbajtje audio, të kryejë sigurimin e cilësisë së zërit dhe më shumë. Përdorimi i Gemma 2 si bazë i mundësoi ekipit të Nexa AI të përmbushë prioritetet e tij të privatësisë dhe performancës, falë aftësive të ndryshme të modelit për konkluzione në pajisje.

"Kuptimi i fortë i gjuhës dhe aftësitë e gjenerimit të përmbajtjes së Gemma e bënë të lehtë rregullimin e modelit për aftësitë e gjuhës audio," tha Zack Li, CTO i Nexa AI. Përveç përdorimit të shenjave funksionale për të përmirësuar thirrjen e funksionit në OmniAudio, zhvilluesit e Nexa AI integruan gjithashtu Gemma 2 me WhisperTurbo për përpunim pa ndërprerje të tekstit audio. Ekipi përdori Nexa SDK- në e tyre, motorin e vetë konkluzioneve të Nexa AI, për përfundimin e modelit OmniAudio.

Sipas ekipit, dizajni efikas i Gemma redukton ndjeshëm koston për konkluzion. Aftësitë e tij në pajisje gjithashtu minimizojnë konsumin e energjisë dhe eliminojnë nevojën për lidhje të vazhdueshme me renë kompjuterike, duke ofruar zgjidhje të shkallëzueshme dhe me kosto efektive për rastet e përdorimit multimodal. E gjithë kjo, e kombinuar me arkitekturën kompakte të Gemma, mbështeti zhvillimin e OmniAudio nga Nexa AI, i cili krenohet me shpejtësi mbresëlënëse konkluzionesh me vonesë minimale.

Arkitektura e modelit të OmniAudio
Grafik që krahason performancën bullgare të LLM-ve më të mirë.

Ndikimi

Me arkitekturën e paratrajnuar të Gemma, inxhinierët e saj arritën përfitime të konsiderueshme të performancës duke ruajtur efikasitetin për "zhvillim të qetë", tha Zack. “Modeli Gemma2 është i lehtë dhe ka tërhequr një komunitet të madh zhvilluesish, gjë që na motivon të përdorim Gemma si shtyllë kurrizore LLM”, tha Alex. Ekipi përmendi gjithashtu dokumentacionin e shkëlqyer të Gemma-s, i cili i ndihmoi ata jashtëzakonisht gjatë zhvillimit.

5,5-10,3x

performancë më e shpejtë në harduerin e konsumatorit

31k+

shkarkime në Hugging Face**

  • *nëpër versionet FP16 GGUF dhe Q4_K_M të kuantizuara GGUF
  • **numri i shkarkimeve nga 1 dhjetori deri më 31 dhjetor 2024

Çfarë është më pas

Sipas ekipit të Nexa AI, Gemma është thelbësore për ta bërë AI të aksesueshme në pajisjet ku vonesa, privatësia dhe efikasiteti i energjisë kanë më shumë rëndësi. "Modelet e bazuara në Gemma ruajnë saktësi të jashtëzakonshme për detyra specifike në domen, ndërsa janë mjaft të vogla për vendosjen e skajeve," tha Zack. Ekipi është i emocionuar të shohë më shumë zhvillues që i bashkohen rrugëtimit të krijimit të zgjidhjeve me ndikim dhe të qëndrueshëm.

Ekipi i Nexa AI planifikon të vazhdojë të rafinojë OmniAudio për të përmirësuar saktësinë dhe për të zvogëluar vonesën në pajisjet e skajshme. Ata gjithashtu duan të zgjerojnë përdorimin e të gjitha modeleve të saj Gemma në aplikacionet e inteligjencës artificiale në pajisje, të tilla si agjentët e bisedës, përpunimi multimodal dhe thirrjet funksionale, duke transformuar mënyrën se si përdoruesit ndërveprojnë me pajisjet e tyre. Duke ecur përpara, ekipi planifikon të mbështetet në Gemma për ndërtimin e modeleve të përmirësuara multimodale dhe të orientuara nga AI.