Condividi

Nexa AI ha creato il suo modello di IA generativa OmniAudio per le applicazioni edge utilizzando Gemma.

Nexa AI è un'azienda specializzata nella creazione di strumenti di IA per il mercato hardware e software edge. Per realizzare la sua missione di portare l'IA a tutti e su qualsiasi dispositivo, l'azienda offre "modelli piccoli" pronti per la produzione, ottimizzazione e compressione dell'architettura del modello e servizi di accelerazione dell'inferenza edge.

Gli sviluppatori di Nexa AI hanno utilizzato Gemma come base per una delle innovative soluzioni di IA dell'azienda: OmniAudio, un modello linguistico audio. La forza di OmniAudio risiede nella sua architettura unica che massimizza le prestazioni per le applicazioni perimetrali. Grazie a Gemma, il modello è stato lanciato con dimensioni compatte, bassa latenza, elevata precisione e privacy migliorata.

La sfida

Nexa AI voleva creare un nuovo modello di lingua audio da aggiungere al proprio inventario di strumenti di IA. A differenza dei modelli linguistici audio più tradizionali, volevano crearne uno che funzionasse interamente sul dispositivo per una maggiore accessibilità. L'utilizzo di un modello basato su cloud ha anche ridotto i problemi di privacy e la latenza per l'utente finale, nonché i costi per gli sviluppatori.

Dopo test approfonditi, gli sviluppatori di Nexa AI hanno scoperto che i modelli commerciali disponibili erano meno adatti per il deployment on-device e dovevano trovare un modello più piccolo ed efficiente che potesse funzionare on-device con la potenza migliore in assoluto. È stato allora che il team si è rivolto ai modelli open di Gemma di Google. Gli sviluppatori di Nexa AI avevano già collaborato con Gemma per creare il suo modello Octopus v2, molto apprezzato, un modello linguistico di grandi dimensioni (LLM) generativo creato anche per le applicazioni edge. Con queste informazioni in mente, sapevano che sarebbe stata la soluzione perfetta per creare il loro modello linguistico OmniAudio.

"Gemma è un punto di svolta per lo sviluppo dell'IA di confine, in quanto offre un'efficienza e un'accuratezza senza precedenti per creare modelli potenti e a basso consumo di risorse. La sua scalabilità e la facilità di integrazione lo rendono ideale anche per la sperimentazione e l'implementazione graduale."

- Alex Chen, Zack Li - Cofondatori di Nexa AI

Soluzione

OmniAudio è un modello multimodale audio-linguistico con 2, 6 miliardi di parametri che combina Gemma-2-2b, il modello di riconoscimento vocale automatico WhisperTurbo e un modulo di proiettore personalizzato per unificare le funzionalità di riconoscimento vocale e LLM in un'unica architettura. Questo modello può registrare riepiloghi, generare contenuti audio, eseguire il controllo qualità della voce e altro ancora. L'utilizzo di Gemma 2 come base ha consentito al team di Nexa AI di soddisfare le proprie priorità in termini di privacy e prestazioni, grazie alle diverse funzionalità di inferenza on-device del modello.

"Le solide capacità di comprensione del linguaggio e di generazione di contenuti di Gemma hanno reso facile perfezionare il modello per le funzionalità audio-linguistiche", ha dichiarato Zack Li, CTO di Nexa AI. Oltre a utilizzare i token funzionali per migliorare le chiamate di funzioni in OmniAudio, gli sviluppatori di Nexa AI hanno integrato Gemma 2 con WhisperTurbo per un'elaborazione audio-testo senza interruzioni. Il team ha utilizzato il proprio SDK Nexa, il motore di inferenza edge di Nexa AI, per l'inferenza del modello OmniAudio.

Secondo il team, il design efficiente di Gemma riduce notevolmente il costo per deduzione. Le sue funzionalità on-device riducono al minimo il consumo energetico ed eliminano la necessità di una connettività cloud costante, fornendo soluzioni scalabili ed economicamente vantaggiose per i casi d'uso multimodali. Tutto questo, combinato con l'architettura compatta di Gemma, ha supportato lo sviluppo di OmniAudio da parte di Nexa AI, che vanta una velocità di inferenza impressionante con una latenza minima.

Architettura del modello di OmniAudio
Grafico che confronta il rendimento in Bulgaria dei migliori LLM.

L'impatto

Con l'architettura preaddestrata di Gemma, i suoi ingegneri hanno ottenuto significativi miglioramenti delle prestazioni mantenendo l'efficienza per uno "sviluppo fluido", ha affermato Zack. "Il modello Gemma2 è leggero e ha attirato una grande community di sviluppatori, il che ci motiva a utilizzare Gemma come spina dorsale dell'LLM", ha affermato Alex. Il team ha anche citato l'eccellente documentazione di Gemma, che li ha aiutati molto durante lo sviluppo.

5,5-10,3x

Prestazioni più elevate sull'hardware consumer

Più di 31.000

download su Hugging Face**

  • *nelle versioni GGUF quantizzate FP16 e Q4_K_M
  • **numero di download dal 1° dicembre al 31 dicembre 2024

Passaggi successivi

Secondo il team di Nexa AI, Gemma è fondamentale per rendere l'IA accessibile su dispositivi in cui latenza, privacy ed efficienza energetica sono fondamentali. "I modelli basati su Gemma mantengono un'accuratezza eccezionale per attività specifiche in-domain, pur essendo abbastanza piccoli per l'implementazione edge", ha affermato Zack. Il team è entusiasta di vedere sempre più sviluppatori unirsi al percorso di creazione di soluzioni efficaci e sostenibili.

Il team di Nexa AI prevede di continuare a perfezionare OmniAudio per migliorare l'accuratezza e ridurre la latenza sui dispositivi edge. Inoltre, vuole espandere l'utilizzo di tutti i suoi modelli Gemma in applicazioni di IA on-device come agenti di conversazione, elaborazione multimodale e chiamate di funzioni, trasformando il modo in cui gli utenti interagiscono con i loro dispositivi. In futuro, il team prevede di utilizzare Gemma per creare modelli di IA multimodali e orientati all'azione avanzati.