Nexa AI a créé son modèle d'IA générative OmniAudio pour les applications edge à l'aide de Gemma.
Nexa AI est une entreprise spécialisée dans la création d'outils d'IA pour le marché du matériel et des logiciels de pointe. Pour accomplir sa mission de rendre l'IA accessible à tous et sur n'importe quel appareil, l'entreprise propose des "petits modèles" prêts à la production, une optimisation et une compression de l'architecture des modèles, ainsi que des services d'accélération de l'inférence en périphérie.
Les développeurs Nexa AI ont utilisé Gemma comme base pour l'une des solutions d'IA innovantes de l'entreprise: OmniAudio, un modèle audio-langage. La force d'OmniAudio réside dans son architecture unique qui maximise les performances des applications de pointe. Grâce à Gemma, le modèle a été lancé dans une taille compacte, avec une faible latence, une précision élevée et une confidentialité renforcée.
Problématique
Nexa AI souhaitait créer un nouveau modèle audio-linguistique à ajouter à son inventaire d'outils d'IA. Contrairement aux modèles de langage audio plus traditionnels, ils souhaitaient en créer un qui fonctionnait entièrement sur l'appareil pour une meilleure accessibilité. En ne faisant pas appel à un modèle cloud, nous avons également réduit les problèmes de confidentialité et la latence pour l'utilisateur final, et les coûts pour les développeurs.
Après des tests approfondis, les développeurs de Nexa AI ont constaté que les modèles commerciaux disponibles étaient moins adaptés au déploiement sur l'appareil. Ils ont donc dû trouver un modèle plus petit et plus efficace pouvant s'exécuter sur l'appareil avec une puissance optimale. C'est alors que l'équipe s'est tournée vers les modèles ouverts Gemma de Google. Les développeurs de Nexa AI avaient déjà travaillé avec Gemma pour créer son modèle Octopus v2, un grand modèle de langage (LLM) génératif également conçu pour les applications edge. Fort de ces connaissances, il savait que c'était la solution idéale pour créer son modèle de langage OmniAudio.
"Gemma est un outil révolutionnaire pour le développement de l'IA edge. Il offre une efficacité et une précision inégalées pour créer des modèles puissants et respectueux des ressources. Sa scalabilité et sa facilité d'intégration en font également un outil idéal pour les tests et l'implémentation progressive."
Solution
OmniAudio est un modèle multimodal audio-langage de 2, 6 milliards de paramètres qui combine Gemma-2-2b, le modèle de reconnaissance vocale automatique WhisperTurbo et un module de projecteur personnalisé pour unifier les fonctionnalités de reconnaissance vocale et de LLM dans une même architecture. Ce modèle peut enregistrer des résumés, générer du contenu audio, effectuer un contrôle qualité de la voix, etc. L'équipe Nexa AI a pu répondre à ses priorités en matière de confidentialité et de performances en utilisant Gemma 2 comme base, grâce aux diverses capacités d'inférence sur l'appareil du modèle.
"Les capacités de compréhension du langage et de génération de contenu de Gemma ont permis de facilement affiner le modèle pour les fonctionnalités audio-langage", a déclaré Zack Li, directeur technique de Nexa AI. En plus d'utiliser des jetons fonctionnels pour améliorer l'appel de fonction dans OmniAudio, les développeurs de Nexa AI ont également intégré Gemma 2 à WhisperTurbo pour un traitement audio-texte fluide. L'équipe a utilisé son SDK Nexa, le moteur d'inférence edge de Nexa AI, pour l'inférence du modèle OmniAudio.
Selon l'équipe, la conception efficace de Gemma réduit considérablement le coût par inférence. Ses fonctionnalités sur l'appareil réduisent également la consommation d'énergie et éliminent le besoin d'une connectivité cloud constante, offrant ainsi des solutions évolutives et économiques pour les cas d'utilisation multimodaux. Tout cela, combiné à l'architecture compacte de Gemma, a permis à Nexa AI de développer OmniAudio, qui offre une vitesse d'inférence impressionnante avec une latence minimale.

L'impact
Grâce à l'architecture préentrainée de Gemma, ses ingénieurs ont obtenu des gains de performances significatifs tout en conservant l'efficacité pour un "développement fluide", a déclaré Zack. "Le modèle Gemma2 est léger et a attiré une grande communauté de développeurs. Cela nous motive à utiliser Gemma comme épine dorsale des LLM", a déclaré Alex. L'équipe a également cité l'excellente documentation de Gemma, qui l'a beaucoup aidée pendant le développement.
5,5 à 10,3 x
des performances plus rapides sur le matériel grand public ;
31 000 et plus
téléchargements sur Hugging Face**
- *sur les versions GGUF FP16 et GGUF linéarisée Q4_K_M
- **Nombre de téléchargements du 1er décembre au 31 décembre 2024
Étapes suivantes
Selon l'équipe Nexa AI, Gemma est essentiel pour rendre l'IA accessible sur les appareils où la latence, la confidentialité et l'efficacité énergétique sont les plus importantes. "Les modèles basés sur Gemma conservent une précision exceptionnelle pour des tâches spécifiques dans le domaine, tout en étant suffisamment petits pour un déploiement en périphérie", a déclaré Zack. L'équipe est ravie de voir de plus en plus de développeurs se lancer dans la création de solutions efficaces et durables.
L'équipe Nexa AI prévoit de continuer à affiner OmniAudio pour améliorer la précision et réduire la latence sur les appareils de périphérie. Elle souhaite également étendre l'utilisation de tous ses modèles Gemma dans des applications d'IA sur l'appareil telles que les agents conversationnels, le traitement multimodal et l'appel de fonction, afin de transformer la façon dont les utilisateurs interagissent avec leurs appareils. À l'avenir, l'équipe prévoit de s'appuyer sur Gemma pour créer des modèles d'IA multimodale et axés sur l'action améliorés.