Nexa AI creó su modelo de IA generativa OmniAudio para aplicaciones de perímetro con Gemma.
Nexa AI es una empresa especializada en la compilación de herramientas de IA para el mercado de hardware y software de vanguardia. Para cumplir con su misión de llevar la IA a todas las personas y a cualquier dispositivo, la empresa ofrece servicios de inferencia de borde, optimización y compresión de arquitectura de modelos, y servicios de aceleración de inferencia de borde.
Los desarrolladores de Nexa AI utilizaron Gemma como base para una de las soluciones de IA innovadoras de la empresa: OmniAudio, un modelo de lenguaje de audio. La fortaleza de OmniAudio reside en su arquitectura única que maximiza el rendimiento de las aplicaciones de perímetro. Gracias a Gemma, el modelo se lanzó en un tamaño compacto con baja latencia, alta precisión y privacidad mejorada.
El desafío
Nexa AI quería crear un nuevo modelo de lenguaje de audio para agregarlo a su inventario de herramientas de IA. A diferencia de los modelos de lenguaje de audio más tradicionales, querían crear uno que funcionara completamente en el dispositivo para brindar mayor accesibilidad. No llamar a un modelo basado en la nube también redujo las preocupaciones sobre la privacidad y la latencia para el usuario final, y redujo los costos para los desarrolladores.
Después de realizar pruebas exhaustivas, los desarrolladores de Nexa AI descubrieron que los modelos comerciales disponibles eran menos adecuados para la implementación en el dispositivo y que necesitaban encontrar un modelo más pequeño y eficiente que pudiera ejecutarse en el dispositivo con la mejor potencia de su clase. Fue entonces cuando el equipo recurrió a los modelos abiertos de Gemma de Google. Los desarrolladores de Nexa AI ya habían trabajado con Gemma para compilar su modelo Octopus v2 muy respetado, un modelo de lenguaje grande (LLM) generativo que también se compiló para aplicaciones de perímetro. Con este conocimiento en mente, supieron que sería la solución perfecta para compilar su modelo de lenguaje OmniAudio.
“Gemma es un cambio de juego para el desarrollo de IA perimetral, ya que ofrece una eficiencia y precisión sin precedentes para crear modelos potentes y amigables con los recursos. Su escalabilidad y facilidad de integración también lo hacen ideal para la experimentación y la implementación gradual”.
La solución
OmniAudio es un modelo multimodal de audio y lenguaje de 2, 600 millones de parámetros que combina Gemma-2-2b, el modelo de reconocimiento de voz automático WhisperTurbo y un módulo de proyector personalizado para unificar las capacidades de reconocimiento de audio y voz y de LLM en una sola arquitectura. Este modelo puede grabar resúmenes, generar contenido de audio, realizar control de calidad de voz y mucho más. El uso de Gemma 2 como base permitió al equipo de IA de Nexa cumplir con sus prioridades de privacidad y rendimiento, gracias a las diversas capacidades de inferencia en el dispositivo del modelo.
“Las sólidas capacidades de comprensión del lenguaje y generación de contenido de Gemma facilitaron la optimización del modelo para las capacidades de audio y lenguaje”, dijo Zack Li, CTO de Nexa AI. Además de usar tokens funcionales para mejorar las llamadas a función en OmniAudio, los desarrolladores de Nexa AI también integraron Gemma 2 con WhisperTurbo para un procesamiento de audio y texto sin interrupciones. El equipo usó su SDK de Nexa, el motor de inferencia de perímetro de Nexa AI, para la inferencia del modelo de OmniAudio.
Según el equipo, el diseño eficiente de Gemma reduce significativamente el costo por inferencia. Sus capacidades integradas en el dispositivo también minimizan el consumo de energía y eliminan la necesidad de conectividad constante a la nube, lo que proporciona soluciones escalables y rentables para casos de uso multimodales. Todo esto, combinado con la arquitectura compacta de Gemma, respaldó el desarrollo de OmniAudio por parte de Nexa AI, que cuenta con una velocidad de inferencia impresionante con una latencia mínima.

El impacto
Con la arquitectura preentrenada de Gemma, sus ingenieros lograron mejoras significativas en el rendimiento y, al mismo tiempo, mantuvieron la eficiencia para un “desarrollo fluido”, dijo Zack. “El modelo Gemma2 es ligero y atrajo a una gran comunidad de desarrolladores, lo que nos motiva a usar Gemma como la columna vertebral de LLM”, dijo Alex. El equipo también mencionó la excelente documentación de Gemma, que los ayudó mucho durante el desarrollo.
5.5-10.3x
Rendimiento más rápido en hardware para consumidores
Más de 31,000
descargas en Hugging Face**
- *En las versiones de GGUF quantizadas de Q4_K_M y GGUF de FP16
- **Cantidad de descargas del 1 al 31 de diciembre de 2024
¿Qué sigue?
Según el equipo de Nexa AI, Gemma es fundamental para que la IA sea accesible en dispositivos en los que la latencia, la privacidad y la eficiencia energética son lo más importante. “Los modelos basados en Gemma mantienen una precisión excepcional para tareas específicas en el dominio y, al mismo tiempo, son lo suficientemente pequeños para la implementación en el perímetro”, dijo Zack. Al equipo le entusiasma ver que más desarrolladores se unan al viaje de crear soluciones impactantes y sostenibles.
El equipo de IA de Nexa planea seguir perfeccionando OmniAudio para mejorar la precisión y reducir la latencia en los dispositivos perimetrales. También quieren expandir el uso de todos sus modelos de Gemma en aplicaciones de IA integradas en el dispositivo, como agentes de conversación, procesamiento multimodal y llamadas a funciones, lo que transforma la forma en que los usuarios interactúan con sus dispositivos. En el futuro, el equipo planea usar Gemma para compilar modelos de IA multimodales y orientados a la acción mejorados.