Compartilhar

A Nexa AI criou o modelo de IA generativa OmniAudio para aplicativos de borda usando o Gemma.

A Nexa AI é uma empresa especializada na criação de ferramentas de IA para o mercado de hardware e software de ponta. Para cumprir sua missão de levar a IA a todos e em qualquer dispositivo, a empresa oferece "modelos pequenos" prontos para produção, otimização e compactação da arquitetura de modelos e serviços de aceleração de inferência de borda.

Os desenvolvedores de IA da Nexa usaram o Gemma como base para uma das soluções inovadoras de IA da empresa: o OmniAudio, um modelo de linguagem de áudio. O OmniAudio se destaca pela arquitetura exclusiva que maximiza a performance de aplicativos de borda. Graças ao Gemma, o modelo foi lançado em um tamanho compacto com baixa latência, alta precisão e privacidade aprimorada.

O desafio

A Nexa AI queria criar um novo modelo de linguagem de áudio para adicionar ao inventário de ferramentas de IA. Ao contrário dos modelos de linguagem de áudio mais tradicionais, eles queriam criar um que funcionasse totalmente no dispositivo para maior acessibilidade. Não usar um modelo baseado na nuvem também reduziu as preocupações com a privacidade e a latência para o usuário final, além de reduzir os custos para os desenvolvedores.

Após testes extensivos, os desenvolvedores da Nexa AI descobriram que os modelos comerciais disponíveis eram menos adequados para implantação no dispositivo e precisavam encontrar um modelo menor e mais eficiente que pudesse ser executado no dispositivo com a melhor potência da categoria. Foi então que a equipe recorreu aos modelos abertos do Gemma do Google. Os desenvolvedores de IA da Nexa já haviam trabalhado com o Gemma para criar o modelo Octopus v2, um modelo de linguagem grande (LLM) generativo também criado para aplicativos de ponta. Com esse conhecimento em mente, eles sabiam que seria a solução perfeita para criar o modelo de linguagem do OmniAudio.

"O Gemma é uma mudança de jogo para o desenvolvimento de IA de ponta, oferecendo eficiência e precisão incomparáveis para criar modelos poderosos e econômicos. A escalabilidade e a facilidade de integração também tornam o produto ideal para experimentação e implementação gradual."

— Alex Chen e Zack Li, cofundadores da Nexa AI

A solução

O OmniAudio é um modelo multimodal de áudio e linguagem com 2, 6 bilhões de parâmetros que combina o Gemma-2-2b, o modelo de reconhecimento de fala automática WhisperTurbo e um módulo de projetor personalizado para unificar o reconhecimento de áudio e fala e os recursos de LLM em uma arquitetura. Esse modelo pode gravar resumos, gerar conteúdo de áudio, realizar a garantia de qualidade de voz e muito mais. O uso do Gemma 2 como base permitiu que a equipe de IA da Nexa atendesse às prioridades de privacidade e desempenho, graças aos diversos recursos de inferência no dispositivo do modelo.

"Os recursos avançados de compreensão de linguagem e geração de conteúdo do Gemma facilitaram o ajuste fino do modelo para recursos de linguagem de áudio", disse Zack Li, CTO da Nexa AI. Além de usar tokens funcionais para melhorar a chamada de função no OmniAudio, os desenvolvedores da Nexa AI também integraram o Gemma 2 ao WhisperTurbo para processamento de áudio-texto sem problemas. A equipe usou o SDK do Nexa, o próprio mecanismo de inferência de borda da Nexa AI, para a inferência do modelo OmniAudio.

De acordo com a equipe, o design eficiente do Gemma reduz significativamente o custo por inferência. Os recursos no dispositivo também minimizam o consumo de energia e eliminam a necessidade de conectividade constante à nuvem, oferecendo soluções escalonáveis e econômicas para casos de uso multimodais. Tudo isso, combinado com a arquitetura compacta do Gemma, apoiou o desenvolvimento da OmniAudio pela Nexa AI, que tem uma velocidade de inferência impressionante com latência mínima.

Arquitetura do modelo da OmniAudio
Gráfico comparando a performance búlgara dos principais LLMs.

O impacto

Com a arquitetura pré-treinada do Gemma, os engenheiros alcançaram ganhos de desempenho significativos, mantendo a eficiência para um "desenvolvimento tranquilo", disse Zack. "O modelo Gemma2 é leve e atraiu uma grande comunidade de desenvolvedores, o que nos motiva a usar o Gemma como backbone de LLM", disse Alex. A equipe também citou a excelente documentação de Gemma, que ajudou muito durante o desenvolvimento.

5,5-10,3x

desempenho mais rápido em hardwares de consumo

31 mil ou mais

downloads no Hugging Face**

  • *em FP16 GGUF e Q4_K_M quantized GGUF versions
  • **número de downloads de 1º a 31 de dezembro de 2024

O que vem em seguida?

De acordo com a equipe de IA da Nexa, o Gemma é fundamental para tornar a IA acessível em dispositivos em que a latência, a privacidade e a eficiência energética são mais importantes. "Os modelos baseados em Gemma mantêm uma precisão excepcional para tarefas específicas no domínio, sendo pequenos o suficiente para implantação de ponta", disse Zack. A equipe está animada para que mais desenvolvedores participem da jornada de criação de soluções impactantes e sustentáveis.

A equipe de IA da Nexa planeja continuar refinando o OmniAudio para melhorar a precisão e reduzir a latência em dispositivos de borda. Eles também querem expandir o uso de todos os modelos Gemma em aplicativos de IA no dispositivo, como agentes de conversação, processamento multimodal e chamada de função, transformando a maneira como os usuários interagem com os dispositivos. No futuro, a equipe planeja usar o Gemma para criar modelos de IA multimodais e orientados a ações aprimorados.