Nexa AI는 Gemma를 사용하여 에지 애플리케이션용 OmniAudio 생성형 AI 모델을 빌드했습니다.
Nexa AI는 에지 하드웨어 및 소프트웨어 시장을 위한 AI 도구를 구축하는 데 특화된 회사입니다. 모든 사용자와 모든 기기에 AI를 제공한다는 사명을 실현하기 위해 엔터프라이즈급 '소형 모델', 모델 아키텍처 최적화 및 압축, 에지 추론 가속 서비스를 제공합니다.
Nexa AI 개발자는 회사의 혁신적인 AI 솔루션 중 하나인 오디오 언어 모델 OmniAudio의 기반으로 Gemma를 사용했습니다. OmniAudio의 강점은 에지 애플리케이션의 성능을 극대화하는 고유한 아키텍처에 있습니다. Gemma 덕분에 모델이 소형 크기로 출시되었으며 지연 시간이 짧고 정확성이 높으며 개인 정보 보호가 강화되었습니다.
도전과제
Nexa AI는 AI 도구 인벤토리에 추가할 새로운 오디오 언어 모델을 빌드하고자 했습니다. 기존의 오디오 언어 모델과 달리 접근성을 높이기 위해 완전히 기기 내에서 작동하는 모델을 만들고자 했습니다. 클라우드 기반 모델을 호출하지 않으면 최종 사용자의 개인 정보 보호 문제와 지연 시간이 줄고 개발자의 비용도 절감됩니다.
Nexa AI 개발자는 광범위한 테스트를 통해 사용 가능한 상용 모델이 기기 내 배포에 적합하지 않으며 기기 내에서 최고의 성능으로 실행할 수 있는 더 작고 효율적인 모델을 찾아야 한다고 판단했습니다. 이에 Google의 Gemma 개방형 모델을 사용해 보았습니다. Nexa AI 개발자들은 이전에 Gemma와 협력하여 에지 애플리케이션용으로 빌드된 생성형 대규모 언어 모델 (LLM)인 널리 알려진 Octopus v2 모델을 빌드한 바 있습니다. 이를 바탕으로 OmniAudio 언어 모델을 빌드하기에 완벽한 솔루션이라는 것을 알게 되었습니다.
“Gemma는 에지 AI 개발의 게임 체인저로, 탁월한 효율성과 정확성을 제공하여 강력하고 리소스 친화적인 모델을 만들 수 있습니다. 또한 확장성과 통합의 용이성 덕분에 실험 및 점진적 구현에 적합합니다."
해결 방법
OmniAudio는 Gemma-2-2b, 자동 음성 인식 모델 WhisperTurbo, 맞춤 프로젝터 모듈을 결합하여 오디오 음성 인식과 LLM 기능을 하나의 아키텍처로 통합하는 26억 개 매개변수의 오디오 언어 멀티모달 모델입니다. 이 모델은 요약을 녹음하고, 오디오 콘텐츠를 생성하고, 음성 품질 보증을 실행하는 등의 작업을 할 수 있습니다. Gemma 2를 기반으로 덕분에 Nexa AI팀은 모델의 다양한 기기 내 추론 기능을 통해 개인 정보 보호 및 성능 우선순위를 충족할 수 있었습니다.
Nexa AI의 CTO인 잭 리(Zack Li)는 'Gemma의 강력한 언어 이해 및 콘텐츠 생성 기능을 통해 오디오 언어 기능을 위해 모델을 쉽게 미세 조정할 수 있었습니다.'라고 말했습니다. Nexa AI 개발자는 기능 토큰을 사용하여 OmniAudio의 함수 호출을 개선하는 것 외에도 원활한 오디오 텍스트 처리를 위해 Gemma 2를 WhisperTurbo와 통합했습니다. Nexa AI는 OmniAudio 모델 추론에 Nexa AI 자체 에지 추론 엔진인 Nexa SDK를 사용했습니다.
연구팀에 따르면 Gemma의 효율적인 설계로 인해 추론당 비용이 크게 절감됩니다. 또한 기기 내 기능은 에너지 소비를 최소화하고 지속적인 클라우드 연결의 필요성을 없애므로 다중 모달 사용 사례에 확장 가능하고 비용 효율적인 솔루션을 제공합니다. 이 모든 기능이 Gemma의 컴팩트한 아키텍처와 결합되어 Nexa AI의 OmniAudio 개발을 지원했으며, OmniAudio는 최소 지연 시간으로 인상적인 추론 속도를 자랑합니다.

영향
엔지니어들은 Gemma의 사전 학습된 아키텍처를 사용하여 '원활한 개발'을 위한 효율성을 유지하면서 상당한 성능 향상을 달성했다고 잭은 말했습니다. Alex는 'Gemma2 모델은 가볍고 대규모 개발자 커뮤니티를 끌어들였기 때문에 Gemma를 LLM 백본으로 사용하게 되었습니다.'라고 말했습니다. 또한 개발 과정에서 큰 도움이 된 Gemma의 우수한 문서도 언급했습니다.
5.5~10.3배
소비자 하드웨어에서 더 빠른 성능
31,000개 이상
Hugging Face에서 다운로드**
- *FP16 GGUF 및 Q4_K_M 정규화된 GGUF 버전 전반에서
- **2024년 12월 1일~12월 31일의 다운로드 수
다음 단계
Nexa AI팀에 따르면 Gemma는 지연 시간, 개인 정보 보호, 에너지 효율성이 가장 중요한 기기에서 AI에 액세스하는 데 중요한 역할을 합니다. 잭은 'Gemma 기반 모델은 특정 도메인 내 작업에 대해 뛰어난 정확성을 유지하면서도 에지 배포에 적합할 만큼 작습니다.'라고 말했습니다. Google은 더 많은 개발자가 영향력 있고 지속 가능한 솔루션을 만드는 여정에 참여하기를 기대합니다.
Nexa AI팀은 OmniAudio를 계속해서 개선하여 정확성을 높이고 에지 기기의 지연 시간을 줄일 계획입니다. 또한 대화형 에이전트, 멀티모달 처리, 함수 호출과 같은 기기 내 AI 애플리케이션에서 모든 Gemma 모델을 사용하도록 확장하여 사용자가 기기와 상호작용하는 방식을 변화시키고자 합니다. 앞으로 YouTube는 Gemma를 활용하여 향상된 멀티모달 및 액션 중심 AI 모델을 빌드할 계획입니다.