Nexa AI 使用 Gemma 构建了适用于边缘应用的 OmniAudio 生成式 AI 模型。
挑战
Nexa AI 希望构建一个新的音频语言模型,以添加到其 AI 工具库中。与传统的音频语言模型不同,他们希望打造一个完全在设备端运行的模型,以提高可访问性。不调用基于云的模型还可降低隐私问题和最终用户的延迟时间,并降低开发者的费用。
经过大量测试,Nexa AI 开发者发现现有的商用模型不太适合在设备端部署,因此需要找到一个体积更小、效率更高且能够在设备端以最佳功耗运行的模型。于是,该团队开始使用 Google 的 Gemma 开放模型。Nexa AI 开发者之前曾与 Gemma 合作构建其广受好评的 Octopus v2 模型,这也是一个专为边缘应用构建的生成式大语言模型 (LLM)。有了这些知识,他们知道这将是构建 OmniAudio 语言模型的理想解决方案。
“Gemma 在边缘 AI 开发方面具有颠覆性意义,可提供无与伦比的效率和准确性,从而打造出强大且节省资源的模型。其可扩展性和易集成性也使其非常适合进行实验和逐步实施。”
解决方案
OmniAudio 是一个包含 26 亿个参数的音频-语言多模态模型,它结合了 Gemma-2-2b、自动语音识别模型 WhisperTurbo 和自定义投影仪模块,以便在一个架构中统一音频语音识别和 LLM 功能。此模型可以录制摘要、生成音频内容、执行语音质量保证等。由于 Gemma 2 具有多种设备端推理功能,Nexa AI 团队得以以该模型为基础,满足其隐私保护和性能方面的优先事项。
Nexa AI 的首席技术官 Zack Li 表示:“Gemma 强大的语言理解和内容生成功能使我们能够轻松地对模型进行微调,使其具备音频语言功能。”除了使用功能令牌来增强 OmniAudio 中的函数调用之外,Nexa AI 开发者还将 Gemma 2 与 WhisperTurbo 集成,以实现无缝的音频文本处理。该团队使用了 Nexa SDK(Nexa AI 自己的边缘推理引擎)进行 OmniAudio 模型推理。
该团队表示,Gemma 的高效设计显著降低了每次推理费用。其设备端功能还可最大限度地降低能耗,并消除持续连接云端的需要,为多模式应用场景提供可扩缩且经济高效的解决方案。所有这些功能与 Gemma 的紧凑架构相结合,为 Nexa AI 开发 OmniAudio 提供了支持,OmniAudio 可实现令人印象深刻的推理速度并将延迟时间降至最低。

影响
Zack 表示,借助 Gemma 的预训练架构,其工程师在保持高效的同时取得了显著的性能提升,从而实现了“顺畅开发”。“Gemma2 模型非常轻量,吸引了庞大的开发者社区,这促使我们将 Gemma 用作 LLM 骨干。”Alex 说。该团队还提到了 Gemma 出色的文档,这在开发过程中对他们提供了极大的帮助。
5.5-10.3 倍
在消费类硬件上实现更快的性能
3.1 万+
Hugging Face 上的下载量**
- *FP16 GGUF 和 Q4_K_M 量化 GGUF 版本
- **2024 年 12 月 1 日至 12 月 31 日的下载次数
后续步骤
Nexa AI 团队表示,Gemma 有助于在延迟时间、隐私性和能效至关重要的设备上实现 AI 功能。Zack 表示:“基于 Gemma 的模型可针对特定的领域内任务保持卓越的准确性,同时体积足够小,适合在边缘设备上部署。”该团队很高兴看到越来越多的开发者加入到打造富有成效且可持续发展的解决方案的行列中。
Nexa AI 团队计划继续优化 OmniAudio,以提高准确性并缩短边缘设备上的延迟时间。他们还希望在设备端 AI 应用(例如对话式智能体、多模态处理和函数调用)中扩大所有 Gemma 模型的使用范围,从而改变用户与设备的交互方式。今后,该团队计划依靠 Gemma 构建增强型多模态和以行动为导向的 AI 模型。