OmniAudio | Google AI for Developers

Nexa AI 是一家專門為邊緣硬體和軟體市場打造 AI 工具的公司。為了實現讓所有人都能在任何裝置上使用 AI 技術的使命，該公司提供可正式發布的「微型模型」、模型架構最佳化和壓縮功能，以及邊緣推論加速服務。

Nexa AI 開發人員使用 Gemma 做為公司創新 AI 解決方案之一的基礎：音訊語言模型 OmniAudio。OmniAudio 的優勢在於其獨特的架構，可盡可能提升邊緣應用程式的效能。多虧了 Gemma，這個模型才能以小巧的體積推出，並提供低延遲、高準確度和強化隱私權的功能。

難題

Nexa AI 希望建構新的語音語言模型，加入其 AI 工具商品目錄。與傳統的語音語言模型不同，他們希望打造一個完全在裝置端運作的模型，以便提供更佳的使用體驗。不呼叫雲端式模型，也能減少使用者隱私疑慮和延遲問題，並降低開發人員的成本。

經過大量測試後，Nexa AI 開發人員發現現有的商業模型不太適合在裝置上部署，因此需要找到更小、更有效率的模型，以便在裝置上執行，並達到同類產品中最佳的效能。因此，該團隊轉向使用 Google 的 Gemma 開放式模型。Nexa AI 開發人員曾與 Gemma 合作，共同打造備受好評的 Octopus v2 模型，這是一款生成式大型語言模型 (LLM)，也是為邊緣應用程式打造的模型。有了這些知識，他們就知道這是建構 OmniAudio 語言模型的最佳解決方案。

「Gemma 是邊緣 AI 開發領域的遊戲規則改變者，提供無與倫比的效率和準確度，可用來建立功能強大且資源友善的模型。其可擴充性和整合容易性，也使其成為實驗和逐步導入的理想選擇。」

— Alex Chen、Zack Li — Nexa AI 共同創辦人

解決方案

OmniAudio 是一種 26 億參數的音訊語言多模態模型，結合了 Gemma-2-2b、自動語音辨識模型 WhisperTurbo 和自訂投影機模組，在單一架構中整合音訊語音辨識和大型語言模型功能。這個模型可記錄摘要、產生音訊內容、執行語音品質確保等工作。由於模型具備多種裝置端推論功能，Nexa AI 團隊得以使用 Gemma 2 做為基礎，滿足隱私權和效能方面的優先考量。

Nexa AI 技術長 Zack Li 表示：「Gemma 具備強大的語言理解和內容生成能力，因此很容易微調音訊語言功能的模型。」除了使用功能性符記來強化 OmniAudio 中的函式呼叫，Nexa AI 開發人員也將 Gemma 2 與 WhisperTurbo 整合，以便無縫處理音訊文字。團隊使用 Nexa SDK (Nexa AI 自有的邊緣推論引擎) 進行 OmniAudio 模型推論。

團隊表示，Gemma 高效率的設計大幅降低了每推論的成本。其裝置端功能還可盡量減少耗電量，並免除需要持續連線至雲端的限制，為多模態用途提供可擴充且符合成本效益的解決方案。所有這些功能加上 Gemma 的緊湊架構，讓 Nexa AI 得以開發 OmniAudio，這項技術可在最短的延遲時間內，以驚人的速度進行推論。

圖表比較了主要 LLM 的保加利亞成效。

影響

扎克表示，透過 Gemma 的預先訓練架構，工程師不僅能大幅提升效能，還能維持「順暢的開發」效率。Alex 表示：「Gemma2 模型體積輕巧，且吸引了大量開發人員社群，因此我們決定將 Gemma 做為 LLM 的基礎架構。」團隊也提到，Gemma 提供的說明文件非常優秀，在開發期間幫助了他們許多。

5.5 至 10.3 倍

在消費性硬體上提供更快的效能

31k+

Hugging Face 上的下載次數**

*跨 FP16 GGUF 和 Q4_K_M 量化 GGUF 版本
**2024 年 12 月 1 日至 12 月 31 日的下載次數

後續步驟

Nexa AI 團隊表示，Gemma 可讓 AI 技術在延遲、隱私權和能源效率至關重要的裝置上發揮作用。Zack 表示：「以 Gemma 為基礎的模型可為特定領域內的任務維持極高的準確度，同時又足夠小巧，可用於邊緣部署。」我們很高興看到更多開發人員加入這項計畫，共同打造出有意義且可永續發展的解決方案。

Nexa AI 團隊預計會持續改良 OmniAudio，提高準確度並縮短邊緣裝置的延遲時間。他們也希望在裝置端 AI 應用程式中，擴大使用所有 Gemma 模型，例如對話式服務、多模態處理和函式呼叫，進而改變使用者與裝置互動的方式。往後，團隊將使用 Gemma 建構更強大的多模態和行動導向 AI 模型。

Nexa AI 使用 Gemma 建構了 OmniAudio 生成式 AI 模型，用於邊緣應用程式。

難題

解決方案

影響

後續步驟

相關個案研究