Nexa AI 使用 Gemma 建構了 OmniAudio 生成式 AI 模型,用於邊緣應用程式。
難題
Nexa AI 希望建構新的語音語言模型,加入其 AI 工具商品目錄。與傳統的語音語言模型不同,他們希望打造一個完全在裝置端運作的模型,以便提供更佳的使用體驗。不呼叫雲端式模型,也能減少使用者隱私疑慮和延遲問題,並降低開發人員的成本。
經過大量測試後,Nexa AI 開發人員發現現有的商業模型不太適合在裝置上部署,因此需要找到更小、更有效率的模型,以便在裝置上執行,並達到同類產品中最佳的效能。因此,該團隊轉向使用 Google 的 Gemma 開放式模型。Nexa AI 開發人員曾與 Gemma 合作,共同打造備受好評的 Octopus v2 模型,這是一款生成式大型語言模型 (LLM),也是為邊緣應用程式打造的模型。有了這些知識,他們就知道這是建構 OmniAudio 語言模型的最佳解決方案。
「Gemma 是邊緣 AI 開發領域的遊戲規則改變者,提供無與倫比的效率和準確度,可用來建立功能強大且資源友善的模型。其可擴充性和整合容易性,也使其成為實驗和逐步導入的理想選擇。」
解決方案
OmniAudio 是一種 26 億參數的音訊語言多模態模型,結合了 Gemma-2-2b、自動語音辨識模型 WhisperTurbo 和自訂投影機模組,在單一架構中整合音訊語音辨識和大型語言模型功能。這個模型可記錄摘要、產生音訊內容、執行語音品質確保等工作。由於模型具備多種裝置端推論功能,Nexa AI 團隊得以使用 Gemma 2 做為基礎,滿足隱私權和效能方面的優先考量。
Nexa AI 技術長 Zack Li 表示:「Gemma 具備強大的語言理解和內容生成能力,因此很容易微調音訊語言功能的模型。」除了使用功能性符記來強化 OmniAudio 中的函式呼叫,Nexa AI 開發人員也將 Gemma 2 與 WhisperTurbo 整合,以便無縫處理音訊文字。團隊使用 Nexa SDK (Nexa AI 自有的邊緣推論引擎) 進行 OmniAudio 模型推論。
團隊表示,Gemma 高效率的設計大幅降低了每推論的成本。其裝置端功能還可盡量減少耗電量,並免除需要持續連線至雲端的限制,為多模態用途提供可擴充且符合成本效益的解決方案。所有這些功能加上 Gemma 的緊湊架構,讓 Nexa AI 得以開發 OmniAudio,這項技術可在最短的延遲時間內,以驚人的速度進行推論。

影響
扎克表示,透過 Gemma 的預先訓練架構,工程師不僅能大幅提升效能,還能維持「順暢的開發」效率。Alex 表示:「Gemma2 模型體積輕巧,且吸引了大量開發人員社群,因此我們決定將 Gemma 做為 LLM 的基礎架構。」團隊也提到,Gemma 提供的說明文件非常優秀,在開發期間幫助了他們許多。
5.5 至 10.3 倍
在消費性硬體上提供更快的效能
31k+
Hugging Face 上的下載次數**
- *跨 FP16 GGUF 和 Q4_K_M 量化 GGUF 版本
- **2024 年 12 月 1 日至 12 月 31 日的下載次數
後續步驟
Nexa AI 團隊表示,Gemma 可讓 AI 技術在延遲、隱私權和能源效率至關重要的裝置上發揮作用。Zack 表示:「以 Gemma 為基礎的模型可為特定領域內的任務維持極高的準確度,同時又足夠小巧,可用於邊緣部署。」我們很高興看到更多開發人員加入這項計畫,共同打造出有意義且可永續發展的解決方案。
Nexa AI 團隊預計會持續改良 OmniAudio,提高準確度並縮短邊緣裝置的延遲時間。他們也希望在裝置端 AI 應用程式中,擴大使用所有 Gemma 模型,例如對話式服務、多模態處理和函式呼叫,進而改變使用者與裝置互動的方式。往後,團隊將使用 Gemma 建構更強大的多模態和行動導向 AI 模型。