分享

Nexa AI 使用 Gemma 建構了 OmniAudio 生成式 AI 模型,用於邊緣應用程式。

Nexa AI 是一家專門為邊緣硬體和軟體市場打造 AI 工具的公司。為了實現讓所有人都能在任何裝置上使用 AI 技術的使命,該公司提供可正式發布的「微型模型」、模型架構最佳化和壓縮功能,以及邊緣推論加速服務。

Nexa AI 開發人員使用 Gemma 做為公司創新 AI 解決方案之一的基礎:音訊語言模型 OmniAudio。OmniAudio 的優勢在於其獨特的架構,可盡可能提升邊緣應用程式的效能。多虧了 Gemma,這個模型才能以小巧的體積推出,並提供低延遲、高準確度和強化隱私權的功能。

難題

Nexa AI 希望建構新的語音語言模型,加入其 AI 工具商品目錄。與傳統的語音語言模型不同,他們希望打造一個完全在裝置端運作的模型,以便提供更佳的使用體驗。不呼叫雲端式模型,也能減少使用者隱私疑慮和延遲問題,並降低開發人員的成本。

經過大量測試後,Nexa AI 開發人員發現現有的商業模型不太適合在裝置上部署,因此需要找到更小、更有效率的模型,以便在裝置上執行,並達到同類產品中最佳的效能。因此,該團隊轉向使用 Google 的 Gemma 開放式模型。Nexa AI 開發人員曾與 Gemma 合作,共同打造備受好評的 Octopus v2 模型,這是一款生成式大型語言模型 (LLM),也是為邊緣應用程式打造的模型。有了這些知識,他們就知道這是建構 OmniAudio 語言模型的最佳解決方案。

「Gemma 是邊緣 AI 開發領域的遊戲規則改變者,提供無與倫比的效率和準確度,可用來建立功能強大且資源友善的模型。其可擴充性和整合容易性,也使其成為實驗和逐步導入的理想選擇。」

— Alex Chen、Zack Li — Nexa AI 共同創辦人

解決方案

OmniAudio 是一種 26 億參數的音訊語言多模態模型,結合了 Gemma-2-2b、自動語音辨識模型 WhisperTurbo 和自訂投影機模組,在單一架構中整合音訊語音辨識和大型語言模型功能。這個模型可記錄摘要、產生音訊內容、執行語音品質確保等工作。由於模型具備多種裝置端推論功能,Nexa AI 團隊得以使用 Gemma 2 做為基礎,滿足隱私權和效能方面的優先考量。

Nexa AI 技術長 Zack Li 表示:「Gemma 具備強大的語言理解和內容生成能力,因此很容易微調音訊語言功能的模型。」除了使用功能性符記來強化 OmniAudio 中的函式呼叫,Nexa AI 開發人員也將 Gemma 2 與 WhisperTurbo 整合,以便無縫處理音訊文字。團隊使用 Nexa SDK (Nexa AI 自有的邊緣推論引擎) 進行 OmniAudio 模型推論。

團隊表示,Gemma 高效率的設計大幅降低了每推論的成本。其裝置端功能還可盡量減少耗電量,並免除需要持續連線至雲端的限制,為多模態用途提供可擴充且符合成本效益的解決方案。所有這些功能加上 Gemma 的緊湊架構,讓 Nexa AI 得以開發 OmniAudio,這項技術可在最短的延遲時間內,以驚人的速度進行推論。

OmniAudio 的模型架構
圖表比較了主要 LLM 的保加利亞成效。

影響

扎克表示,透過 Gemma 的預先訓練架構,工程師不僅能大幅提升效能,還能維持「順暢的開發」效率。Alex 表示:「Gemma2 模型體積輕巧,且吸引了大量開發人員社群,因此我們決定將 Gemma 做為 LLM 的基礎架構。」團隊也提到,Gemma 提供的說明文件非常優秀,在開發期間幫助了他們許多。

5.5 至 10.3 倍

在消費性硬體上提供更快的效能

31k+

Hugging Face 上的下載次數**

  • *跨 FP16 GGUF 和 Q4_K_M 量化 GGUF 版本
  • **2024 年 12 月 1 日至 12 月 31 日的下載次數

後續步驟

Nexa AI 團隊表示,Gemma 可讓 AI 技術在延遲、隱私權和能源效率至關重要的裝置上發揮作用。Zack 表示:「以 Gemma 為基礎的模型可為特定領域內的任務維持極高的準確度,同時又足夠小巧,可用於邊緣部署。」我們很高興看到更多開發人員加入這項計畫,共同打造出有意義且可永續發展的解決方案。

Nexa AI 團隊預計會持續改良 OmniAudio,提高準確度並縮短邊緣裝置的延遲時間。他們也希望在裝置端 AI 應用程式中,擴大使用所有 Gemma 模型,例如對話式服務、多模態處理和函式呼叫,進而改變使用者與裝置互動的方式。往後,團隊將使用 Gemma 建構更強大的多模態和行動導向 AI 模型。