Nexa AI は、Gemma を使用してエッジ アプリケーション用の OmniAudio 生成 AI モデルを構築しました。
Nexa AI は、エッジ ハードウェアとソフトウェア市場向けの AI ツールの構築に特化した企業です。すべての人、あらゆるデバイスに AI を届けるというミッションを果たすため、Google は本番環境対応の「tiny モデル」、モデル アーキテクチャの最適化と圧縮、エッジ推論アクセラレーション サービスを提供しています。
Nexa AI のデベロッパーは、同社の革新的な AI ソリューションの 1 つである音声言語モデル OmniAudio の基盤として Gemma を使用しました。OmniAudio の強みは、エッジ アプリケーションのパフォーマンスを最大化する独自のアーキテクチャにあります。Gemma のおかげで、このモデルはコンパクトなサイズでリリースされ、低レイテンシ、高精度、強化されたプライバシーを実現しています。
課題
Nexa AI は、AI ツールの在庫に追加する新しい音声言語モデルを構築したいと考えていました。従来の音声言語モデルとは異なり、よりアクセスしやすいように、完全にオンデバイスで動作するモデルを作成したいと考えました。クラウドベースのモデルを呼び出さないことで、エンドユーザーのプライバシーに関する懸念とレイテンシが軽減され、デベロッパーの費用も削減されました。
Nexa AI のデベロッパーは、広範なテストを行った結果、市販のモデルはオンデバイス デプロイに適していないことがわかりました。そのため、クラス最高の電力でオンデバイスで実行できる、より小型で効率的なモデルを見つける必要がありました。そこで、チームは Google の Gemma オープンモデルに注目しました。Nexa AI のデベロッパーは、以前に Gemma を使用して、エッジ アプリケーション用に構築された生成大規模言語モデル(LLM)である、高く評価されている Octopus v2 モデルを構築していました。この知識を念頭に置いて、OmniAudio 言語モデルを構築するのに最適なソリューションであると判断しました。
「Gemma はエッジ AI 開発に革命をもたらします。比類のない効率性と精度を備え、リソースに優しい強力なモデルを作成できます。また、スケーラビリティと統合の容易さから、テストや段階的な実装にも最適です。」
ソリューション
OmniAudio は、Gemma-2-2b、自動音声認識モデル WhisperTurbo、カスタム プロジェクタ モジュールを組み合わせた 26 億パラメータの音声言語マルチモーダル モデルで、音声音声認識機能と LLM 機能を 1 つのアーキテクチャに統合しています。このモデルは、要約の録音、音声コンテンツの生成、音声品質保証などを行えます。Gemma 2 を基盤として使用することで、Nexa AI チームは、モデルの多様なオンデバイス推論機能により、プライバシーとパフォーマンスの優先事項を満たすことができました。
「Gemma の優れた言語理解機能とコンテンツ生成機能により、音声言語機能向けにモデルを簡単に微調整できました」と、Nexa AI の CTO である Zack Li 氏は述べています。Nexa AI のデベロッパーは、機能トークンを使用して OmniAudio の関数呼び出しを強化しただけでなく、Gemma 2 を WhisperTurbo と統合して、音声テキスト処理をシームレスに行えるようにしました。チームは、OmniAudio モデルの推論に、Nexa AI 独自のエッジ推論エンジンである Nexa SDK を使用しました。
チームによると、Gemma の効率的な設計により、推論あたりの費用が大幅に削減されます。また、オンデバイス機能により、消費電力を最小限に抑え、クラウドとの常時接続の必要性を排除し、マルチモーダル ユースケース向けにスケーラブルで費用対効果の高いソリューションを提供します。これらすべてが Gemma のコンパクトなアーキテクチャと組み合わさり、Nexa AI の OmniAudio の開発をサポートしました。OmniAudio は、レイテンシを最小限に抑えながら優れた推論速度を誇ります。

効果
Gemma の事前トレーニング済みアーキテクチャにより、エンジニアは「スムーズな開発」のための効率性を維持しながら、パフォーマンスを大幅に向上させました。「Gemma2 モデルは軽量で、大規模なデベロッパー コミュニティを惹きつけています。これが、Gemma を LLM バックボーンとして使用する動機になっています」と Alex は述べています。また、Gemma の優れたドキュメントが開発に非常に役立ったと述べています。
5.5 ~ 10.3 倍
コンシューマ ハードウェアでのパフォーマンスの向上
31,000 以上
Hugging Face でのダウンロード数**
- *FP16 GGUF と Q4_K_M 量子化 GGUF のバージョン間で
- **2024 年 12 月 1 日~ 12 月 31 日のダウンロード数
次のステップ
Nexa AI チームによると、Gemma は、レイテンシ、プライバシー、エネルギー効率が最も重要なデバイスで AI を利用できるようにするうえで重要な役割を果たします。「Gemma ベースのモデルは、特定のドメイン内タスクで優れた精度を維持しながら、エッジ デプロイに十分なほど小さくなっています」と Zack は述べています。チームは、より多くのデベロッパーがインパクトのある持続可能なソリューションの作成に取り組むことを期待しています。
Nexa AI チームは、OmniAudio の改良を継続し、エッジデバイスの精度を高め、レイテンシを短縮する予定です。また、会話型エージェント、マルチモーダル処理、関数呼び出しなどのオンデバイス AI アプリケーションで Gemma モデルをすべて使用し、ユーザーのデバイス操作方法を変革したいと考えています。今後、チームは Gemma を使用して、マルチモーダルかつアクション指向の AI モデルを構築する予定です。