Nexa AI hat sein generatives KI-Modell OmniAudio für Edge-Anwendungen mit Gemma erstellt.
Nexa AI ist ein Unternehmen, das sich auf die Entwicklung von KI-Tools für den Edge-Hardware- und -Softwaremarkt spezialisiert hat. Um KI für alle und auf jedem Gerät verfügbar zu machen, bietet das Unternehmen produktionsreife „Tiny-Modelle“, Optimierung und Komprimierung der Modellarchitektur sowie Dienste zur Beschleunigung der standortbasierten Inferenz.
Die Entwickler von Nexa AI haben Gemma als Grundlage für eine der innovativen KI-Lösungen des Unternehmens verwendet: OmniAudio, ein Audio-Sprachmodell. Die Stärke von OmniAudio liegt in der einzigartigen Architektur, die die Leistung von Edge-Anwendungen maximiert. Dank Gemma konnte das Modell in einer kompakten Größe mit geringer Latenz, hoher Genauigkeit und verbessertem Datenschutz eingeführt werden.
Die Herausforderung
Nexa AI wollte ein neues Audiosprachmodell entwickeln, das zu seinem Bestand an KI-Tools hinzugefügt werden sollte. Anders als herkömmliche Audio-Sprachmodelle sollte es vollständig auf dem Gerät ausgeführt werden, um die Barrierefreiheit zu verbessern. Durch den Verzicht auf ein cloudbasiertes Modell konnten außerdem Datenschutzbedenken und Latenzzeiten für die Endnutzer sowie die Kosten für die Entwickler reduziert werden.
Nach umfangreichen Tests stellten die Entwickler von Nexa AI fest, dass die verfügbaren kommerziellen Modelle für die On-Device-Bereitstellung weniger geeignet waren. Sie mussten also ein kleineres, effizienteres Modell finden, das mit erstklassiger Leistung auf dem Gerät ausgeführt werden konnte. Das Team entschied sich dann für die offenen Gemma-Modelle von Google. Die Entwickler von Nexa AI hatten bereits zuvor mit Gemma zusammengearbeitet, um das hoch angesehene Octopus v2-Modell zu entwickeln, ein generatives Large Language Model (LLM), das ebenfalls für Edge-Anwendungen entwickelt wurde. Das Team wusste, dass es die perfekte Lösung für die Erstellung des OmniAudio-Sprachmodells ist.
„Gemma ist ein Gamechanger für die Edge-KI-Entwicklung. Es bietet beispiellose Effizienz und Genauigkeit, um leistungsstarke, ressourcenschonende Modelle zu erstellen. Dank seiner Skalierbarkeit und einfachen Einbindung eignet es sich auch ideal für Tests und die schrittweise Implementierung.“
Die Lösung
OmniAudio ist ein multimodales Audio-Sprachmodell mit 2,6 Milliarden Parametern, das Gemma-2-2b, das automatische Spracherkennungsmodell WhisperTurbo und ein benutzerdefiniertes Projektormodul kombiniert, um Audio-Spracherkennung und LLM-Funktionen in einer Architektur zu vereinen. Dieses Modell kann unter anderem Zusammenfassungen aufzeichnen, Audioinhalte generieren und die Sprachqualität prüfen. Mit Gemma 2 als Grundlage konnte das Nexa-KI-Team dank der vielfältigen On-Device-Inferenzfunktionen des Modells seine Datenschutz- und Leistungsprioritäten erfüllen.
„Dank der guten Spracherkennung und der Funktionen zur Inhaltsgenerierung von Gemma konnten wir das Modell für Audiosprachenfunktionen optimieren“, sagt Zack Li, CTO von Nexa AI. Neben der Verwendung funktionaler Tokens zur Optimierung des Funktionsaufrufs in OmniAudio haben die Entwickler von Nexa AI auch Gemma 2 mit WhisperTurbo für eine nahtlose Audio-Text-Verarbeitung integriert. Das Team verwendete sein Nexa SDK, die Edge-Inferenz-Engine von Nexa AI, für die OmniAudio-Modellinferenz.
Laut dem Team reduziert das effiziente Design von Gemma die Kosten pro Inferenz erheblich. Die On-Device-Funktionen minimieren außerdem den Energieverbrauch und machen eine ständige Cloud-Verbindung überflüssig. So können skalierbare und kostengünstige Lösungen für multimodale Anwendungsfälle bereitgestellt werden. All dies in Kombination mit der kompakten Architektur von Gemma ermöglichte Nexa AI die Entwicklung von OmniAudio, das eine beeindruckende Inferenzgeschwindigkeit bei minimaler Latenz bietet.

Die Auswirkungen
Mit der vorab trainierten Architektur von Gemma konnten die Entwickler erhebliche Leistungssteigerungen erzielen und gleichzeitig die Effizienz für eine „reibungslose Entwicklung“ aufrechterhalten, so Zack. „Das Gemma2-Modell ist effizient und hat eine große Entwicklergemeinde angezogen. Das motiviert uns, Gemma als LLM-Backbone zu verwenden“, sagt Alex. Das Team lobte auch Gemmas hervorragende Dokumentation, die ihm während der Entwicklung sehr geholfen hat.
5,5–10,3-fach
Höhere Leistung auf Verbraucherhardware
31.000+
Downloads bei Hugging Face**
- *für FP16-GGUF- und Q4_K_M-quantisierte GGUF-Versionen
- **Anzahl der Downloads vom 1. Dezember bis zum 31. Dezember 2024
Weiteres Vorgehen
Laut dem Nexa-KI-Team ist Gemma ein wichtiger Faktor, um KI auf Geräten verfügbar zu machen, bei denen Latenz, Datenschutz und Energieeffizienz am wichtigsten sind. „Gemma-basierte Modelle bieten eine außergewöhnliche Genauigkeit für bestimmte In-Domain-Aufgaben und sind gleichzeitig klein genug für die Edge-Bereitstellung“, so Zack. Das Team freut sich, dass immer mehr Entwickler an der Entwicklung von wirkungsvollen und nachhaltigen Lösungen mitwirken.
Das Nexa-KI-Team plant, OmniAudio weiter zu optimieren, um die Genauigkeit zu verbessern und die Latenz auf Edge-Geräten zu verringern. Außerdem möchte das Unternehmen die Verwendung aller seiner Gemma-Modelle in On-Device-KI-Anwendungen wie Konversations-Agenten, multimodaler Verarbeitung und Funktionsaufrufen ausweiten, um die Interaktion der Nutzer mit ihren Geräten zu verändern. Künftig möchte das Team Gemma für die Entwicklung erweiterter multimodaler und aktionsorientierter KI-Modelle nutzen.