Nexa AI membuat model AI generatif OmniAudio untuk aplikasi edge menggunakan Gemma.
Nexa AI adalah perusahaan yang berspesialisasi dalam membuat alat AI untuk pasar hardware dan software edge. Untuk memenuhi misinya dalam menghadirkan AI kepada semua orang dan di perangkat apa pun, perusahaan ini menawarkan “model kecil” yang siap produksi, pengoptimalan dan kompresi arsitektur model, serta layanan akselerasi inferensi edge.
Developer Nexa AI menggunakan Gemma sebagai dasar untuk salah satu solusi AI inovatif perusahaan: OmniAudio, model bahasa audio. Kekuatan OmniAudio terletak pada arsitektur uniknya yang memaksimalkan performa untuk aplikasi edge. Berkat Gemma, model ini diluncurkan dalam ukuran ringkas dengan latensi rendah, akurasi tinggi, dan privasi yang ditingkatkan.
Tantangan
Nexa AI ingin membuat model bahasa audio baru untuk ditambahkan ke inventaris alat AI-nya. Tidak seperti model bahasa audio yang lebih tradisional, mereka ingin membuat model yang sepenuhnya berfungsi di perangkat untuk aksesibilitas yang lebih besar. Tidak memanggil model berbasis cloud juga mengurangi masalah privasi dan latensi bagi pengguna akhir serta mengurangi biaya bagi developer.
Setelah pengujian yang ekstensif, developer Nexa AI menemukan bahwa model komersial yang tersedia kurang cocok untuk deployment di perangkat dan perlu menemukan model yang lebih kecil dan lebih efisien yang dapat berjalan di perangkat dengan daya terbaik di kelasnya. Saat itulah tim beralih ke model terbuka Gemma Google. Developer Nexa AI sebelumnya telah bekerja sama dengan Gemma untuk membuat model Octopus v2 yang sangat dihormati, yaitu model bahasa besar (LLM) generatif yang juga dibuat untuk aplikasi edge. Dengan pengetahuan ini, mereka tahu bahwa ini akan menjadi solusi yang tepat untuk membuat model bahasa OmniAudio mereka.
“Gemma adalah game-changer untuk pengembangan AI edge, yang menawarkan efisiensi dan akurasi yang tak tertandingi untuk membuat model yang canggih dan hemat resource. Skalabilitas dan kemudahan integrasinya juga membuatnya ideal untuk eksperimen dan penerapan bertahap.”
Solusi
OmniAudio adalah model multimodal audio-bahasa dengan parameter 2,6 miliar yang menggabungkan Gemma-2-2b, model pengenalan ucapan otomatis WhisperTurbo, dan modul proyektor kustom untuk menyatukan kemampuan LLM dan pengenalan ucapan audio dalam satu arsitektur. Model ini dapat merekam ringkasan, membuat konten audio, melakukan jaminan kualitas suara, dan lainnya. Dengan menggunakan Gemma 2 sebagai fondasinya, tim Nexa AI dapat memenuhi prioritas privasi dan performanya, berkat beragam kemampuan inferensi di perangkat model tersebut.
“Kemampuan pemahaman bahasa dan pembuatan konten Gemma yang kuat memudahkan kami menyesuaikan model untuk kemampuan bahasa audio,” kata Zack Li, CTO Nexa AI. Selain menggunakan token fungsional untuk meningkatkan panggilan fungsi di OmniAudio, developer Nexa AI juga mengintegrasikan Gemma 2 dengan WhisperTurbo untuk pemrosesan teks audio yang lancar. Tim ini menggunakan Nexa SDK, mesin inferensi edge Nexa AI sendiri, untuk inferensi model OmniAudio.
Menurut tim, desain Gemma yang efisien secara signifikan mengurangi biaya per inferensi. Kemampuannya di perangkat juga meminimalkan konsumsi energi dan menghilangkan kebutuhan akan konektivitas cloud yang konstan, sehingga memberikan solusi yang skalabel dan hemat biaya untuk kasus penggunaan multimodal. Semua ini, dikombinasikan dengan arsitektur Gemma yang ringkas, mendukung pengembangan OmniAudio oleh Nexa AI, yang memiliki kecepatan inferensi yang mengesankan dengan latensi minimal.

Dampak
Dengan arsitektur terlatih Gemma, engineer-nya mencapai peningkatan performa yang signifikan sekaligus mempertahankan efisiensi untuk “pengembangan yang lancar”, kata Zack. “Model Gemma2 ringan dan telah menarik komunitas developer yang besar, yang memotivasi kami untuk menggunakan Gemma sebagai backbone LLM”, kata Alex. Tim ini juga mengutip dokumentasi Gemma yang sangat baik, yang sangat membantu mereka selama pengembangan.
5,5-10,3x
performa yang lebih cepat pada hardware konsumen
31 ribu+
download di Hugging Face**
- *di seluruh versi GGUF FP16 dan GGUF kuantisasi Q4_K_M
- **jumlah download dari 1 Desember - 31 Desember 2024
Langkah selanjutnya
Menurut tim Nexa AI, Gemma berperan penting dalam membuat AI dapat diakses di perangkat yang mengutamakan latensi, privasi, dan efisiensi energi. “Model berbasis Gemma mempertahankan akurasi yang luar biasa untuk tugas dalam domain tertentu sekaligus cukup kecil untuk deployment edge,” kata Zack. Tim kami senang melihat lebih banyak developer bergabung dalam perjalanan untuk menciptakan solusi yang berdampak dan berkelanjutan.
Tim Nexa AI berencana untuk terus meningkatkan kualitas OmniAudio guna meningkatkan akurasi dan mengurangi latensi di perangkat edge. Mereka juga ingin memperluas penggunaan semua model Gemma dalam aplikasi AI di perangkat seperti agen percakapan, pemrosesan multimodal, dan panggilan fungsi, yang mengubah cara pengguna berinteraksi dengan perangkat mereka. Ke depannya, tim berencana mengandalkan Gemma untuk membuat model AI multimodal dan berorientasi tindakan yang ditingkatkan.