OmniAudio | Google AI for Developers

Nexa AI, uç donanım ve yazılım pazarına yönelik yapay zeka araçları geliştirme konusunda uzmanlaşmış bir şirkettir. Şirket, yapay zekayı herkese ve her cihaza sunma misyonunu yerine getirmek için üretime hazır "küçük modeller", model mimarisi optimizasyonu ve sıkıştırma ve uçta çıkarım hızlandırma hizmetleri sunuyor.

Nexa AI geliştiricileri, şirketin yenilikçi yapay zeka çözümlerinden biri olan ses dili modeli OmniAudio'nun temeli olarak Gemma'yı kullandı. OmniAudio'nun gücü, uç uygulamalar için performansı en üst düzeye çıkaran benzersiz mimarisinde yatmaktadır. Gemma sayesinde model, düşük gecikme, yüksek doğruluk ve gelişmiş gizlilik özelliklerine sahip kompakt bir boyutta kullanıma sunuldu.

Yarışma

Nexa AI, yapay zeka araç envanterine eklemek için yeni bir işitsel dil modeli oluşturmak istiyordu. Daha geleneksel sesli dil modellerinin aksine, daha fazla erişilebilirlik için tamamen cihaz üzerinde çalışan bir model oluşturmak istediler. Bulut tabanlı bir model kullanmamak, son kullanıcının gizlilik endişelerini ve gecikmesini azaltmanın yanı sıra geliştiricilerin maliyetlerini de düşürdü.

Nexa AI geliştiricileri, kapsamlı testler sonucunda mevcut ticari modellerin cihaz üzerinde dağıtıma daha az uygun olduğunu ve sınıfının en iyisi güçle cihaz üzerinde çalışabilecek daha küçük, daha verimli bir model bulmaları gerektiğini fark etti. Ekip bu noktada Google'ın Gemma açık modellerine yöneldi. Nexa AI geliştiricileri, Gemma ile daha önce çalışarak son derece saygın Octopus v2 modelini (kenar uygulamaları için de tasarlanmış üretken bir büyük dil modeli (LLM)) oluşturmuştu. Bu bilgiler ışığında, OmniAudio dil modellerini oluşturmak için mükemmel bir çözüm olduğunu biliyorlardı.

"Gemma, uç yapay zeka geliştirmede oyunun kurallarını değiştiriyor. Güçlü ve kaynak dostu modeller oluşturmak için benzersiz bir verimlilik ve doğruluk sunuyor. Ölçeklenebilirliği ve entegrasyon kolaylığı, bu modeli deneme ve kademeli uygulama için ideal hale getirir."

— Alex Chen, Zack Li — Nexa AI'ın kurucuları

Çözüm

OmniAudio, Gemma-2-2b, otomatik konuşma tanıma modeli WhisperTurbo ve özel bir projektör modülünü birleştiren 2,6 milyar parametre içeren bir işitsel dil çok modlu modelidir.Bu model, işitsel konuşma tanıma ve LLM özelliklerini tek bir mimaride birleştirir. Bu model özetler kaydedebilir, ses içeriği oluşturabilir, ses kalitesi güvencesi sağlayabilir ve daha fazlasını yapabilir. Gemma 2'yi temel alan Nexa AI ekibi, modelin çeşitli cihaz üzerinde çıkarım özellikleri sayesinde gizlilik ve performans önceliklerini karşılamayı başardı.

Nexa AI CTO'su Zack Li, "Gemma'nın güçlü dil anlama ve içerik üretme özellikleri, modelin sesli dil özellikleriyle ilgili ince ayarlarının yapılmasını kolaylaştırdı." dedi. Nexa AI geliştiricileri, OmniAudio'da işlev çağrısını iyileştirmek için işlevsel jetonların yanı sıra sesli metin işlemenin sorunsuz olması için Gemma 2'yi WhisperTurbo ile entegre etti. Ekip, OmniAudio model çıkarım için Nexa AI'ın kendi uç çıkarım motoru olan Nexa SDK'sını kullandı.

Ekip, Gemma'nın verimli tasarımının çıkarım başına maliyeti önemli ölçüde azalttığını belirtiyor. Cihaz üzerinde sunulan özellikler, enerji tüketimini en aza indirip sürekli bulut bağlantısı ihtiyacını ortadan kaldırarak çok modlu kullanım alanları için ölçeklenebilir ve uygun maliyetli çözümler sunar. Tüm bunlar Gemma'nın kompakt mimarisiyle birlikte Nexa AI'ın minimum gecikmeyle etkileyici çıkarım hızına sahip OmniAudio'yu geliştirmesini destekledi.

En iyi LLM'lerin Bulgar performansını karşılaştıran grafik.

Etki

Gemma'nın önceden eğitilmiş mimarisiyle mühendisler, "sürükleyici geliştirme" için verimliliği korurken önemli performans kazanımları elde etti. Alex, "Gemma2 modeli hafiftir ve büyük bir geliştirici topluluğunun ilgisini çekmiştir. Bu da bizi LLM ana hattı olarak Gemma'yı kullanmaya teşvik ediyor" dedi. Ekip, Gemma'nın geliştirme sırasında kendilerine çok yardımcı olan mükemmel dokümanları da belirtti.

5,5-10,3 kat

Tüketici donanımlarında daha hızlı performans

31 bin+

Kucak açan yüz ifadesi**

*FP16 GGUF ve Q4_K_M kesikli GGUF sürümlerinde
**1 - 31 Aralık 2024 tarihleri arasındaki indirme sayısı

Sırada ne var?

Nexa AI ekibine göre Gemma, gecikmenin, gizliliğin ve enerji verimliliğinin en önemli olduğu cihazlarda yapay zekanın erişilebilir hale getirilmesinde önemli bir rol oynuyor. Zack, "Gemma tabanlı modeller, belirli alan içi görevler için olağanüstü doğruluk sağlarken uç dağıtım için yeterince küçüktür." dedi. Ekip, etkili ve sürdürülebilir çözümler oluşturma yolculuğuna daha fazla geliştiricinin katıldığını görmekten heyecan duyuyor.

Nexa AI ekibi, doğruluğu artırmak ve uç cihazlardaki gecikmeyi azaltmak için OmniAudio'yu iyileştirmeye devam etmeyi planlıyor. Ayrıca, Gemma modellerinin tümünü cihaz üzerinde yapay zeka uygulamalarında (ör. sohbet temsilcileri, çoklu modlu işleme ve işlev çağrısı) kullanarak kullanıcıların cihazlarıyla etkileşim şeklini değiştirmek istiyorlar. Ekip, bundan sonra Gemma'yı kullanarak çok modlu ve işleme odaklı gelişmiş yapay zeka modelleri oluşturmayı planlıyor.

Nexa AI, Gemma'yı kullanarak uç uygulamalar için OmniAudio üretken yapay zeka modelini oluşturdu.

Yarışma

Çözüm

Etki

Sırada ne var?

İlgili örnek olaylar