แชร์

Nexa AI ได้สร้างโมเดล Generative AI ของ OmniAudio สําหรับแอปพลิเคชัน Edge โดยใช้ Gemma

Nexa AI เป็นบริษัทที่เชี่ยวชาญด้านการสร้างเครื่องมือ AI สำหรับตลาดฮาร์ดแวร์และซอฟต์แวร์ Edge บริษัทให้บริการ "โมเดลขนาดเล็ก" ที่พร้อมใช้งานจริง การเพิ่มประสิทธิภาพและบีบอัดสถาปัตยกรรมโมเดล รวมถึงบริการเร่งความเร็วการอนุมานข้อมูลในอุปกรณ์ขอบ เพื่อบรรลุพันธกิจในการนํา AI ไปใช้กับทุกคนและอุปกรณ์ทุกเครื่อง

นักพัฒนาซอฟต์แวร์ AI ของ Nexa ใช้ Gemma เป็นรากฐานของโซลูชัน AI นวัตกรรมใหม่ของบริษัทอย่าง OmniAudio ซึ่งเป็นโมเดลภาษาที่เป็นเสียง จุดแข็งของ OmniAudio คือสถาปัตยกรรมที่ไม่ซ้ำใครซึ่งเพิ่มประสิทธิภาพให้กับแอปพลิเคชัน Edge ให้ได้สูงสุด Gemma ช่วยให้โมเดลนี้เปิดตัวได้ในขนาดกะทัดรัดโดยมีความล่าช้าต่ำ มีความแม่นยำสูง และความเป็นส่วนตัวที่เพิ่มขึ้น

ความท้าทาย

Nexa AI ต้องการสร้างโมเดลภาษาเสียงใหม่เพื่อเพิ่มลงในคลังเครื่องมือ AI ทีมต้องการสร้างโมเดลที่ทำงานในอุปกรณ์ได้ทั้งหมดเพื่อให้เข้าถึงได้มากขึ้น ซึ่งแตกต่างจากโมเดลภาษาที่เป็นเสียงแบบดั้งเดิม การไม่ใช้รูปแบบที่ทำงานบนระบบคลาวด์ยังช่วยลดข้อกังวลด้านความเป็นส่วนตัวและเวลาในการตอบสนองสำหรับผู้ใช้ปลายทาง รวมถึงลดค่าใช้จ่ายสำหรับนักพัฒนาแอปด้วย

หลังจากการทดสอบอย่างละเอียด นักพัฒนาซอฟต์แวร์ Nexa AI พบว่าโมเดลเชิงพาณิชย์ที่มีอยู่นั้นไม่เหมาะกับการใช้งานในอุปกรณ์ และจำเป็นต้องหาโมเดลที่เล็กกว่าและมีประสิทธิภาพมากขึ้นซึ่งสามารถทำงานในอุปกรณ์ด้วยประสิทธิภาพที่ดีที่สุดในรุ่น ทีมจึงหันมาใช้รูปแบบเปิดของ Gemma ของ Google นักพัฒนาซอฟต์แวร์ Nexa AI เคยร่วมงานกับ Gemma มาก่อนเพื่อสร้างโมเดล Octopus v2 ที่ได้รับการยกย่องอย่างสูง ซึ่งเป็นโมเดลภาษาขนาดใหญ่ (LLM) แบบ Generative ที่สร้างขึ้นสำหรับแอปพลิเคชัน Edge ด้วย ด้วยเหตุนี้ OmniAudio จึงทราบว่านี่จะเป็นโซลูชันที่สมบูรณ์แบบในการสร้างโมเดลภาษา OmniAudio

"Gemma เป็นเครื่องมือที่ปฏิวัติวงการการพัฒนา AI บนอุปกรณ์ขอบ ด้วยประสิทธิภาพและความแม่นยำที่ไม่มีใครเทียบได้ในการสร้างโมเดลที่มีประสิทธิภาพและประหยัดทรัพยากร ความสามารถในการปรับขนาดและความง่ายในการผสานรวมยังเหมาะสําหรับการทดสอบและการใช้งานแบบค่อยเป็นค่อยไปด้วย"

— Alex Chen และ Zack Li ผู้ร่วมก่อตั้ง Nexa AI

การแก้ปัญหา

OmniAudio เป็นโมเดลหลายมิติข้อมูลแบบเสียงและภาษาที่มีพารามิเตอร์ 2.6 พันล้านรายการ ซึ่งรวม Gemma-2-2b, โมเดลการจดจำคำพูดอัตโนมัติ WhisperTurbo และโมดูลโปรเจ็กเตอร์ที่กำหนดเองเข้าด้วยกันเพื่อรวมการจดจำคำพูดจากเสียงและความสามารถของ LLM ไว้ในสถาปัตยกรรมเดียว โมเดลนี้สามารถบันทึกสรุป สร้างเนื้อหาเสียง ตรวจสอบคุณภาพเสียง และอื่นๆ การใช้ Gemma 2 เป็นรากฐานช่วยให้ทีม Nexa AI บรรลุเป้าหมายด้านความเป็นส่วนตัวและประสิทธิภาพได้ เนื่องด้วยความสามารถด้านอนุมานในอุปกรณ์ที่หลากหลายของโมเดล

"ความสามารถในการเข้าใจภาษาและสร้างเนื้อหาที่ยอดเยี่ยมของ Gemma ทำให้การปรับแต่งโมเดลให้เหมาะกับความสามารถด้านภาษาที่เป็นเสียงเป็นเรื่องง่าย" Zack Li ซีทีโอของ Nexa AI กล่าว นอกจากการใช้โทเค็นฟังก์ชันเพื่อเพิ่มประสิทธิภาพการเรียกใช้ฟังก์ชันใน OmniAudio แล้ว นักพัฒนาซอฟต์แวร์ Nexa AI ยังผสานรวม Gemma 2 กับ WhisperTurbo เพื่อประมวลผลเสียงเป็นข้อความอย่างราบรื่น ทีมใช้ Nexa SDK ซึ่งเป็นเครื่องมืออนุมานข้อมูล Edge ของ Nexa AI เองสําหรับการอนุมานโมเดล OmniAudio

ทีมระบุว่าการออกแบบที่มีประสิทธิภาพของ Gemma ช่วยลดต้นทุนต่อการอนุมานได้อย่างมาก ความสามารถในอุปกรณ์ยังช่วยลดการใช้พลังงานและไม่จำเป็นต้องเชื่อมต่อกับระบบคลาวด์อย่างต่อเนื่อง จึงเป็นโซลูชันที่ปรับขนาดได้และคุ้มค่าสำหรับกรณีการใช้งานแบบมัลติโมเดล​ ทั้งหมดนี้รวมกับสถาปัตยกรรมที่กะทัดรัดของ Gemma สนับสนุนการพัฒนา OmniAudio ของ Nexa AI ซึ่งมีความรวดเร็วในการอนุมานที่น่าประทับใจโดยมีเวลาในการตอบสนองต่ำสุด

สถาปัตยกรรมโมเดลของ OmniAudio
แผนภูมิเปรียบเทียบประสิทธิภาพของ LLM ยอดนิยมในบัลแกเรีย

ผลลัพธ์

Zack กล่าวว่าสถาปัตยกรรมที่ผ่านการฝึกล่วงหน้าของ Gemma ช่วยให้วิศวกรของ Gemma เพิ่มประสิทธิภาพได้อย่างมากในขณะที่ยังคงรักษาประสิทธิภาพไว้เพื่อ "การพัฒนาที่ราบรื่น" "โมเดล Gemma2 เป็นแบบเบาและดึงดูดชุมชนนักพัฒนาซอฟต์แวร์จำนวนมาก ซึ่งกระตุ้นให้เราใช้ Gemma เป็นแบ็กโบนน์ LLM" Alex กล่าว นอกจากนี้ ทีมยังกล่าวถึงเอกสารประกอบที่ยอดเยี่ยมของ Gemma ซึ่งช่วยได้มากในระหว่างการพัฒนา

5.5-10.3 เท่า

ประสิทธิภาพที่เร็วขึ้นในฮาร์ดแวร์สำหรับผู้บริโภค

31,000+

การดาวน์โหลดใน Hugging Face**

  • *ใน GGUF เวอร์ชัน FP16 และ GGUF เวอร์ชันที่แปลงเป็นจำนวนเต็ม Q4_K_M
  • **จำนวนการดาวน์โหลดตั้งแต่วันที่ 1-31 ธันวาคม 2024

สิ่งที่จะเกิดขึ้นหลังจากนี้

ทีม Nexa AI ระบุว่า Gemma เป็นเครื่องมือสำคัญในการทำให้ AI เข้าถึงได้บนอุปกรณ์ที่เวลาในการตอบสนอง ความเป็นส่วนตัว และประสิทธิภาพการประหยัดพลังงานสำคัญที่สุด "โมเดลที่อิงตาม Gemma จะยังคงมีความแม่นยำที่ยอดเยี่ยมสำหรับงานบางอย่างในโดเมน ทั้งยังเล็กพอสำหรับการติดตั้งใช้งานที่อุปกรณ์ขอบ" Zack กล่าว ทีมของเรายินดีที่ได้เห็นนักพัฒนาแอปจำนวนมากขึ้นเข้าร่วมเส้นทางการสร้างโซลูชันที่ยั่งยืนและมีประสิทธิภาพ

ทีม Nexa AI วางแผนที่จะปรับแต่ง OmniAudio ต่อไปเพื่อปรับปรุงความแม่นยำและลดเวลาในการตอบสนองในอุปกรณ์เอดจ์ นอกจากนี้ ยังต้องการขยายการใช้โมเดล Gemma ทั้งหมดในแอปพลิเคชัน AI ในอุปกรณ์ เช่น ตัวแทนแบบสนทนา การรับส่งข้อมูลแบบหลายมิติ และการเรียกใช้ฟังก์ชัน เพื่อเปลี่ยนวิธีการทำงานของผู้ใช้กับอุปกรณ์ ในอนาคต ทีมวางแผนที่จะใช้ Gemma ในการสร้างโมเดล AI แบบหลายมิติข้อมูลและมุ่งเน้นการดําเนินการที่ดียิ่งขึ้น