Nexa AI đã xây dựng mô hình AI tạo sinh OmniAudio cho các ứng dụng cạnh bằng Gemma.
Nexa AI là một công ty chuyên xây dựng các công cụ AI cho thị trường phần cứng và phần mềm cạnh. Để thực hiện sứ mệnh mang AI đến với mọi người và trên mọi thiết bị, công ty cung cấp "mô hình nhỏ" sẵn sàng cho sản xuất, dịch vụ tối ưu hoá và nén cấu trúc mô hình, cũng như dịch vụ tăng tốc suy luận cạnh.
Các nhà phát triển AI của Nexa đã sử dụng Gemma làm nền tảng cho một trong những giải pháp AI sáng tạo của công ty: OmniAudio, một mô hình ngôn ngữ âm thanh. Điểm mạnh của OmniAudio nằm ở cấu trúc độc đáo giúp tối đa hoá hiệu suất cho các ứng dụng cạnh. Nhờ Gemma, mô hình này đã ra mắt ở kích thước nhỏ gọn với độ trễ thấp, độ chính xác cao và tăng cường quyền riêng tư.
Thách thức
Nexa AI muốn xây dựng một mô hình ngôn ngữ âm thanh mới để bổ sung vào khoảng không quảng cáo của các công cụ AI. Không giống như các mô hình ngôn ngữ âm thanh truyền thống, họ muốn tạo một mô hình hoạt động hoàn toàn trên thiết bị để dễ tiếp cận hơn. Việc không gọi mô hình dựa trên đám mây cũng giúp giảm các vấn đề về quyền riêng tư và độ trễ cho người dùng cuối, đồng thời giảm chi phí cho nhà phát triển.
Sau khi thử nghiệm rộng rãi, các nhà phát triển AI của Nexa nhận thấy các mô hình thương mại hiện có không phù hợp để triển khai trên thiết bị và cần tìm một mô hình nhỏ hơn, hiệu quả hơn có thể chạy trên thiết bị với công suất tốt nhất trong lớp. Đó là lúc nhóm nghiên cứu chuyển sang sử dụng mô hình mở Gemma của Google. Các nhà phát triển AI của Nexa từng hợp tác với Gemma để xây dựng mô hình Octopus v2 được đánh giá cao, một mô hình ngôn ngữ lớn tạo sinh (LLM) cũng được xây dựng cho các ứng dụng cạnh. Với kiến thức này, họ biết rằng đây sẽ là giải pháp hoàn hảo để xây dựng mô hình ngôn ngữ OmniAudio.
"Gemma là một yếu tố thay đổi cuộc chơi trong quá trình phát triển AI trên thiết bị cạnh, mang lại hiệu quả và độ chính xác chưa từng có để tạo ra các mô hình mạnh mẽ, thân thiện với tài nguyên. Khả năng mở rộng và dễ tích hợp cũng giúp công cụ này trở nên lý tưởng để thử nghiệm và triển khai từng bước".
Giải pháp
OmniAudio là một mô hình đa phương thức ngôn ngữ-âm thanh có 2,6 tỷ tham số, kết hợp Gemma-2-2b, mô hình nhận dạng lời nói tự động WhisperTurbo và một mô-đun trình chiếu tuỳ chỉnh để hợp nhất khả năng nhận dạng lời nói và LLM trong một cấu trúc. Mô hình này có thể ghi lại bản tóm tắt, tạo nội dung âm thanh, đảm bảo chất lượng giọng nói, v.v. Nhờ sử dụng Gemma 2 làm nền tảng, nhóm AI của Nexa đã có thể đáp ứng các ưu tiên về quyền riêng tư và hiệu suất nhờ các tính năng suy luận đa dạng trên thiết bị của mô hình này.
"Khả năng hiểu ngôn ngữ và tạo nội dung mạnh mẽ của Gemma giúp dễ dàng tinh chỉnh mô hình cho các chức năng âm thanh-ngôn ngữ", Zack Li, CTO của Nexa AI cho biết. Ngoài việc sử dụng mã thông báo chức năng để nâng cao tính năng gọi hàm trong OmniAudio, các nhà phát triển AI của Nexa cũng tích hợp Gemma 2 với WhisperTurbo để xử lý văn bản âm thanh liền mạch. Nhóm nghiên cứu đã sử dụng SDK Nexa, công cụ suy luận cạnh của Nexa AI, để suy luận mô hình OmniAudio.
Theo nhóm nghiên cứu, thiết kế hiệu quả của Gemma giúp giảm đáng kể chi phí mỗi lần suy luận. Các chức năng trên thiết bị của Gemma cũng giúp giảm thiểu mức tiêu thụ năng lượng và loại bỏ nhu cầu kết nối liên tục với đám mây, mang đến các giải pháp có thể mở rộng và tiết kiệm chi phí cho các trường hợp sử dụng đa phương thức. Tất cả những điều này, kết hợp với cấu trúc nhỏ gọn của Gemma, đã hỗ trợ Nexa AI phát triển OmniAudio, có tốc độ suy luận ấn tượng với độ trễ tối thiểu.

Mức độ tác động
Với kiến trúc được huấn luyện trước của Gemma, các kỹ sư của công ty đã đạt được mức tăng hiệu suất đáng kể trong khi vẫn duy trì được hiệu quả để "phát triển suôn sẻ", Zack nói. Alex cho biết: "Mô hình Gemma2 có kích thước nhỏ gọn và đã thu hút một cộng đồng nhà phát triển lớn, điều này thúc đẩy chúng tôi sử dụng Gemma làm xương sống của LLM". Nhóm cũng trích dẫn tài liệu tuyệt vời của Gemma, tài liệu này đã giúp họ rất nhiều trong quá trình phát triển.
5,5 đến 10,3 lần
hiệu suất nhanh hơn trên phần cứng dành cho người tiêu dùng
Ít nhất 31 nghìn
lượt tải xuống trên Hugging Face**
- *trên các phiên bản GGUF FP16 và GGUF lượng tử hoá Q4_K_M
- **số lượt tải xuống từ ngày 1 tháng 12 đến ngày 31 tháng 12 năm 2024
Bước tiếp theo
Theo nhóm AI của Nexa, Gemma là công cụ giúp AI hoạt động trên những thiết bị mà độ trễ, quyền riêng tư và hiệu suất năng lượng là quan trọng nhất. Zack cho biết: "Các mô hình dựa trên Gemma duy trì độ chính xác cao cho các tác vụ cụ thể trong miền, đồng thời đủ nhỏ để triển khai trên thiết bị cạnh". Nhóm chúng tôi rất vui khi thấy có thêm nhiều nhà phát triển tham gia hành trình tạo ra các giải pháp có tác động và bền vững.
Nhóm AI của Nexa dự định tiếp tục tinh chỉnh OmniAudio để cải thiện độ chính xác và giảm độ trễ trên các thiết bị cạnh. Họ cũng muốn mở rộng việc sử dụng tất cả các mô hình Gemma trong các ứng dụng AI trên thiết bị, chẳng hạn như các tác nhân trò chuyện, xử lý đa phương thức và gọi hàm, nhằm thay đổi cách người dùng tương tác với thiết bị của họ. Từ giờ trở đi, nhóm dự định dựa vào Gemma để xây dựng các mô hình AI đa phương thức và hướng đến hành động nâng cao.