Делиться

Nexa AI создала свою генеративную модель искусственного интеллекта OmniAudio для периферийных приложений с использованием Gemma.

Nexa AI — компания, специализирующаяся на создании инструментов искусственного интеллекта для рынка периферийного оборудования и программного обеспечения. Чтобы выполнить свою миссию по предоставлению искусственного интеллекта каждому и на любом устройстве, компания предлагает готовые к производству «миниатюрные модели», оптимизацию и сжатие архитектуры моделей, а также услуги ускорения вывода границ.

Разработчики Nexa AI использовали Gemma в качестве основы для одного из инновационных решений компании в области искусственного интеллекта: OmniAudio , модели аудиоязыка. Сила OmniAudio заключается в его уникальной архитектуре, которая обеспечивает максимальную производительность периферийных приложений. Благодаря Gemma модель была выпущена в компактном размере с низкой задержкой, высокой точностью и улучшенной конфиденциальностью.

Задача

Nexa AI хотела создать новую модель аудиоязыка, чтобы пополнить свой арсенал инструментов искусственного интеллекта. В отличие от более традиционных моделей аудиоязыка, они хотели создать модель, которая полностью работала бы на устройстве и обеспечивала бы большую доступность. Отказ от облачной модели также уменьшил проблемы конфиденциальности и задержки для конечного пользователя, а также снизил расходы для разработчиков.

После обширного тестирования разработчики Nexa AI обнаружили, что доступные коммерческие модели менее подходят для развертывания на устройстве, и им необходимо найти меньшую по размеру и более эффективную модель, которая могла бы работать на устройстве с лучшей в своем классе мощностью. Именно тогда команда обратилась к открытым моделям Google Gemma . Разработчики Nexa AI ранее работали с Gemma над созданием высоко оцененной модели Octopus v2 — генеративной модели большого языка (LLM), также созданной для периферийных приложений. Имея в виду эти знания, они поняли, что это будет идеальное решение для создания языковой модели OmniAudio.

«Gemma меняет правила игры в сфере разработки передовых технологий искусственного интеллекта, предлагая беспрецедентную эффективность и точность для создания мощных и экономичных моделей. Его масштабируемость и простота интеграции также делают его идеальным для экспериментов и постепенного внедрения».

— Алекс Чен, Зак Ли — соучредители Nexa AI

Решение

OmniAudio — это мультимодальная модель аудио-языка с 2,6B параметрами, которая сочетает в себе Gemma-2-2b, модель автоматического распознавания речи WhisperTurbo и специальный модуль проектора для объединения возможностей распознавания аудио- речи и LLM в одной архитектуре. Эта модель может записывать сводки, генерировать аудиоконтент, выполнять проверку качества голоса и многое другое. Использование Gemma 2 в качестве основы позволило команде Nexa AI достичь своих приоритетов в области конфиденциальности и производительности благодаря разнообразным возможностям модели на устройстве.

«Хорошее понимание языка и возможности Gemma по созданию контента позволили легко настроить модель для возможностей аудиоязыка», — сказал Зак Ли, технический директор Nexa AI. Помимо использования функциональных токенов для улучшения вызова функций в OmniAudio, разработчики Nexa AI также интегрировали Gemma 2 с WhisperTurbo для плавной обработки аудио-текста. Команда использовала свой Nexa SDK , собственный механизм вывода границ Nexa AI, для вывода модели OmniAudio.

По мнению команды, эффективный дизайн Gemma значительно снижает стоимость вывода. Его возможности на устройстве также минимизируют потребление энергии и устраняют необходимость постоянного подключения к облаку, предоставляя масштабируемые и экономичные решения для мультимодальных случаев использования. Все это, в сочетании с компактной архитектурой Gemma, поддержало разработку Nexa AI системы OmniAudio, которая может похвастаться впечатляющей скоростью вывода с минимальной задержкой.

Модельная архитектура OmniAudio
Диаграмма сравнения показателей лучших программ LLM в Болгарии.

Воздействие

По словам Зака, благодаря предварительно обученной архитектуре Gemma ее инженеры добились значительного повышения производительности, сохраняя при этом эффективность для «беспрепятственного развития». «Модель Gemma2 является легкой и привлекла большое сообщество разработчиков, что мотивирует нас использовать Gemma в качестве основы LLM», — сказал Алекс. Команда также отметила прекрасную документацию Джеммы, которая им очень помогла во время разработки.

5,5-10,3х

более высокая производительность на потребительском оборудовании

31 тыс.+

загрузки на Hugging Face**

  • *во всех версиях квантованного GGUF FP16 и Q4_K_M
  • **количество скачиваний с 1 по 31 декабря 2024 г.

Что дальше

По мнению команды Nexa AI, Gemma играет важную роль в обеспечении доступности искусственного интеллекта на устройствах, где задержка, конфиденциальность и энергоэффективность имеют наибольшее значение. «Модели на основе Gemma обеспечивают исключительную точность при решении конкретных внутридоменных задач, но при этом достаточно малы для развертывания на периферии», — сказал Зак. Команда рада видеть, что все больше разработчиков присоединяются к созданию эффективных и устойчивых решений.

Команда Nexa AI планирует продолжить совершенствование OmniAudio, чтобы повысить точность и уменьшить задержку на периферийных устройствах. Они также хотят расширить использование всех своих моделей Gemma в приложениях искусственного интеллекта на устройствах, таких как диалоговые агенты, мультимодальная обработка и вызов функций, изменяя способ взаимодействия пользователей со своими устройствами. В дальнейшем команда планирует положиться на Gemma для создания усовершенствованных мультимодальных и ориентированных на действия моделей искусственного интеллекта.