Выполнение вычислений на устройстве с помощью LiteRT

API LiteRT CompiledModel представляет собой современный стандарт для выполнения вычислений машинного обучения на устройствах, предлагая оптимизированное аппаратное ускорение , значительно превосходящее API Interpreter . Этот интерфейс упрощает развертывание моделей .tflite на широком спектре периферийных платформ, предоставляя единый интерфейс для разработчиков и расширенные функции, разработанные для максимальной эффективности работы оборудования.

Почему стоит выбрать API CompiledModel ?

Хотя API Interpreter остается доступным для обеспечения обратной совместимости, приоритет отдается новым функциям повышения производительности и ускорения работы API CompiledModel . Он рекомендуется по следующим причинам:

  • Лучшее в своем классе ускорение с помощью графического процессора : используется ML Drift , передовая библиотека ускорения для графических процессоров, обеспечивающая надежное выполнение вычислений на мобильных устройствах, веб-приложениях, настольных компьютерах и устройствах IoT. Подробнее об ускорении с помощью графического процессора в LiteRT .

  • Единый доступ к NPU : обеспечивает единый, согласованный интерфейс для разработчиков, позволяющий получать доступ к NPU от различных поставщиков, таких как Google Tensor, Qualcomm, MediaTek, абстрагируясь от специфических для поставщиков компиляторов и сложностей среды выполнения. См. ускорение NPU с помощью LiteRT .

  • Автоматический выбор оборудования : автоматически выбирает оптимальный бэкэнд среди CPU, GPU и NPU на основе доступного оборудования и внутренней логики приоритетов, что исключает необходимость ручной настройки делегатов.

  • Асинхронное выполнение : Использует механизмы на уровне операционной системы (например, синхронные барьеры), позволяющие аппаратным ускорителям запускаться непосредственно после завершения предыдущих задач без участия ЦП. Это может уменьшить задержку до 2 раз и обеспечить более плавную и интерактивную работу ИИ.

  • Эффективное управление буферами ввода-вывода : используется API TensorBuffer для управления высокопроизводительным потоком данных между ускорителями. Это включает в себя взаимодействие буферов без копирования между AHardwareBuffer , OpenCL и OpenGL, что исключает дорогостоящее копирование данных между этапами предварительной обработки, вывода и постобработки.

Поддерживаемые платформы

API LiteRT CompiledModel поддерживает высокопроизводительные вычисления на устройствах Android, iOS, Web, IoT и настольных компьютерах. См. руководство для конкретной платформы .