API LiteRT CompiledModel представляет собой современный стандарт для выполнения вычислений машинного обучения на устройствах, предлагая оптимизированное аппаратное ускорение , значительно превосходящее API Interpreter . Этот интерфейс упрощает развертывание моделей .tflite на широком спектре периферийных платформ, предоставляя единый интерфейс для разработчиков и расширенные функции, разработанные для максимальной эффективности работы оборудования.
Почему стоит выбрать API CompiledModel ?
Хотя API Interpreter остается доступным для обеспечения обратной совместимости, приоритет отдается новым функциям повышения производительности и ускорения работы API CompiledModel . Он рекомендуется по следующим причинам:
Лучшее в своем классе ускорение с помощью графического процессора : используется ML Drift , передовая библиотека ускорения для графических процессоров, обеспечивающая надежное выполнение вычислений на мобильных устройствах, веб-приложениях, настольных компьютерах и устройствах IoT. Подробнее об ускорении с помощью графического процессора в LiteRT .
Единый доступ к NPU : обеспечивает единый, согласованный интерфейс для разработчиков, позволяющий получать доступ к NPU от различных поставщиков, таких как Google Tensor, Qualcomm, MediaTek, абстрагируясь от специфических для поставщиков компиляторов и сложностей среды выполнения. См. ускорение NPU с помощью LiteRT .
Автоматический выбор оборудования : автоматически выбирает оптимальный бэкэнд среди CPU, GPU и NPU на основе доступного оборудования и внутренней логики приоритетов, что исключает необходимость ручной настройки делегатов.
Асинхронное выполнение : Использует механизмы на уровне операционной системы (например, синхронные барьеры), позволяющие аппаратным ускорителям запускаться непосредственно после завершения предыдущих задач без участия ЦП. Это может уменьшить задержку до 2 раз и обеспечить более плавную и интерактивную работу ИИ.
Эффективное управление буферами ввода-вывода : используется API
TensorBufferдля управления высокопроизводительным потоком данных между ускорителями. Это включает в себя взаимодействие буферов без копирования междуAHardwareBuffer, OpenCL и OpenGL, что исключает дорогостоящее копирование данных между этапами предварительной обработки, вывода и постобработки.
Начните работу с API CompiledModel
Для ознакомления с классическими моделями машинного обучения см. следующие демонстрационные приложения.
- Приложение Kotlin для сегментации изображений : вывод данных на CPU/GPU/NPU.
- Приложение для сегментации изображений на C++ : вывод данных с использованием CPU/GPU/NPU с асинхронным выполнением.
Для ознакомления с моделями GenAI см. следующие демонстрационные приложения:
- Приложение EmbeddingGemma для определения семантического сходства на C++ : вывод данных с использованием CPU/GPU/NPU.
Поддерживаемые платформы
API LiteRT CompiledModel поддерживает высокопроизводительные вычисления на устройствах Android, iOS, Web, IoT и настольных компьютерах. См. руководство для конкретной платформы .