La API de LiteRT CompiledModel representa el estándar moderno para la inferencia de AA en el dispositivo, ya que ofrece una aceleración de hardware optimizada que supera significativamente a la API de Interpreter. Esta interfaz simplifica la implementación de modelos de .tflite en una amplia variedad de plataformas perimetrales, ya que proporciona experiencias unificadas para los desarrolladores y funciones avanzadas diseñadas para lograr la máxima eficiencia del hardware.
¿Por qué elegir la API de CompiledModel?
Si bien la API de Interpreter sigue disponible para la retrocompatibilidad, la API de CompiledModel es donde se priorizan las nuevas funciones de rendimiento y acelerador. Se recomienda esta opción por los siguientes motivos:
Aceleración de GPU de primer nivel: Aprovecha ML Drift, la biblioteca de aceleración de GPU de vanguardia, para ofrecer inferencia de GPU confiable en dispositivos móviles, web, de escritorio y de IoT. Consulta Aceleración por GPU con LiteRT.
Acceso unificado a la NPU: Proporciona una experiencia del desarrollador única y coherente para acceder a las NPUs de varios proveedores, como Google Tensor, Qualcomm y MediaTek, y abstrae los compiladores específicos del proveedor y las complejidades del tiempo de ejecución. Consulta Aceleración de la NPU con LiteRT.
Selección de hardware automatizada: Selecciona automáticamente el backend óptimo entre la CPU, la GPU y la NPU, según el hardware disponible y la lógica de prioridad interna, lo que elimina la necesidad de configurar manualmente el delegado.
Ejecución asíncrona: Utiliza mecanismos a nivel del SO (como barreras de sincronización) para permitir que los aceleradores de hardware se activen directamente cuando se completan las tareas anteriores sin involucrar a la CPU. Esto puede reducir la latencia hasta en un 50% y garantiza una experiencia de IA más fluida e interactiva.
Administración eficiente de búferes de E/S: Aprovecha la API de
TensorBufferpara administrar el flujo de datos de alto rendimiento entre los aceleradores. Esto incluye la interoperabilidad de búferes de copia cero enAHardwareBuffer, OpenCL y OpenGL, lo que elimina las costosas copias de datos entre las etapas de preprocesamiento, inferencia y posprocesamiento.
Plataformas compatibles
La API de LiteRT CompiledModel admite inferencias de alto rendimiento en dispositivos Android, iOS, web, IoT y de escritorio. Consulta la guía específica de la plataforma.