Presentamos Google AI Edge Portal: Compara la IA de Edge a gran escala. Regístrate para solicitar acceso durante la vista previa privada.

Inferencia integrada en el dispositivo con LiteRT

La API de LiteRT CompiledModel representa el estándar moderno para la inferencia de AA en el dispositivo, ya que ofrece una aceleración de hardware optimizada que supera significativamente a la API de Interpreter. Esta interfaz simplifica la implementación de modelos de .tflite en una amplia variedad de plataformas perimetrales, ya que proporciona experiencias unificadas para los desarrolladores y funciones avanzadas diseñadas para lograr la máxima eficiencia del hardware.

¿Por qué elegir la API de `CompiledModel`?

Si bien la API de Interpreter sigue disponible para la retrocompatibilidad, la API de CompiledModel es donde se priorizan las nuevas funciones de rendimiento y acelerador. Se recomienda esta opción por los siguientes motivos:

Aceleración de GPU de primer nivel: Aprovecha ML Drift, la biblioteca de aceleración de GPU de vanguardia, para ofrecer inferencia de GPU confiable en dispositivos móviles, web, de escritorio y de IoT. Consulta Aceleración por GPU con LiteRT.
Acceso unificado a la NPU: Proporciona una experiencia del desarrollador única y coherente para acceder a las NPUs de varios proveedores, como Google Tensor, Qualcomm y MediaTek, y abstrae los compiladores específicos del proveedor y las complejidades del tiempo de ejecución. Consulta Aceleración de la NPU con LiteRT.
Selección de hardware automatizada: Selecciona automáticamente el backend óptimo entre la CPU, la GPU y la NPU, según el hardware disponible y la lógica de prioridad interna, lo que elimina la necesidad de configurar manualmente el delegado.
Ejecución asíncrona: Utiliza mecanismos a nivel del SO (como barreras de sincronización) para permitir que los aceleradores de hardware se activen directamente cuando se completan las tareas anteriores sin involucrar a la CPU. Esto puede reducir la latencia hasta en un 50% y garantiza una experiencia de IA más fluida e interactiva.
Administración eficiente de búferes de E/S: Aprovecha la API de TensorBuffer para administrar el flujo de datos de alto rendimiento entre los aceleradores. Esto incluye la interoperabilidad de búferes de copia cero en AHardwareBuffer, OpenCL y OpenGL, lo que elimina las costosas copias de datos entre las etapas de preprocesamiento, inferencia y posprocesamiento.

Comienza a usar la API de `CompiledModel`

Para los modelos de AA clásicos, consulta las siguientes apps de demostración.
- App de Kotlin para la segmentación de imágenes: Inferencias de CPU, GPU y NPU
- App de segmentación de imágenes en C++: Inferencias en CPU, GPU y NPU con ejecución asíncrona.
Para los modelos de IA generativa, consulta las siguientes apps de demostración:
- EmbeddingGemma semantic similarity C++ App: Inferencias en CPU, GPU y NPU.

Plataformas compatibles

La API de LiteRT CompiledModel admite inferencias de alto rendimiento en dispositivos Android, iOS, web, IoT y de escritorio. Consulta la guía específica de la plataforma.

Inferencia integrada en el dispositivo con LiteRT

¿Por qué elegir la API de CompiledModel?

Comienza a usar la API de CompiledModel

Plataformas compatibles

¿Por qué elegir la API de `CompiledModel`?

Comienza a usar la API de `CompiledModel`