Présentation de Google AI Edge Portal: évaluez l'IA Edge à grande échelle. Inscrivez-vous pour demander l'accès pendant l'aperçu privé.

Inférence sur l'appareil avec LiteRT

L'API LiteRT CompiledModel représente la norme moderne pour l'inférence ML sur l'appareil, offrant une accélération matérielle simplifiée qui surpasse considérablement l'API Interpreter. Cette interface simplifie le déploiement des modèles .tflite sur un large éventail de plates-formes périphériques en offrant une expérience de développement unifiée et des fonctionnalités avancées conçues pour une efficacité matérielle maximale.

Pourquoi choisir l'API `CompiledModel` ?

Bien que l'API Interpreter reste disponible pour assurer la rétrocompatibilité, les nouvelles fonctionnalités de performances et d'accélérateur sont prioritaires dans l'API CompiledModel. Il s'agit du choix recommandé pour les raisons suivantes :

Accélération GPU de pointe : exploite ML Drift, la bibliothèque d'accélération GPU de pointe, pour fournir une inférence GPU fiable sur les appareils mobiles, Web, de bureau et IoT. Consultez Accélération GPU avec LiteRT.
Accès unifié aux NPU : offre une expérience de développement unique et cohérente pour accéder aux NPU de différents fournisseurs tels que Google Tensor, Qualcomm et MediaTek, en faisant abstraction des compilateurs spécifiques aux fournisseurs et des complexités d'exécution. Consultez Accélération NPU avec LiteRT.
Sélection automatique du matériel : sélectionne automatiquement le backend optimal parmi le CPU, le GPU et la NPU, en fonction du matériel disponible et de la logique de priorité interne, ce qui élimine la nécessité de configurer manuellement les délégués.
Exécution asynchrone : utilise des mécanismes au niveau de l'OS (comme les barrières de synchronisation) pour permettre aux accélérateurs matériels de se déclencher directement à la fin des tâches précédentes sans impliquer le CPU. Cela peut réduire la latence jusqu'à deux fois et garantir une expérience d'IA plus fluide et interactive.
Gestion efficace des tampons d'E/S : utilise l'API TensorBuffer pour gérer le flux de données à hautes performances entre les accélérateurs. Cela inclut l'interopérabilité des tampons sans copie entre AHardwareBuffer, OpenCL et OpenGL, ce qui élimine les copies de données coûteuses entre les étapes de prétraitement, d'inférence et de post-traitement.

Premiers pas avec l'API `CompiledModel`

Pour les modèles de ML classiques, consultez les applications de démonstration suivantes.
- Application Kotlin de segmentation d'images : inférence CPU/GPU/NPU.
- Application C++ de segmentation d'images : inférence CPU/GPU/NPU avec exécution asynchrone.
Pour les modèles d'IA générative, consultez les applications de démonstration suivantes :
- Application C++ de similarité sémantique EmbeddingGemma : inférence CPU/GPU/NPU.

Plates-formes compatibles

L'API LiteRT CompiledModel permet des inférences hautes performances sur les appareils Android, iOS, Web, IoT et de bureau. Consultez le guide spécifique à la plate-forme.

Inférence sur l'appareil avec LiteRT

Pourquoi choisir l'API CompiledModel ?

Premiers pas avec l'API CompiledModel

Plates-formes compatibles

Pourquoi choisir l'API `CompiledModel` ?

Premiers pas avec l'API `CompiledModel`