Présentation de Google AI Edge Portal: évaluez l'IA Edge à grande échelle. Inscrivez-vous pour demander l'accès pendant l'aperçu privé.

Cette page a été traduite par l'API Cloud Translation.

LiteRT pour Android

LiteRT vous permet d'exécuter des modèles TensorFlow, PyTorch et JAX dans vos applications Android. Le système LiteRT fournit des environnements d'exécution prédéfinis et personnalisables pour exécuter des modèles sur Android rapidement et efficacement, y compris des options d'accélération matérielle.

Pour obtenir des exemples d'applications Android utilisant LiteRT, consultez le dépôt Exemples LiteRT.

Modèles de machine learning

LiteRT utilise des modèles TensorFlow, PyTorch et JAX convertis dans un format de modèle de machine learning plus petit, portable et efficace. Vous pouvez utiliser des modèles prédéfinis avec LiteRT sur Android, ou créer vos propres modèles et les convertir au format LiteRT.

Cette page explique comment utiliser des modèles de machine learning déjà créés. Elle ne traite pas de la création, de l'entraînement, des tests ni de la conversion de modèles. Pour en savoir plus sur la sélection, la modification, la création et la conversion de modèles de machine learning pour LiteRT, consultez la page Modèles.

Exécuter des modèles sur Android

Un modèle LiteRT exécuté dans une application Android reçoit des données, les traite et génère une prédiction en fonction de la logique du modèle. Un modèle LiteRT nécessite un environnement d'exécution spécial pour s'exécuter. De plus, les données transmises au modèle doivent être dans un format spécifique, appelé tensor. Lorsqu'un modèle traite les données, ce que l'on appelle l'inférence, il génère des résultats de prédiction sous forme de nouveaux Tensors et les transmet à l'application Android afin qu'elle puisse prendre des mesures, comme afficher le résultat à un utilisateur ou exécuter une logique métier supplémentaire.

Flux d'exécution fonctionnel pour les modèles LiteRT dans les applications Android

Figure 1. Flux d'exécution fonctionnel pour les modèles LiteRT dans les applications Android.

Au niveau de la conception fonctionnelle, votre application Android a besoin des éléments suivants pour exécuter un modèle LiteRT :

Environnement d'exécution LiteRT pour exécuter le modèle
Gestionnaire d'entrée de modèle pour transformer les données en Tensors
Gestionnaire de sortie du modèle pour recevoir les Tensors de résultats de sortie et les interpréter comme des résultats de prédiction

Les sections suivantes décrivent comment les bibliothèques et outils LiteRT fournissent ces éléments fonctionnels.

Créer des applications avec LiteRT

Cette section décrit le chemin d'implémentation de LiteRT recommandé et le plus courant dans votre application Android. Vous devez accorder une attention particulière aux sections Environnement d'exécution et Bibliothèques de développement. Si vous avez développé un modèle personnalisé, veillez à consulter la section Parcours de développement avancés.

Options de l'environnement d'exécution

Il existe plusieurs façons d'activer un environnement d'exécution pour exécuter des modèles dans votre application Android. Voici les options recommandées :

LiteRT dans l'environnement d'exécution des services Google Play (recommandé)
Environnement d'exécution LiteRT autonome

En général, vous devez utiliser l'environnement d'exécution fourni par les services Google Play, car il est plus économe en espace que l'environnement standard, car il se charge de manière dynamique, ce qui permet de réduire la taille de votre application. Les services Google Play utilisent également automatiquement la version stable la plus récente de l'environnement d'exécution LiteRT, ce qui vous permet de bénéficier de fonctionnalités supplémentaires et d'améliorer vos performances au fil du temps. Si vous proposez votre application sur des appareils qui n'incluent pas les services Google Play ou si vous devez gérer de près votre environnement d'exécution ML, vous devez utiliser l'environnement d'exécution LiteRT standard. Cette option regroupe du code supplémentaire dans votre application, ce qui vous permet de mieux contrôler l'exécution du ML dans votre application, mais augmente la taille de téléchargement de votre application.

Pour accéder à ces environnements d'exécution dans votre application Android, ajoutez des bibliothèques de développement LiteRT à votre environnement de développement d'application. Pour savoir comment utiliser les environnements d'exécution standards dans votre application, consultez la section suivante.

Bibliothèques

Vous pouvez accéder à l'API Interpreter à l'aide des services Google Play. Vous pouvez utiliser les bibliothèques core et support de LiteRT dans votre application Android. Pour en savoir plus sur la programmation à l'aide des bibliothèques et des environnements d'exécution LiteRT, consultez Outils de développement pour Android.

Obtenir des modèles

L'exécution d'un modèle dans une application Android nécessite un modèle au format LiteRT. Vous pouvez utiliser des modèles prédéfinis ou en créer un et le convertir au format Lite. Pour en savoir plus sur l'obtention de modèles pour votre application Android, consultez la page Modèles LiteRT.

Gérer les données d'entrée

Toutes les données que vous transmettez à un modèle de ML doivent être un Tensor avec une structure de données spécifique, souvent appelée forme du Tensor. Pour traiter des données avec un modèle, le code de votre application doit transformer les données de leur format natif (image, texte ou données audio, par exemple) en un Tensor de la forme requise pour votre modèle.

Exécuter des inférences

Le traitement des données par un modèle pour générer un résultat de prédiction est appelé inférence. Pour exécuter une inférence dans une application Android, vous avez besoin d'un environnement d'exécution LiteRT, d'un modèle et de données d'entrée.

La vitesse à laquelle un modèle peut générer une inférence sur un appareil particulier dépend de la taille des données traitées, de la complexité du modèle et des ressources de calcul disponibles telles que la mémoire et le processeur, ou des processeurs spécialisés appelés accélérateurs. Les modèles de machine learning peuvent s'exécuter plus rapidement sur ces processeurs spécialisés tels que les GPU (processeurs graphiques) et les TPU (Tensor Processing Units), à l'aide de pilotes matériels LiteRT appelés délégués. Pour en savoir plus sur les délégués et l'accélération matérielle du traitement des modèles, consultez la présentation de l'accélération matérielle.

Gérer les résultats

Les modèles génèrent des résultats de prédiction sous forme de tenseurs, qui doivent être gérés par votre application Android en effectuant une action ou en affichant un résultat à l'utilisateur. Les résultats de sortie du modèle peuvent être aussi simples qu'un nombre correspondant à un seul résultat (0 = chien, 1 = chat, 2 = oiseau) pour une classification d'image, ou beaucoup plus complexes, comme plusieurs cadres de délimitation pour plusieurs objets classés dans une image, avec des notes de confiance de prédiction comprises entre 0 et 1.

Chemins de développement avancés

Lorsque vous utilisez des modèles LiteRT plus sophistiqués et personnalisés, vous devrez peut-être utiliser des approches de développement plus avancées que celles décrites ci-dessus. Les sections suivantes décrivent les techniques avancées pour exécuter et développer des modèles pour LiteRT dans les applications Android.

Environnements d'exécution avancés

En plus des environnements d'exécution standards et des environnements d'exécution des services Google Play pour LiteRT, vous pouvez utiliser d'autres environnements d'exécution avec votre application Android. L'utilisation la plus probable de ces environnements est si vous avez un modèle de machine learning qui utilise des opérations de ML non prises en charge par l'environnement d'exécution standard pour LiteRT.

Environnement d'exécution Flex pour LiteRT
Environnement d'exécution LiteRT personnalisé

Le runtime Flex de LiteRT vous permet d'inclure les opérateurs spécifiques requis pour votre modèle. En tant qu'option avancée pour exécuter votre modèle, vous pouvez créer LiteRT pour Android afin d'inclure les opérateurs et autres fonctionnalités nécessaires à l'exécution de votre modèle de machine learning TensorFlow. Pour en savoir plus, consultez Compiler LiteRT pour Android.

API C et C++

LiteRT fournit également une API pour exécuter des modèles à l'aide de C et C++. Si votre application utilise le NDK Android, vous devriez envisager d'utiliser cette API. Vous pouvez également envisager d'utiliser cette API si vous souhaitez pouvoir partager du code entre plusieurs plates-formes. Pour en savoir plus sur cette option de développement, consultez la page Outils de développement.

Exécution de modèles basée sur un serveur

En général, vous devez exécuter les modèles dans votre application sur un appareil Android pour profiter d'une latence plus faible et d'une confidentialité des données améliorée pour vos utilisateurs. Cependant, dans certains cas, il est préférable d'exécuter un modèle sur un serveur cloud, hors de l'appareil. Par exemple, si vous avez un grand modèle qui ne se compresse pas facilement à une taille adaptée aux appareils Android de vos utilisateurs ou qui ne peut pas être exécuté avec des performances raisonnables sur ces appareils. Cette approche peut également être votre solution préférée si la cohérence des performances du modèle sur un large éventail d'appareils est une priorité absolue.

Google Cloud propose une suite complète de services pour exécuter des modèles d'IA. Pour en savoir plus, consultez la page Produits d'IA et de machine learning de Google Cloud.

Développement et optimisation de modèles personnalisés

Les parcours de développement plus avancés incluent probablement le développement de modèles de machine learning personnalisés et l'optimisation de ces modèles pour une utilisation sur les appareils Android. Si vous prévoyez de créer des modèles personnalisés, veillez à envisager d'appliquer des techniques de quantification aux modèles pour réduire les coûts de mémoire et de traitement. Pour savoir comment créer des modèles hautes performances à utiliser avec LiteRT, consultez Bonnes pratiques en termes de performances dans la section "Modèles".

Versions d'Android compatibles

Version LiteRT	État	Niveau SDK minimal	Version NDK minimale (le cas échéant)	Date de sortie
`v1.2.0` ⭐	⚠️ Obsolète	`21` (Android 5 Lollipop)	`r26a`	2025-03-13
`v1.3.0` ⭐	⚠️ Obsolète	`21` (Android 5 Lollipop)	`r26a`	2025-05-19
`v1.4.0` ⭐	⚠️ Obsolète	`26` (Android 8 Oreo)	`r26a`	25/06/2025
`v1.4.1` ⭐	✅ Actif	`21` (Android 5 Lollipop)	`r26a`	2025-11-07
`v2.0.3` ⭐	✅ Actif	`26` (Android 8 Oreo)	`r26a`	2025-11-08
`v2.1.0` ⭐	À venir	`23` (Android 6 Marshmallow)	`r26a`	Pas encore disponible

Important : Assurez-vous que vos dépendances sont à jour pour garantir la compatibilité avec les dernières fonctionnalités et mises à jour de sécurité.

Comparaison entre l'API Compiled Model et l'API Interpreter

API Compiled Model : exécution compilée AOT/JIT avec priorité à l'accélérateur, avec interopérabilité de tampon unifiée et pipelines asynchrones.
API Interpreter : rétrocompatible avec le code de style TensorFlow Lite existant.

Vous pouvez choisir l'une ou l'autre des API au moment de l'exécution. La plupart des nouvelles fonctionnalités de performances et d'accélérateur sont disponibles dans l'API Compiled Model.

Pour obtenir des exemples d'implémentation, consultez les pages suivantes :

Common & CPU

Fonctionnalité d'exécution	API Interpreter	API Compiled Model
Profilage	✅	✅
Signalement d'erreurs	✅	✅
Interopérabilité des tampons d'E/S (TensorBuffer/Environment)	--	✅
Sélection d'un accélérateur clé en main	--	✅
Responsable de la synchronisation	✅	✅
Opération personnalisée	✅	✅
Configuration XNNPACK	✅	✅
Forme dynamique	✅	✅

GPU

Fonctionnalité d'exécution	API Interpreter	API Compiled Model
Responsable de la synchronisation	✅	✅
Mise en cache de la mémoire	✅	✅
Repli du CPU	✅	✅
Exécution asynchrone	--	✅
Tampon sans copie (AHWB/GLBuffer/Texture)	--	✅
Backend OpenCL MLD	✅	✅
Backend WebGPU MLD (nouveau)	--	✅
Support métallique MLD (nouveau)	--	✅

NPU

Fonctionnalité d'exécution	API Interpreter	API Compiled Model
Responsable de la synchronisation	✅	✅
Exécution asynchrone (Pixel)	--	✅
Repli du CPU	✅	✅
Remplacement du GPU	--	✅
Zero-buffer-copy (AHWB)	--	✅
QC/MTK AOT	--	✅
Pixel AOT	--	✅
QC/MTK/Pixel JIT	--	✅

Guide de démarrage rapide (API Compiled Model)

L'exécution de l'inférence avec l'API Compiled Model implique les étapes clés suivantes :

Chargez un modèle compatible.
Allouez les tampons Tensor d'entrée et de sortie.
Appelez le modèle compilé.
Lire les inférences dans un tampon de sortie.

Les extraits de code suivants montrent une implémentation de base de l'ensemble du processus en Kotlin et en C++.

C++

// Load model and initialize runtime
LITERT_ASSIGN_OR_RETURN(auto model, Model::CreateFromFile("mymodel.tflite"));
LITERT_ASSIGN_OR_RETURN(auto env, Environment::Create({}));
LITERT_ASSIGN_OR_RETURN(auto compiled_model,
    CompiledModel::Create(env, model, kLiteRtHwAcceleratorCpu));

// Preallocate input/output buffers
LITERT_ASSIGN_OR_RETURN(auto input_buffers, compiled_model.CreateInputBuffers());
LITERT_ASSIGN_OR_RETURN(auto output_buffers, compiled_model.CreateOutputBuffers());

// Fill the first input
float input_values[] = { /* your data */ };
input_buffers[0].Write<float>(absl::MakeConstSpan(input_values, /*size*/));

// Invoke
compiled_model.Run(input_buffers, output_buffers);

// Read the output
std::vector<float> data(output_data_size);
output_buffers[0].Read<float>(absl::MakeSpan(data));

Kotlin

// Load model and initialize runtime
val  model =
    CompiledModel.create(
        context.assets,
        "mymodel.tflite",
        CompiledModel.Options(Accelerator.CPU)
    )

// Preallocate input/output buffers
val inputBuffers = model.createInputBuffers()
val outputBuffers = model.createOutputBuffers()

// Fill the first input
inputBuffers[0].writeFloat(FloatArray(data_size) { data_value /* your data */ })

// Invoke
model.run(inputBuffers, outputBuffers)

// Read the output
val outputFloatArray = outputBuffers[0].readFloat()

Pour en savoir plus, consultez les guides Premiers pas avec Kotlin et Premiers pas avec C++.

Fonctionnalités clés (API Compiled Model)

Sélection et exécution asynchrone d'accélérateurs clés en main : choisissez le CPU/GPU/NPU au moment de la création et exécutez de manière asynchrone sans plomberie de délégué.
Tampons unifiés sans copie : partagez les tampons AHWB/GL/OpenCL/WebGPU/Metal entre le prétraitement, le post-traitement et l'inférence.
Débit prêt pour la génération : optimisé pour les grands modèles avec mise en cache de la mémoire et solutions de secours GPU/NPU.

L'API Interpreter reste le chemin de compatibilité pour les bases de code TensorFlow Lite existantes. Utilisez-la lorsque vous avez besoin d'un comportement de délégué stable ou d'enveloppes tierces qui attendent l'interpréteur classique.

Accélérateurs

CPU (par défaut) : XNNPACK optimisé, formes dynamiques acceptées.
GPU : backend OpenCL aujourd'hui ; les backends WebGPU et Metal sont disponibles via l'API Compiled Model.
NPU : Qualcomm AI Engine Direct et MediaTek NeuroPilot sont compatibles avec AOT/JIT. Pixel AOT est disponible. La compatibilité avec les NPU Apple/Intel est prévue.

Quand choisir une API ?

Utilisez l'API Compiled Model lorsque vous souhaitez accéder le plus rapidement possible au GPU/NPU, aux tampons sans copie ou à l'exécution asynchrone.
Utilisez l'API Interpreter lorsque vous avez besoin d'une compatibilité maximale avec le code, les outils ou les délégués TensorFlow Lite existants.