Présentation de LiteRT-LM

LiteRT-LM est un framework d'inférence Open Source prêt pour la production, conçu pour fournir des déploiements de LLM hautes performances et multiplate-formes sur les appareils périphériques.

  • Compatibilité multiplate-forme : exécutez des applications sur Android, iOS, le Web, un ordinateur et l'IoT (par exemple, Raspberry Pi).
  • Accélération matérielle : profitez de performances optimales et de la stabilité du système en tirant parti des accélérateurs GPU et NPU sur différents types de matériel.
  • Multimodalité : créez des applications avec des LLM compatibles avec la vision et l'audio.
  • Utilisation d'outils : prise en charge de l'appel de fonction pour les workflows agentiques avec décodage contraint pour une précision accrue.
  • Prise en charge d'un large éventail de modèles : exécutez Gemma, Llama, Phi-4, Qwen et plus encore.

Nouveautés (v0.12.0)

  • API Swift : intégrez nativement LiteRT-LM aux applications iOS avec l'accélération GPU Metal. Consultez le guide Swift.
  • API JavaScript Web : exécutez des modèles dans des navigateurs Web avec des performances élevées à l'aide du GPU/CPU Web. Consultez le guide JavaScript.
  • Mise à jour de l'interface de ligne de commande et de l'API Python LiteRT-LM : l'interface de ligne de commande et l'API Python sont désormais compatibles avec les NPU, en plus des backends CPU et GPU sur Linux, macOS et Windows. Consultez le guide de la CLI.
  • API Flutter gérées par la communauté : créez des applications Flutter multiplates-formes à l'aide du package flutter_gemma de la communauté. Consultez le guide Flutter.

Présentation de l'IA générative sur l'appareil

Capture d'écran de la galerie Google AI Edge

Google AI Edge Gallery est une application expérimentale conçue pour présenter les fonctionnalités d'IA générative sur l'appareil, qui s'exécutent entièrement hors connexion à l'aide de LiteRT-LM.

  • Google Play : Utilisez des LLM en local sur les appareils Android compatibles.
  • App Store : Découvrez l'IA sur votre appareil iOS.
  • Source GitHub : consultez le code source de l'application Galerie pour découvrir comment intégrer LiteRT-LM dans vos propres projets.
  • Taille du modèle : 2,58 Go
  • Pour en savoir plus sur les détails techniques, consultez la fiche de modèle HuggingFace.

    Plate-forme (appareil) Backend Préremplissage (tk/s) Décodage (tk/s) Délai d'émission du premier jeton (en secondes) Pic de mémoire du processeur (Mo)
    Android (S26 Ultra) Processeur 557 47 1.8 1733
    GPU 3808 52 0,3 676
    iOS (iPhone 17 Pro) Processeur 532 25 1.9 607
    GPU 2878 56 0,3 1450
    Linux (Arm 2.3 et 2.8 GHz, NVIDIA GeForce RTX 4090) Processeur 260 35 4 1628
    GPU 11234 143 0,1 913
    macOS (MacBook Pro M4) Processeur 901 42 1.1 736
    GPU 7835 160 0,1 1623
    Windows (Intel LunarLake) Processeur 435 30 2.4 3505
    GPU 3751 48 0,3 3540
    IoT (Raspberry Pi 5 16 Go) Processeur 133 8 7,8 1546

Créer des applications

LiteRT-LM fournit des API pour plusieurs langages et plates-formes de programmation afin de vous aider à créer rapidement des applications d'IA sur l'appareil. Pour commencer, sélectionnez un guide ci-dessous :

Langue État Idéal pour… Documentation
CLI ✅ 
Stable
Premiers pas avec LiteRT-LM en moins d'une minute. Guide de la CLI
Python ✅ 
Stable
Prototypage et développement rapides sur ordinateur et Raspberry Pi. Guide Python
Kotlin ✅ 
Stable
Applications Android natives et outils de bureau basés sur JVM. Optimisé pour les coroutines. Guide Kotlin
Swift 🚀 
Preview anticipée
Intégration native à iOS et macOS avec prise en charge spécialisée de Metal. Guide Swift
JavaScript (Web) 🚀 
Preview anticipée
Déployez des modèles directement dans les navigateurs Web avec des performances élevées. Guide JavaScript
Flutter 🚀 Communauté
Applications Flutter multiplate-formes utilisant le package flutter_gemma de la communauté. Guide Flutter
C++ ✅ 
Stable
Logique de base et systèmes embarqués hautes performances et multiplate-formes. Guide C++

Créer à partir de la source

Si vous souhaitez personnaliser LiteRT-LM ou le compiler pour une configuration matérielle spécifique, vous pouvez le faire directement à partir du code source. Pour obtenir des instructions détaillées sur la configuration de votre environnement et la création du framework, consultez le guide de compilation et d'exécution de LiteRT-LM sur GitHub.

Backends et plates-formes compatibles

Accélération Android iOS macOS Windows Linux IoT
Processeur
GPU -
NPU - - 🚀 - -

Modèles compatibles

Le tableau suivant répertorie les modèles compatibles avec LiteRT-LM. Pour obtenir des chiffres de performances plus détaillés et des fiches de modèle, consultez la communauté LiteRT sur Hugging Face.

Modèle Type Taille (Mo) Détails Appareil Préremplissage du CPU (tk/s) Décodage CPU (tk/s) Préremplissage du GPU (jetons/s) Décodage GPU (tk/s)
Gemma4-E2B Chat 2583 Fiche de modèle Samsung S26 Ultra 557 47 3808 52
iPhone 17 Pro 532 25 2878 57
MacBook Pro M4 901 42 7835 160
Gemma4-E4B Chat 3654 Fiche de modèle Samsung S26 Ultra 195 18 1293 22
iPhone 17 Pro 159 10 1189 25
MacBook Pro M4 277 27 2 560 101
Gemma-3n-E2B Chat 2965 Fiche de modèle MacBook Pro M3 233 28 - -
Samsung S24 Ultra 111 16 816 16
Gemma-3n-E4B Chat 4235 Fiche de modèle MacBook Pro M3 170 20 - -
Samsung S24 Ultra 74 9 548 9
Gemma3-1B Chat 1005 Fiche de modèle Samsung S24 Ultra 177 33 1191 24
FunctionGemma Couches 289 Fiche de modèle Samsung S25 Ultra 2238 154 - -
phi-4-mini Chat 3906 Fiche de modèle Samsung S24 Ultra 67 7 314 10
Qwen2.5-1.5B Chat 1598 Fiche de modèle Samsung S25 Ultra 298 34 1668 31
Qwen3-0.6B Chat 586 Fiche de modèle Vivo X300 Pro 165 9 580 21
Qwen2.5-0.5B Chat 521 Fiche de modèle Samsung S24 Ultra 251 30 - -

Signaler des problèmes

Si vous rencontrez un bug ou souhaitez demander une fonctionnalité, signalez-le dans les demandes GitHub LiteRT-LM.