LiteRT-LM est un framework d'inférence Open Source prêt pour la production, conçu pour fournir des déploiements de LLM hautes performances et multiplate-formes sur les appareils périphériques.
- Compatibilité multiplate-forme : exécutez des applications sur Android, iOS, le Web, un ordinateur et l'IoT (par exemple, Raspberry Pi).
- Accélération matérielle : profitez de performances optimales et de la stabilité du système en tirant parti des accélérateurs GPU et NPU sur différents types de matériel.
- Multimodalité : créez des applications avec des LLM compatibles avec la vision et l'audio.
- Utilisation d'outils : prise en charge de l'appel de fonction pour les workflows agentiques avec décodage contraint pour une précision accrue.
- Prise en charge d'un large éventail de modèles : exécutez Gemma, Llama, Phi-4, Qwen et plus encore.
Nouveautés (v0.12.0)
- API Swift : intégrez nativement LiteRT-LM aux applications iOS avec l'accélération GPU Metal. Consultez le guide Swift.
- API JavaScript Web : exécutez des modèles dans des navigateurs Web avec des performances élevées à l'aide du GPU/CPU Web. Consultez le guide JavaScript.
- Mise à jour de l'interface de ligne de commande et de l'API Python LiteRT-LM : l'interface de ligne de commande et l'API Python sont désormais compatibles avec les NPU, en plus des backends CPU et GPU sur Linux, macOS et Windows. Consultez le guide de la CLI.
- API Flutter gérées par la communauté : créez des applications Flutter multiplates-formes à l'aide du package flutter_gemma de la communauté. Consultez le guide Flutter.
Présentation de l'IA générative sur l'appareil
Google AI Edge Gallery est une application expérimentale conçue pour présenter les fonctionnalités d'IA générative sur l'appareil, qui s'exécutent entièrement hors connexion à l'aide de LiteRT-LM.
- Google Play : Utilisez des LLM en local sur les appareils Android compatibles.
- App Store : Découvrez l'IA sur votre appareil iOS.
- Source GitHub : consultez le code source de l'application Galerie pour découvrir comment intégrer LiteRT-LM dans vos propres projets.
Modèle présenté : Gemma-4-E2B
- Taille du modèle : 2,58 Go
Pour en savoir plus sur les détails techniques, consultez la fiche de modèle HuggingFace.
Plate-forme (appareil) Backend Préremplissage (tk/s) Décodage (tk/s) Délai d'émission du premier jeton (en secondes) Pic de mémoire du processeur (Mo) Android (S26 Ultra) Processeur 557 47 1.8 1733 GPU 3808 52 0,3 676 iOS (iPhone 17 Pro) Processeur 532 25 1.9 607 GPU 2878 56 0,3 1450 Linux (Arm 2.3 et 2.8 GHz, NVIDIA GeForce RTX 4090) Processeur 260 35 4 1628 GPU 11234 143 0,1 913 macOS (MacBook Pro M4) Processeur 901 42 1.1 736 GPU 7835 160 0,1 1623 Windows (Intel LunarLake) Processeur 435 30 2.4 3505 GPU 3751 48 0,3 3540 IoT (Raspberry Pi 5 16 Go) Processeur 133 8 7,8 1546
Créer des applications
LiteRT-LM fournit des API pour plusieurs langages et plates-formes de programmation afin de vous aider à créer rapidement des applications d'IA sur l'appareil. Pour commencer, sélectionnez un guide ci-dessous :
| Langue | État | Idéal pour… | Documentation |
|---|---|---|---|
| CLI | ✅ Stable |
Premiers pas avec LiteRT-LM en moins d'une minute. | Guide de la CLI |
| Python | ✅ Stable |
Prototypage et développement rapides sur ordinateur et Raspberry Pi. | Guide Python |
| Kotlin | ✅ Stable |
Applications Android natives et outils de bureau basés sur JVM. Optimisé pour les coroutines. | Guide Kotlin |
| Swift | 🚀 Preview anticipée |
Intégration native à iOS et macOS avec prise en charge spécialisée de Metal. | Guide Swift |
| JavaScript (Web) | 🚀 Preview anticipée |
Déployez des modèles directement dans les navigateurs Web avec des performances élevées. | Guide JavaScript |
| Flutter | 🚀 Communauté |
Applications Flutter multiplate-formes utilisant le package flutter_gemma de la communauté. |
Guide Flutter |
| C++ | ✅ Stable |
Logique de base et systèmes embarqués hautes performances et multiplate-formes. | Guide C++ |
Créer à partir de la source
Si vous souhaitez personnaliser LiteRT-LM ou le compiler pour une configuration matérielle spécifique, vous pouvez le faire directement à partir du code source. Pour obtenir des instructions détaillées sur la configuration de votre environnement et la création du framework, consultez le guide de compilation et d'exécution de LiteRT-LM sur GitHub.
Backends et plates-formes compatibles
| Accélération | Android | iOS | macOS | Windows | Linux | IoT |
|---|---|---|---|---|---|---|
| Processeur | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| GPU | ✅ | ✅ | ✅ | ✅ | ✅ | - |
| NPU | ✅ | - | - | 🚀 | - | - |
Modèles compatibles
Le tableau suivant répertorie les modèles compatibles avec LiteRT-LM. Pour obtenir des chiffres de performances plus détaillés et des fiches de modèle, consultez la communauté LiteRT sur Hugging Face.
| Modèle | Type | Taille (Mo) | Détails | Appareil | Préremplissage du CPU (tk/s) | Décodage CPU (tk/s) | Préremplissage du GPU (jetons/s) | Décodage GPU (tk/s) |
|---|---|---|---|---|---|---|---|---|
| Gemma4-E2B | Chat | 2583 | Fiche de modèle | Samsung S26 Ultra | 557 | 47 | 3808 | 52 |
| iPhone 17 Pro | 532 | 25 | 2878 | 57 | ||||
| MacBook Pro M4 | 901 | 42 | 7835 | 160 | ||||
| Gemma4-E4B | Chat | 3654 | Fiche de modèle | Samsung S26 Ultra | 195 | 18 | 1293 | 22 |
| iPhone 17 Pro | 159 | 10 | 1189 | 25 | ||||
| MacBook Pro M4 | 277 | 27 | 2 560 | 101 | ||||
| Gemma-3n-E2B | Chat | 2965 | Fiche de modèle | MacBook Pro M3 | 233 | 28 | - | - |
| Samsung S24 Ultra | 111 | 16 | 816 | 16 | ||||
| Gemma-3n-E4B | Chat | 4235 | Fiche de modèle | MacBook Pro M3 | 170 | 20 | - | - |
| Samsung S24 Ultra | 74 | 9 | 548 | 9 | ||||
| Gemma3-1B | Chat | 1005 | Fiche de modèle | Samsung S24 Ultra | 177 | 33 | 1191 | 24 |
| FunctionGemma | Couches | 289 | Fiche de modèle | Samsung S25 Ultra | 2238 | 154 | - | - |
| phi-4-mini | Chat | 3906 | Fiche de modèle | Samsung S24 Ultra | 67 | 7 | 314 | 10 |
| Qwen2.5-1.5B | Chat | 1598 | Fiche de modèle | Samsung S25 Ultra | 298 | 34 | 1668 | 31 |
| Qwen3-0.6B | Chat | 586 | Fiche de modèle | Vivo X300 Pro | 165 | 9 | 580 | 21 |
| Qwen2.5-0.5B | Chat | 521 | Fiche de modèle | Samsung S24 Ultra | 251 | 30 | - | - |
Signaler des problèmes
Si vous rencontrez un bug ou souhaitez demander une fonctionnalité, signalez-le dans les demandes GitHub LiteRT-LM.