LiteRT permet de déployer des modèles d'IA générative hautes performances sur les plates-formes mobiles, de bureau et Web. En exploitant de manière fluide l'accélération matérielle des CPU, GPU et NPU, LiteRT offre des performances de pointe pour l'inférence d'IA générative sur l'appareil.
Vous pouvez déployer des modèles d'IA générative complexes à l'aide de la pile technologique intégrée suivante :
API Torch Generative : module Python de la bibliothèque AI Edge Torch permettant de créer et de convertir des modèles PyTorch GenAI. Il fournit des blocs de construction optimisés qui garantissent une exécution hautes performances sur les appareils. Pour en savoir plus, consultez Convertir des modèles d'IA générative PyTorch.
LiteRT-LM : couche d'orchestration spécialisée basée sur LiteRT pour gérer les complexités spécifiques aux LLM, telles que le clonage de session, la gestion du cache kv, la mise en cache/l'évaluation des requêtes et l'inférence avec état. Pour en savoir plus, consultez le dépôt GitHub LiteRT-LM.
Convertisseur et environnement d'exécution LiteRT : moteur de base qui permet une conversion, une exécution et une optimisation efficaces des modèles, ce qui permet une accélération matérielle avancée sur les CPU, GPU et NPU.
Banque de modèles d'IA générative LiteRT
LiteRT est compatible avec une collection croissante de modèles open-weight populaires sur la communauté LiteRT Hugging Face. Ces modèles sont préconvertis et ajustés pour un déploiement immédiat, ce qui vous permet de tirer le meilleur parti des processeurs, GPU et NPU prêts à l'emploi.
- Famille Gemma
- Gemma 3 270M
- Gemma 3 1B
- Gemma 3n E2B/E4B
- EmbeddingGemma 300M
- Function Gemma 270M
- Famille Qwen
- Llama
- Phi
- SmoLM
- FastVLM
Sélection de tendances
- NPU MediaTek et LiteRT : au service de la prochaine génération d'IA sur l'appareil
- Exploiter tout le potentiel du NPU Qualcomm avec LiteRT
- IA générative sur l'appareil dans Chrome, Chromebook Plus et Pixel Watch avec LiteRT-LM
- Petits modèles de langage sur l'appareil avec multimodalité, RAG et appels de fonction
- Gemma 3 sur mobile et sur le Web avec Google AI Edge