Framework d'inférence Open Source prêt pour la production, conçu pour déployer des LLM hautes performances et multiplates-formes sur des appareils périphériques.

Sélection du moment

Boostez l'inférence Gemma 4 sur l'appareil grâce à la prédiction multitoken (MTP). Profitez d'une vitesse de décodage plus de deux fois supérieure sur les GPU mobiles, sans aucune dégradation de la qualité.

Pourquoi LiteRT-LM ?

Déployez des LLM sur Android, iOS, le Web et les ordinateurs.
Maximisez les performances grâce à l'accélération GPU et NPU.
Prise en charge des LLM populaires, ainsi que de la multimodalité (Vision, Audio) et de l'utilisation d'outils.

Démarrer la création

API Python avec accélération matérielle sur Linux, macOS, Windows et Raspberry Pi.
Applications Android natives et outils de bureau basés sur la JVM.
API Swift natives pour iOS (macOS bientôt disponible).
API JavaScript et TypeScript pour les applications Web basées sur navigateur avec accélération WebGPU.
Créez des applications Flutter multiplates-formes à l'aide du package flutter_gemma géré par la communauté.
API C++ multiplate-formes
Créez des fichiers .litertlm à partir de modèles LiteRT convertis.

Rejoignez la communauté

Contribuez au projet Open Source, signalez des problèmes et consultez des exemples.
Téléchargez des modèles pré-convertis (Gemma, Qwen et plus encore) et participez à la discussion.

Blogs et annonces

Déployez Gemma 4 dans votre application et sur une plus large gamme d'appareils avec des performances et une couverture exceptionnelles grâce à LiteRT-LM.
Déployez des modèles de langage sur des plates-formes portables et basées sur navigateur à l'aide de LiteRT-LM à grande échelle.
Découvrez comment affiner FunctionGemma et activer les fonctionnalités d'appel de fonction optimisées par les API d'utilisation d'outils LiteRT-LM.
Dernières informations sur la RAG, la multimodalité et les appels de fonction pour les modèles de langage Edge.