LiteRT ofrece una implementación de alto rendimiento para los modelos de IA generativa en plataformas web, de escritorio y para dispositivos móviles. Al aprovechar sin problemas la aceleración por hardware de las CPU, las GPU y las NPU, LiteRT proporciona un rendimiento de vanguardia para la inferencia de IA generativa en el dispositivo.
Puedes implementar modelos complejos de IA generativa con la siguiente pila de tecnología integrada:
API de Torch Generative: Es un módulo de Python dentro de la biblioteca de Torch de AI Edge para crear y convertir modelos de IA generativa de PyTorch. Proporciona bloques de compilación optimizados que garantizan una ejecución de alto rendimiento en los dispositivos. Consulta Cómo convertir modelos de IA generativa de PyTorch para obtener más detalles.
LiteRT-LM: Es una capa de orquestación especializada creada sobre LiteRT para administrar complejidades específicas de los LLM, como la clonación de sesiones, la administración de caché de KV, el almacenamiento en caché y la puntuación de instrucciones, y la inferencia con estado. Consulta el repositorio de GitHub de LiteRT-LM para obtener más detalles.
LiteRT Converter and Runtime: Es el motor fundamental que proporciona una conversión de modelos, una ejecución del tiempo de ejecución y una optimización eficientes, lo que permite una aceleración de hardware avanzada en CPU, GPU y NPU.
Repositorio de modelos de IA generativa de LiteRT
LiteRT admite una colección cada vez mayor de modelos populares de código abierto en la comunidad de Hugging Face de LiteRT. Estos modelos se convierten y ajustan previamente para su implementación inmediata, lo que te permite aprovechar el máximo rendimiento en las CPU, las GPU y las NPU de inmediato.
- Familia de Gemma
- Gemma 3 270M
- Gemma 3 1B
- Gemma 3n E2B/E4B
- EmbeddingGemma 300M
- Function Gemma 270M
- Familia Qwen
- Llama
- Phi
- SmoLM
- FastVLM
Estadísticas destacadas
- NPU de MediaTek y LiteRT: Potenciamos la próxima generación de IA integrada en el dispositivo
- Cómo lograr el máximo rendimiento en la NPU de Qualcomm con LiteRT
- IA generativa integrada en Chrome, Chromebook Plus y Pixel Watch con LiteRT-LM
- Modelos de lenguaje pequeños integrados en el dispositivo con multimodalidad, RAG y llamada a función
- Gemma 3 en dispositivos móviles y la Web con Google AI Edge