LiteRT-LM es un framework de inferencia de código abierto listo para producción diseñado para ofrecer implementaciones de LLM multiplataforma y de alto rendimiento en dispositivos perimetrales.
Funciones clave
- Compatibilidad multiplataforma: Ejecuta en Android, iOS, la Web y computadoras.
- Aceleración de hardware:
- GPU: Con tecnología de ML Drift, admite modelos de AA y de IA generativa.
- NPU: Inferencias aceleradas en dispositivos con chipsets de Qualcomm y MediaTek (acceso anticipado).
- Multimodalidad: Admite entradas de audio y visión.
- Uso de herramientas: Compatibilidad con llamadas a funciones para flujos de trabajo basados en agentes.
- Compatibilidad con una amplia variedad de modelos: Ejecuta Gemma, Llama, Phi-4, Qwen y muchos más.
Plataformas y backends compatibles
| Plataforma | Compatibilidad con CPU | Asistencia de GPU | Compatibilidad con la NPU |
|---|---|---|---|
| Android | ✅ | ✅ | ✅ |
| iOS | ✅ | ✅ | - |
| macOS | ✅ | ✅ | - |
| Windows | ✅ | ✅ | - |
| Linux | ✅ | ✅ | - |
| Incorporado | ✅ | - | - |
Inicio rápido
¿Quieres probarlo primero? Antes de continuar con la configuración completa, puedes usar los archivos binarios compilados previamente para computadoras o la app de Google AI Edge Gallery para dispositivos móviles y ejecutar LiteRT-LM de inmediato.
Apps para dispositivos móviles
La Galería de Google AI Edge es una app de demostración que pone el poder de los modelos de IA generativa de vanguardia directamente en tus manos, con la tecnología de LiteRT-LM.
CLI de escritorio
Después de descargar el objeto binario lit, solo ejecuta lit para ver las opciones.
Elige tu plataforma
| Idioma | Estado | Ideal para… | Documentación |
|---|---|---|---|
| Kotlin | ✅ Estable |
Apps nativas para Android y herramientas de escritorio basadas en JVM Se optimizó para corrutinas. | Referencia de la API de Kotlin |
| C++ | ✅ Estable |
Lógica central y sistemas integrados multiplataforma de alto rendimiento | Referencia de la API de C++ |
| Swift | 🚀 En desarrollo |
Integración nativa en iOS y macOS con compatibilidad especializada con Metal | Próximamente |
| Python | 🚀 En desarrollo |
Prototipado rápido, desarrollo y creación de secuencias de comandos del lado del escritorio | Próximamente |
Modelos compatibles
En la siguiente tabla, se muestra una muestra de los modelos que son totalmente compatibles y se probaron con LiteRT-LM.
Nota: "Listo para chat" indica que los modelos se ajustaron para el chat (ajuste de instrucciones). Los modelos "base" suelen requerir un ajuste para lograr un rendimiento óptimo en el chat, a menos que se usen para completar tareas específicas.
| Modelo | Tipo | Cuantización | Longitud del contexto | Tamaño (MB) | Descargar |
|---|---|---|---|---|---|
| Gemma | |||||
| Gemma3-1B | Listo para chatear | 4 bits por canal | 4096 | 557 | Descargar |
| Gemma-3n-E2B | Listo para chatear | 4 bits por canal | 4096 | 2965 | Descargar |
| Gemma-3n-E4B | Listo para chatear | 4 bits por canal | 4096 | 4235 | Descargar |
| FunctionGemma-270M | Base (se requiere ajuste) | 8 bits por canal | 1024 | 288 | Guía de ajuste |
| ↪ TinyGarden-270M | Demostración | 8 bits por canal | 1024 | 288 | Descargar / Probar la app |
| Llama | |||||
| Llama-3.2-1B-Instruct | Listo para chatear | 8 bits por canal | 8192 | 1162 | Descargar |
| Llama-3.2-3B-Instruct | Listo para chatear | 8 bits por canal | 8192 | 2893 | Descargar |
| Phi | |||||
| phi-4-mini | Listo para chatear | 8 bits por canal | 4096 | 3728 | Descargar |
| Qwen | |||||
| qwen2.5-1.5b | Listo para chatear | 8 bits por canal | 4096 | 1524 | Descargar |
Rendimiento
A continuación, se muestran las cifras de rendimiento de la ejecución de cada modelo en varios dispositivos. Ten en cuenta que la comparativa se mide con 1,024 tokens de relleno previo y 256 tokens de decodificación (con bloqueo de rendimiento en dispositivos Android).
| Modelo | Dispositivo | Backend | Prefill (tokens/s) | Decodificación (tokens/s) | Tamaño del contexto |
|---|---|---|---|---|---|
| Gemma3-1B | MacBook Pro (M3 del 2023) |
CPU | 423 | 67 | 4096 |
| Gemma3-1B | Samsung S24 (Ultra) |
CPU | 243 | 44 | 4096 |
| Gemma3-1B | Samsung S24 (Ultra) |
GPU | 1877 | 45 | 4096 |
| Gemma3-1B | Samsung S25 (Ultra) |
NPU | 5837 | 85 | 1280 |
| Gemma-3n-E2B | MacBook Pro (M3 del 2023) |
CPU | 233 | 28 | 4096 |
| Gemma-3n-E2B | Samsung S24 (Ultra) |
CPU | 111 | 16 | 4096 |
| Gemma-3n-E2B | Samsung S24 (Ultra) |
GPU | 816 | 16 | 4096 |
| Gemma-3n-E4B | MacBook Pro (M3 del 2023) |
CPU | 170 | 20 | 4096 |
| Gemma-3n-E4B | Samsung S24 (Ultra) |
CPU | 74 | 9 | 4096 |
| Gemma-3n-E4B | Samsung S24 (Ultra) |
GPU | 548 | 9 | 4096 |
| FunctionGemma | Samsung S25 (Ultra) |
CPU | 1718 | 126 | 1024 |
Nota: La primera vez que se cargue un modelo determinado en un dispositivo determinado, tardará más en cargarse, ya que se optimizarán los pesos. Las cargas posteriores serán más rápidas debido al almacenamiento en caché.
Alojamiento e implementación de modelos
Cuando un modelo supera los límites de descarga "inalámbrica" (a menudo, alrededor de 1.5 GB), se requiere una estrategia de recuperación remota.
- Firebase: Se recomienda para descargar archivos grandes en Android y iOS.
- API de HuggingFace: Recupera modelos directamente con la API de HuggingFace.
Informar problemas
Si encuentras un error o tienes una solicitud de función, usa la página Problemas de GitHub de LiteRT-LM.