Descripción general de LiteRT-LM

LiteRT-LM es un framework de inferencia de código abierto listo para producción diseñado para ofrecer implementaciones de LLM multiplataforma y de alto rendimiento en dispositivos perimetrales.

Funciones clave

  • Compatibilidad multiplataforma: Ejecuta en Android, iOS, la Web y computadoras.
  • Aceleración de hardware:
    • GPU: Con tecnología de ML Drift, admite modelos de AA y de IA generativa.
    • NPU: Inferencias aceleradas en dispositivos con chipsets de Qualcomm y MediaTek (acceso anticipado).
  • Multimodalidad: Admite entradas de audio y visión.
  • Uso de herramientas: Compatibilidad con llamadas a funciones para flujos de trabajo basados en agentes.
  • Compatibilidad con una amplia variedad de modelos: Ejecuta Gemma, Llama, Phi-4, Qwen y muchos más.

Plataformas y backends compatibles

Plataforma Compatibilidad con CPU Asistencia de GPU Compatibilidad con la NPU
Android
iOS -
macOS -
Windows -
Linux -
Incorporado - -

Inicio rápido

¿Quieres probarlo primero? Antes de continuar con la configuración completa, puedes usar los archivos binarios compilados previamente para computadoras o la app de Google AI Edge Gallery para dispositivos móviles y ejecutar LiteRT-LM de inmediato.

Apps para dispositivos móviles

La Galería de Google AI Edge es una app de demostración que pone el poder de los modelos de IA generativa de vanguardia directamente en tus manos, con la tecnología de LiteRT-LM.

CLI de escritorio

Después de descargar el objeto binario lit, solo ejecuta lit para ver las opciones.

Elige tu plataforma

Idioma Estado Ideal para… Documentación
Kotlin
Estable
Apps nativas para Android y herramientas de escritorio basadas en JVM Se optimizó para corrutinas. Referencia de la API de Kotlin
C++
Estable
Lógica central y sistemas integrados multiplataforma de alto rendimiento Referencia de la API de C++
Swift 🚀
En desarrollo
Integración nativa en iOS y macOS con compatibilidad especializada con Metal Próximamente
Python 🚀
En desarrollo
Prototipado rápido, desarrollo y creación de secuencias de comandos del lado del escritorio Próximamente

Modelos compatibles

En la siguiente tabla, se muestra una muestra de los modelos que son totalmente compatibles y se probaron con LiteRT-LM.

Nota: "Listo para chat" indica que los modelos se ajustaron para el chat (ajuste de instrucciones). Los modelos "base" suelen requerir un ajuste para lograr un rendimiento óptimo en el chat, a menos que se usen para completar tareas específicas.

Modelo Tipo Cuantización Longitud del contexto Tamaño (MB) Descargar
Gemma
Gemma3-1B Listo para chatear 4 bits por canal 4096 557 Descargar
Gemma-3n-E2B Listo para chatear 4 bits por canal 4096 2965 Descargar
Gemma-3n-E4B Listo para chatear 4 bits por canal 4096 4235 Descargar
FunctionGemma-270M Base (se requiere ajuste) 8 bits por canal 1024 288 Guía de ajuste
↪ TinyGarden-270M Demostración 8 bits por canal 1024 288 Descargar / Probar la app
Llama
Llama-3.2-1B-Instruct Listo para chatear 8 bits por canal 8192 1162 Descargar
Llama-3.2-3B-Instruct Listo para chatear 8 bits por canal 8192 2893 Descargar
Phi
phi-4-mini Listo para chatear 8 bits por canal 4096 3728 Descargar
Qwen
qwen2.5-1.5b Listo para chatear 8 bits por canal 4096 1524 Descargar

Rendimiento

A continuación, se muestran las cifras de rendimiento de la ejecución de cada modelo en varios dispositivos. Ten en cuenta que la comparativa se mide con 1,024 tokens de relleno previo y 256 tokens de decodificación (con bloqueo de rendimiento en dispositivos Android).

Modelo Dispositivo Backend Prefill (tokens/s) Decodificación (tokens/s) Tamaño del contexto
Gemma3-1B MacBook Pro
(M3 del 2023)
CPU 423 67 4096
Gemma3-1B Samsung S24
(Ultra)
CPU 243 44 4096
Gemma3-1B Samsung S24
(Ultra)
GPU 1877 45 4096
Gemma3-1B Samsung S25
(Ultra)
NPU 5837 85 1280
Gemma-3n-E2B MacBook Pro
(M3 del 2023)
CPU 233 28 4096
Gemma-3n-E2B Samsung S24
(Ultra)
CPU 111 16 4096
Gemma-3n-E2B Samsung S24
(Ultra)
GPU 816 16 4096
Gemma-3n-E4B MacBook Pro
(M3 del 2023)
CPU 170 20 4096
Gemma-3n-E4B Samsung S24
(Ultra)
CPU 74 9 4096
Gemma-3n-E4B Samsung S24
(Ultra)
GPU 548 9 4096
FunctionGemma Samsung S25
(Ultra)
CPU 1718 126 1024

Nota: La primera vez que se cargue un modelo determinado en un dispositivo determinado, tardará más en cargarse, ya que se optimizarán los pesos. Las cargas posteriores serán más rápidas debido al almacenamiento en caché.

Alojamiento e implementación de modelos

Cuando un modelo supera los límites de descarga "inalámbrica" (a menudo, alrededor de 1.5 GB), se requiere una estrategia de recuperación remota.

  • Firebase: Se recomienda para descargar archivos grandes en Android y iOS.
  • API de HuggingFace: Recupera modelos directamente con la API de HuggingFace.

Informar problemas

Si encuentras un error o tienes una solicitud de función, usa la página Problemas de GitHub de LiteRT-LM.