O LiteRT-LM é um framework de inferência de código aberto pronto para produção projetado para oferecer implantações de LLM de alto desempenho e multiplataforma em dispositivos de borda.
Principais recursos
- Suporte multiplataforma:execute no Android, iOS, Web e computador.
- Aceleração de hardware:
- GPU:tecnologia ML Drift, compatível com modelos de ML e de IA generativa.
- NPU:inferência acelerada em dispositivos com chipsets Qualcomm e MediaTek (acesso antecipado).
- Multimodalidade:suporte a entrada de visão e áudio.
- Uso de ferramentas:compatibilidade com chamadas de função para fluxos de trabalho de agentes.
- Suporte a vários modelos:execute o Gemma, o Llama, o Phi-4, o Qwen e muito mais.
Back-ends e plataformas compatíveis
| Plataforma | Suporte a CPU | Suporte a GPUs | Suporte a NPU |
|---|---|---|---|
| Android | ✅ | ✅ | ✅ |
| iOS | ✅ | ✅ | - |
| macOS | ✅ | ✅ | - |
| Windows | ✅ | ✅ | - |
| Linux | ✅ | ✅ | - |
| Incorporado | ✅ | - | - |
Início rápido
Quer testar primeiro? Antes de prosseguir com a configuração completa, use os binários pré-criados para computador ou o app Google AI Edge Gallery para dispositivos móveis e execute o LiteRT-LM imediatamente.
Apps para dispositivos móveis
A Galeria do Google AI Edge é um app de demonstração que coloca o poder dos modelos de IA generativa de ponta nas suas mãos, com tecnologia LiteRT-LM.
- App Galeria de IA Edge do Android
- App Galeria de IA Edge para iOS
- GitHub da AI Edge Gallery (em inglês)
CLI para computador
Depois de fazer o download do binário lit, basta executar lit para conferir as opções.
Escolha sua plataforma
| Idioma | Status | Ideal para... | Documentação |
|---|---|---|---|
| Kotlin | ✅ Estável |
Apps Android nativos e ferramentas de computador baseadas em JVM. Otimizado para corrotinas. | Referência da API Kotlin |
| C++ | ✅ Estável |
Lógica principal e sistemas incorporados de alto desempenho e multiplataforma. | Referência da API C++ |
| Swift | 🚀 Em desenvolvimento |
Integração nativa com iOS e macOS com suporte especializado ao Metal. | Em breve |
| Python | 🚀 Em desenvolvimento |
Prototipagem rápida, desenvolvimento e programação de scripts no lado da área de trabalho. | Em breve |
Modelos compatíveis
A tabela a seguir mostra uma amostra de modelos totalmente compatíveis e testados com o LiteRT-LM.
Observação: "Pronto para chat" indica modelos ajustados para chat (ajuste de instruções). Os modelos "base" geralmente precisam de ajuste fino para ter um desempenho ideal no chat, a menos que sejam usados para conclusões específicas.
| Modelo | Tipo | Quantização | Tamanho do contexto | Tamanho (MB) | Fazer o download |
|---|---|---|---|---|---|
| Gemma | |||||
| Gemma3-1B | Pronto para conversar | 4 bits por canal | 4096 | 557 | Fazer download |
| Gemma-3n-E2B | Pronto para conversar | 4 bits por canal | 4096 | 2965 | Fazer download |
| Gemma-3n-E4B | Pronto para conversar | 4 bits por canal | 4096 | 4235 | Fazer download |
| FunctionGemma-270M | Base (é necessário ajuste de detalhes) | 8 bits por canal | 1024 | 288 | Guia de ajuste de detalhes |
| ↪ TinyGarden-270M | Demonstração | 8 bits por canal | 1024 | 288 | Baixar / Testar o app |
| Llama | |||||
| Llama-3.2-1B-Instruct | Pronto para conversar | 8 bits por canal | 8192 | 1162 | Fazer download |
| Llama-3.2-3B-Instruct | Pronto para conversar | 8 bits por canal | 8192 | 2893 | Fazer download |
| Phi | |||||
| phi-4-mini | Pronto para conversar | 8 bits por canal | 4096 | 3728 | Fazer download |
| Qwen | |||||
| qwen2.5-1.5b | Pronto para conversar | 8 bits por canal | 4096 | 1524 | Fazer download |
Desempenho
Confira abaixo os números de desempenho da execução de cada modelo em vários dispositivos. O comparativo de mercado é medido com 1.024 tokens de pré-preenchimento e 256 tokens de decodificação (com bloqueio de desempenho em dispositivos Android).
| Modelo | Dispositivo | Back-end | Pré-preenchimento (tokens/segundo) | Decodificação (tokens/segundo) | Tamanho do contexto |
|---|---|---|---|---|---|
| Gemma3-1B | MacBook Pro (2023 M3) |
CPU | 423 | 67 | 4096 |
| Gemma3-1B | Samsung S24 (Ultra) |
CPU | 243 | 44 | 4096 |
| Gemma3-1B | Samsung S24 (Ultra) |
GPU | 1877 | 45 | 4096 |
| Gemma3-1B | Samsung S25 (Ultra) |
NPU | 5837 | 85 | 1280 |
| Gemma-3n-E2B | MacBook Pro (2023 M3) |
CPU | 233 | 28 | 4096 |
| Gemma-3n-E2B | Samsung S24 (Ultra) |
CPU | 111 | 16 | 4096 |
| Gemma-3n-E2B | Samsung S24 (Ultra) |
GPU | 816 | 16 | 4096 |
| Gemma-3n-E4B | MacBook Pro (2023 M3) |
CPU | 170 | 20 | 4096 |
| Gemma-3n-E4B | Samsung S24 (Ultra) |
CPU | 74 | 9 | 4096 |
| Gemma-3n-E4B | Samsung S24 (Ultra) |
GPU | 548 | 9 | 4096 |
| FunctionGemma | Samsung S25 (Ultra) |
CPU | 1718 | 126 | 1024 |
Observação: na primeira vez que um modelo é carregado em um dispositivo, ele demora mais porque os pesos são otimizados. Os carregamentos subsequentes serão mais rápidos devido ao armazenamento em cache.
Hospedagem e implantação de modelos
Quando um modelo excede os limites de download "pelo ar" (geralmente em torno de 1,5 GB), é necessária uma estratégia de busca remota.
- Firebase:recomendado para baixar arquivos grandes no Android e no iOS.
- API HuggingFace:busque modelos diretamente usando a API HuggingFace.
Problemas em relatórios
Se você encontrar um bug ou quiser solicitar um recurso, use a página Problemas do LiteRT-LM no GitHub.