Visão geral do LiteRT-LM

O LiteRT-LM é um framework de inferência de código aberto pronto para produção projetado para oferecer implantações de LLM de alto desempenho e multiplataforma em dispositivos de borda.

Principais recursos

  • Suporte multiplataforma:execute no Android, iOS, Web e computador.
  • Aceleração de hardware:
    • GPU:tecnologia ML Drift, compatível com modelos de ML e de IA generativa.
    • NPU:inferência acelerada em dispositivos com chipsets Qualcomm e MediaTek (acesso antecipado).
  • Multimodalidade:suporte a entrada de visão e áudio.
  • Uso de ferramentas:compatibilidade com chamadas de função para fluxos de trabalho de agentes.
  • Suporte a vários modelos:execute o Gemma, o Llama, o Phi-4, o Qwen e muito mais.

Back-ends e plataformas compatíveis

Plataforma Suporte a CPU Suporte a GPUs Suporte a NPU
Android
iOS -
macOS -
Windows -
Linux -
Incorporado - -

Início rápido

Quer testar primeiro? Antes de prosseguir com a configuração completa, use os binários pré-criados para computador ou o app Google AI Edge Gallery para dispositivos móveis e execute o LiteRT-LM imediatamente.

Apps para dispositivos móveis

A Galeria do Google AI Edge é um app de demonstração que coloca o poder dos modelos de IA generativa de ponta nas suas mãos, com tecnologia LiteRT-LM.

CLI para computador

Depois de fazer o download do binário lit, basta executar lit para conferir as opções.

Escolha sua plataforma

Idioma Status Ideal para... Documentação
Kotlin
Estável
Apps Android nativos e ferramentas de computador baseadas em JVM. Otimizado para corrotinas. Referência da API Kotlin
C++
Estável
Lógica principal e sistemas incorporados de alto desempenho e multiplataforma. Referência da API C++
Swift 🚀
Em desenvolvimento
Integração nativa com iOS e macOS com suporte especializado ao Metal. Em breve
Python 🚀
Em desenvolvimento
Prototipagem rápida, desenvolvimento e programação de scripts no lado da área de trabalho. Em breve

Modelos compatíveis

A tabela a seguir mostra uma amostra de modelos totalmente compatíveis e testados com o LiteRT-LM.

Observação: "Pronto para chat" indica modelos ajustados para chat (ajuste de instruções). Os modelos "base" geralmente precisam de ajuste fino para ter um desempenho ideal no chat, a menos que sejam usados para conclusões específicas.

Modelo Tipo Quantização Tamanho do contexto Tamanho (MB) Fazer o download
Gemma
Gemma3-1B Pronto para conversar 4 bits por canal 4096 557 Fazer download
Gemma-3n-E2B Pronto para conversar 4 bits por canal 4096 2965 Fazer download
Gemma-3n-E4B Pronto para conversar 4 bits por canal 4096 4235 Fazer download
FunctionGemma-270M Base (é necessário ajuste de detalhes) 8 bits por canal 1024 288 Guia de ajuste de detalhes
↪ TinyGarden-270M Demonstração 8 bits por canal 1024 288 Baixar / Testar o app
Llama
Llama-3.2-1B-Instruct Pronto para conversar 8 bits por canal 8192 1162 Fazer download
Llama-3.2-3B-Instruct Pronto para conversar 8 bits por canal 8192 2893 Fazer download
Phi
phi-4-mini Pronto para conversar 8 bits por canal 4096 3728 Fazer download
Qwen
qwen2.5-1.5b Pronto para conversar 8 bits por canal 4096 1524 Fazer download

Desempenho

Confira abaixo os números de desempenho da execução de cada modelo em vários dispositivos. O comparativo de mercado é medido com 1.024 tokens de pré-preenchimento e 256 tokens de decodificação (com bloqueio de desempenho em dispositivos Android).

Modelo Dispositivo Back-end Pré-preenchimento (tokens/segundo) Decodificação (tokens/segundo) Tamanho do contexto
Gemma3-1B MacBook Pro
(2023 M3)
CPU 423 67 4096
Gemma3-1B Samsung S24
(Ultra)
CPU 243 44 4096
Gemma3-1B Samsung S24
(Ultra)
GPU 1877 45 4096
Gemma3-1B Samsung S25
(Ultra)
NPU 5837 85 1280
Gemma-3n-E2B MacBook Pro
(2023 M3)
CPU 233 28 4096
Gemma-3n-E2B Samsung S24
(Ultra)
CPU 111 16 4096
Gemma-3n-E2B Samsung S24
(Ultra)
GPU 816 16 4096
Gemma-3n-E4B MacBook Pro
(2023 M3)
CPU 170 20 4096
Gemma-3n-E4B Samsung S24
(Ultra)
CPU 74 9 4096
Gemma-3n-E4B Samsung S24
(Ultra)
GPU 548 9 4096
FunctionGemma Samsung S25
(Ultra)
CPU 1718 126 1024

Observação: na primeira vez que um modelo é carregado em um dispositivo, ele demora mais porque os pesos são otimizados. Os carregamentos subsequentes serão mais rápidos devido ao armazenamento em cache.

Hospedagem e implantação de modelos

Quando um modelo excede os limites de download "pelo ar" (geralmente em torno de 1,5 GB), é necessária uma estratégia de busca remota.

  • Firebase:recomendado para baixar arquivos grandes no Android e no iOS.
  • API HuggingFace:busque modelos diretamente usando a API HuggingFace.

Problemas em relatórios

Se você encontrar um bug ou quiser solicitar um recurso, use a página Problemas do LiteRT-LM no GitHub.