Apresentação do Google AI Edge Portal: compare a IA Edge em escala. Inscrição para solicitar acesso durante a visualização particular.

Esta página foi traduzida pela API Cloud Translation.

LiteRT para Android

Com o LiteRT, você executa modelos do TensorFlow, PyTorch e JAX nos seus apps Android. O sistema LiteRT oferece ambientes de execução pré-criados e personalizáveis para executar modelos no Android de maneira rápida e eficiente, incluindo opções de aceleração de hardware.

Para exemplos de aplicativos Android que usam o LiteRT, consulte o repositório de amostras do LiteRT.

Modelos de machine learning

O LiteRT usa modelos do TensorFlow, PyTorch e JAX que são convertidos em um formato de modelo de machine learning menor, portátil e mais eficiente. Você pode usar modelos pré-criados com o LiteRT no Android ou criar seus próprios modelos e convertê-los para o formato LiteRT.

Esta página aborda o uso de modelos de machine learning já criados e não inclui a criação, o treinamento, o teste ou a conversão de modelos. Saiba mais sobre como escolher, modificar, criar e converter modelos de machine learning para LiteRT na página Modelos.

Executar modelos no Android

Um modelo LiteRT executado em um app Android recebe dados, os processa e gera uma previsão com base na lógica do modelo. Um modelo LiteRT exige um ambiente de execução especial para ser executado, e os dados transmitidos para o modelo precisam estar em um formato específico, chamado de tensor. Quando um modelo processa os dados, o que é conhecido como execução de uma inferência, ele gera resultados de previsão como novos tensores e os transmite ao app Android para que ele possa realizar ações, como mostrar o resultado a um usuário ou executar outra lógica de negócios.

Fluxo de execução funcional para modelos LiteRT em apps Android

Figura 1. Fluxo de execução funcional para modelos LiteRT em apps Android.

No nível de design funcional, seu app Android precisa dos seguintes elementos para executar um modelo LiteRT:

Ambiente de execução do LiteRT para executar o modelo
Processador de entrada do modelo para transformar dados em tensores
Processador de saída do modelo para receber tensores de resultados de saída e interpretá-los como resultados de previsão

As seções a seguir descrevem como as bibliotecas e ferramentas do LiteRT fornecem esses elementos funcionais.

Criar apps com o LiteRT

Esta seção descreve o caminho recomendado e mais comum para implementar o LiteRT no seu app Android. Preste mais atenção às seções ambiente de execução e bibliotecas de desenvolvimento. Se você desenvolveu um modelo personalizado, consulte a seção Caminhos de desenvolvimento avançado.

Opções de ambiente de execução

Há várias maneiras de ativar um ambiente de execução para executar modelos no seu app Android. Estas são as opções preferenciais:

LiteRT no ambiente de execução dos serviços do Google Play (recomendado)
Ambiente de execução LiteRT independente

Em geral, use o ambiente de execução fornecido pelos Serviços do Google Play, porque ele é mais eficiente em termos de espaço do que o ambiente padrão, já que é carregado dinamicamente, mantendo o tamanho do app menor. O Google Play Services também usa automaticamente a versão estável mais recente do ambiente de execução LiteRT, oferecendo mais recursos e melhor desempenho ao longo do tempo. Se você oferece seu app em dispositivos que não incluem o Google Play Services ou precisa gerenciar de perto o ambiente de execução de ML, use o tempo de execução padrão do LiteRT. Essa opção agrupa código adicional no app, permitindo que você tenha mais controle sobre o tempo de execução de ML no app, mas aumenta o tamanho do download.

Para acessar esses ambientes de execução no seu app Android, adicione bibliotecas de desenvolvimento do LiteRT ao ambiente de desenvolvimento do app. Para informações sobre como usar os ambientes de execução padrão no seu app, consulte a próxima seção.

Bibliotecas

É possível acessar a API Interpreter usando o Google Play Services. Você pode usar as bibliotecas core e support do LiteRT no seu app Android. Para detalhes de programação sobre o uso de bibliotecas e ambientes de execução do LiteRT, consulte Ferramentas de desenvolvimento para Android.

Receber modelos

Para executar um modelo em um app Android, é necessário um modelo no formato LiteRT. Você pode usar modelos pré-criados ou criar um e convertê-lo para o formato Lite. Para mais informações sobre como conseguir modelos para seu app Android, consulte a página Modelos do LiteRT.

Processar dados de entrada

Todos os dados transmitidos para um modelo de ML precisam ser um tensor com uma estrutura de dados específica, geralmente chamada de formato do tensor. Para processar dados com um modelo, o código do app precisa transformar os dados do formato nativo, como imagem, texto ou áudio, em um tensor no formato necessário para o modelo.

Executar inferências

O processamento de dados em um modelo para gerar um resultado de previsão é conhecido como execução de uma inferência. Para executar uma inferência em um app Android, é necessário um ambiente de execução do LiteRT, um modelo e dados de entrada.

A velocidade com que um modelo pode gerar uma inferência em um determinado dispositivo depende do tamanho dos dados processados, da complexidade do modelo e dos recursos de computação disponíveis, como memória e CPU, ou processadores especializados chamados de aceleradores. Os modelos de machine learning podem ser executados mais rapidamente nesses processadores especializados, como unidades de processamento gráfico (GPUs) e unidades de processamento de tensor (TPUs), usando drivers de hardware LiteRT chamados de delegados. Para mais informações sobre delegados e aceleração de hardware do processamento de modelos, consulte a Visão geral da aceleração de hardware.

Processar resultados de saída

Os modelos geram resultados de previsão como tensores, que precisam ser processados pelo seu app Android tomando uma ação ou mostrando um resultado ao usuário. Os resultados da saída do modelo podem ser tão simples quanto um número correspondente a um único resultado (0 = cachorro, 1 = gato, 2 = pássaro) para uma classificação de imagem ou muito mais complexos, como várias caixas delimitadoras para vários objetos classificados em uma imagem, com classificações de confiança de previsão entre 0 e 1.

Caminhos de desenvolvimento avançados

Ao usar modelos LiteRT mais sofisticados e personalizados, talvez seja necessário usar abordagens de desenvolvimento mais avançadas do que as descritas acima. As seções a seguir descrevem técnicas avançadas para executar e desenvolver modelos para o LiteRT em apps Android.

Ambientes de execução avançados

Além dos ambientes de execução padrão e dos Serviços do Google Play para o LiteRT, há outros ambientes de execução que podem ser usados com seu app Android. O uso mais provável desses ambientes é quando você tem um modelo de aprendizado de máquina que usa operações de ML não compatíveis com o ambiente de execução padrão do LiteRT.

Tempo de execução flexível para LiteRT
Ambiente de execução LiteRT personalizado

O ambiente de execução flexível do LiteRT permite incluir operadores específicos necessários para seu modelo. Como uma opção avançada para executar seu modelo, você pode criar o LiteRT para Android e incluir operadores e outras funcionalidades necessárias para executar seu modelo de machine learning do TensorFlow. Para mais informações, consulte Criar o LiteRT para Android.

APIs C e C++

O LiteRT também oferece uma API para executar modelos usando C e C++. Se o app usa o Android NDK, considere usar essa API. Considere usar essa API se quiser compartilhar código entre várias plataformas. Para mais informações sobre essa opção de desenvolvimento, consulte a página Ferramentas de desenvolvimento.

Execução de modelo baseada em servidor

Em geral, é recomendável executar modelos no seu app em um dispositivo Android para aproveitar a latência menor e a privacidade de dados aprimorada para os usuários. No entanto, há casos em que executar um modelo em um servidor na nuvem, fora do dispositivo, é uma solução melhor. Por exemplo, se você tiver um modelo grande que não seja facilmente compactado para um tamanho adequado aos dispositivos Android dos usuários ou que possa ser executado com desempenho razoável nesses dispositivos. Essa abordagem também pode ser sua solução preferida se o desempenho consistente do modelo em uma ampla variedade de dispositivos for a prioridade máxima.

O Google Cloud oferece um conjunto completo de serviços para executar modelos de IA. Para mais informações, consulte a página de produtos de IA e machine learning do Google Cloud.

Desenvolvimento e otimização de modelos personalizados

Caminhos de desenvolvimento mais avançados provavelmente incluem o desenvolvimento de modelos personalizados de machine learning e a otimização deles para uso em dispositivos Android. Se você planeja criar modelos personalizados, considere aplicar técnicas de quantização para reduzir os custos de memória e processamento. Para mais informações sobre como criar modelos de alta performance para uso com o LiteRT, consulte Práticas recomendadas de desempenho na seção "Modelos".

Versões compatíveis do Android

Versão do LiteRT	Status	Nível mínimo do SDK	Versão mínima do NDK (se usada)	Data do lançamento
`v1.2.0` ⭐	⚠️ Descontinuado	`21` (Android 5 Lollipop)	`r26a`	2025-03-13
`v1.3.0` ⭐	⚠️ Descontinuado	`21` (Android 5 Lollipop)	`r26a`	2025-05-19
`v1.4.0` ⭐	⚠️ Descontinuado	`26` (Android 8 Oreo)	`r26a`	2025-06-25
`v1.4.1` ⭐	✅ Ativo	`21` (Android 5 Lollipop)	`r26a`	2025-11-07
`v2.0.3` ⭐	✅ Ativo	`26` (Android 8 Oreo)	`r26a`	2025-11-08
`v2.1.0` ⭐	Forthcoming	`23` (Android 6 Marshmallow)	`r26a`	Ainda não lançado

Importante:mantenha suas dependências atualizadas para garantir a compatibilidade com os recursos e as atualizações de segurança mais recentes.

API Compiled Model x API Interpreter

API Compiled Model: execução compilada com AOT/JIT, prioridade para aceleradores, interoperabilidade de buffer unificada e pipelines assíncronos.
API Interpreter: compatível com versões anteriores do código de estilo do TensorFlow Lite.

Você pode escolher qualquer uma das APIs no tempo de execução. A maioria dos novos recursos de desempenho e acelerador são lançados na API Compiled Model.

Para exemplos de implementação, consulte:

Comum e CPU

Recurso de tempo de execução	API Interpreter	API Compiled Model
Criação de perfil	✅	✅
Gerador de relatórios de erros	✅	✅
Interoperabilidade de buffer de E/S (TensorBuffer/Environment)	--	✅
Seleção de acelerador pronta para uso	--	✅
Executivo de sincronização	✅	✅
Operação personalizada	✅	✅
Configuração do XNNPACK	✅	✅
Forma dinâmica	✅	✅

GPU

Recurso de tempo de execução	API Interpreter	API Compiled Model
Executivo de sincronização	✅	✅
Cache na memória	✅	✅
Fallback da CPU	✅	✅
Execução assíncrona	--	✅
Buffer de cópia zero (AHWB/GLBuffer/Texture)	--	✅
Backend OpenCL do MLD	✅	✅
Back-end MLD WebGPU (novo)	--	✅
Suporte ao MLD Metal (novo)	--	✅

NPU

Recurso de tempo de execução	API Interpreter	API Compiled Model
Executivo de sincronização	✅	✅
Execução assíncrona (Pixel)	--	✅
Fallback da CPU	✅	✅
Substituição de GPU	--	✅
Cópia de buffer zero (AHWB)	--	✅
QC/MTK AOT	--	✅
AOT do Pixel	--	✅
QC/MTK/Pixel JIT	--	✅

Guia de início rápido (API Compiled Model)

A execução da inferência com a API Compiled Model envolve as seguintes etapas principais:

Carregue um modelo compatível.
Alocar os buffers de tensor de entrada e saída.
Invoque o modelo compilado.
Leia as inferências em um buffer de saída.

Os snippets de código a seguir mostram uma implementação básica de todo o processo em Kotlin e C++.

C++

// Load model and initialize runtime
LITERT_ASSIGN_OR_RETURN(auto model, Model::CreateFromFile("mymodel.tflite"));
LITERT_ASSIGN_OR_RETURN(auto env, Environment::Create({}));
LITERT_ASSIGN_OR_RETURN(auto compiled_model,
    CompiledModel::Create(env, model, kLiteRtHwAcceleratorCpu));

// Preallocate input/output buffers
LITERT_ASSIGN_OR_RETURN(auto input_buffers, compiled_model.CreateInputBuffers());
LITERT_ASSIGN_OR_RETURN(auto output_buffers, compiled_model.CreateOutputBuffers());

// Fill the first input
float input_values[] = { /* your data */ };
input_buffers[0].Write<float>(absl::MakeConstSpan(input_values, /*size*/));

// Invoke
compiled_model.Run(input_buffers, output_buffers);

// Read the output
std::vector<float> data(output_data_size);
output_buffers[0].Read<float>(absl::MakeSpan(data));

Kotlin

// Load model and initialize runtime
val  model =
    CompiledModel.create(
        context.assets,
        "mymodel.tflite",
        CompiledModel.Options(Accelerator.CPU)
    )

// Preallocate input/output buffers
val inputBuffers = model.createInputBuffers()
val outputBuffers = model.createOutputBuffers()

// Fill the first input
inputBuffers[0].writeFloat(FloatArray(data_size) { data_value /* your data */ })

// Invoke
model.run(inputBuffers, outputBuffers)

// Read the output
val outputFloatArray = outputBuffers[0].readFloat()

Para mais informações, consulte os guias Primeiros passos com o Kotlin e Primeiros passos com o C++.

Principais recursos (API Compiled Model)

Seleção e assíncrono de acelerador pronta para uso: escolha CPU/GPU/NPU no momento da criação e execute de forma assíncrona sem encanamento de delegação.
Buffers unificados de cópia zero: compartilhe buffers AHWB/GL/OpenCL/WebGPU/Metal entre pré/pós-processamento e inferência.
Capacidade de processamento pronta para geração: otimizada para modelos grandes com cache de memória e substituições de GPU/NPU.

A API Interpreter continua sendo o caminho de compatibilidade para bases de código do TensorFlow Lite. Use-a quando precisar de um comportamento de delegação estável ou wrappers de terceiros que esperam o intérprete clássico.

Aceleradores

CPU (padrão): otimizado para XNNPACK, com suporte a formatos dinâmicos.
GPU:back-end OpenCL hoje. Os back-ends WebGPU e Metal estão disponíveis na API Compiled Model.
NPU:o Qualcomm AI Engine Direct e o MediaTek NeuroPilot são compatíveis com AOT/JIT. O Pixel AOT está disponível, e o suporte a NPU da Apple/Intel está planejado.

Quando escolher uma API

Use a API Compiled Model quando quiser o caminho mais rápido para GPU/NPU, buffers de cópia zero ou execução assíncrona.
Use a API Interpreter quando precisar de compatibilidade máxima com código, ferramentas ou delegados do TensorFlow Lite.