Apresentação do Google AI Edge Portal: compare a IA Edge em escala. Inscrição para solicitar acesso durante a visualização particular.

Inferência no dispositivo com LiteRT

A API LiteRT CompiledModel representa o padrão moderno para inferência de ML no dispositivo, oferecendo aceleração de hardware simplificada que supera significativamente a API Interpreter. Essa interface simplifica a implantação de modelos .tflite em uma ampla variedade de plataformas de borda, oferecendo experiências unificadas para desenvolvedores e recursos avançados projetados para máxima eficiência de hardware.

Por que escolher a API `CompiledModel`?

Embora a API Interpreter ainda esteja disponível para compatibilidade com versões anteriores, a API CompiledModel é onde os novos recursos de desempenho e acelerador são priorizados. Essa é a opção recomendada pelos seguintes motivos:

Aceleração de GPU de alta qualidade: usa o ML Drift, a biblioteca de aceleração de GPU mais moderna, para oferecer inferência de GPU confiável em dispositivos móveis, da Web, de computador e IoT. Consulte Aceleração de GPU com LiteRT.
Acesso unificado à NPU: oferece uma experiência de desenvolvedor única e consistente para acessar NPUs de vários provedores, como Google Tensor, Qualcomm e MediaTek, eliminando compiladores específicos do fornecedor e complexidades de tempo de execução. Consulte Aceleração de NPU com LiteRT.
Seleção automática de hardware: seleciona automaticamente o back-end ideal entre CPU, GPU e NPU com base no hardware disponível e na lógica de prioridade interna, eliminando a necessidade de configuração manual de delegação.
Execução assíncrona: usa mecanismos no nível do SO (como barreiras de sincronização) para permitir que os aceleradores de hardware sejam acionados diretamente após a conclusão das tarefas anteriores sem envolver a CPU. Isso pode reduzir a latência em até duas vezes e garantir uma experiência de IA mais interativa e fluida.
Gerenciamento eficiente de buffer de E/S: usa a API TensorBuffer para gerenciar o fluxo de dados de alta performance entre aceleradores. Isso inclui a interoperabilidade de buffer de cópia zero em AHardwareBuffer, OpenCL e OpenGL, eliminando cópias de dados caras entre as etapas de pré-processamento, inferência e pós-processamento.

Começar a usar a API `CompiledModel`

Para modelos de ML clássicos, consulte os seguintes apps de demonstração.
- App Kotlin de segmentação de imagens: inferência de CPU/GPU/NPU.
- App C++ de segmentação de imagens: inferência de CPU/GPU/NPU com execução assíncrona.
Para modelos de IA generativa, consulte os seguintes apps de demonstração:
- App C++ de similaridade semântica EmbeddingGemma: inferência de CPU/GPU/NPU.

Plataformas compatíveis

A API LiteRT CompiledModel oferece suporte a inferências de alto desempenho em dispositivos Android, iOS, Web, IoT e desktop. Consulte o guia específico da plataforma.

Inferência no dispositivo com LiteRT

Por que escolher a API CompiledModel?

Começar a usar a API CompiledModel

Plataformas compatíveis

Por que escolher a API `CompiledModel`?

Começar a usar a API `CompiledModel`