Inferência no dispositivo com LiteRT

A API LiteRT CompiledModel representa o padrão moderno para inferência de ML no dispositivo, oferecendo aceleração de hardware simplificada que supera significativamente a API Interpreter. Essa interface simplifica a implantação de modelos .tflite em uma ampla variedade de plataformas de borda, oferecendo experiências unificadas para desenvolvedores e recursos avançados projetados para máxima eficiência de hardware.

Por que escolher a API CompiledModel?

Embora a API Interpreter ainda esteja disponível para compatibilidade com versões anteriores, a API CompiledModel é onde os novos recursos de desempenho e acelerador são priorizados. Essa é a opção recomendada pelos seguintes motivos:

  • Aceleração de GPU de alta qualidade: usa o ML Drift, a biblioteca de aceleração de GPU mais moderna, para oferecer inferência de GPU confiável em dispositivos móveis, da Web, de computador e IoT. Consulte Aceleração de GPU com LiteRT.

  • Acesso unificado à NPU: oferece uma experiência de desenvolvedor única e consistente para acessar NPUs de vários provedores, como Google Tensor, Qualcomm e MediaTek, eliminando compiladores específicos do fornecedor e complexidades de tempo de execução. Consulte Aceleração de NPU com LiteRT.

  • Seleção automática de hardware: seleciona automaticamente o back-end ideal entre CPU, GPU e NPU com base no hardware disponível e na lógica de prioridade interna, eliminando a necessidade de configuração manual de delegação.

  • Execução assíncrona: usa mecanismos no nível do SO (como barreiras de sincronização) para permitir que os aceleradores de hardware sejam acionados diretamente após a conclusão das tarefas anteriores sem envolver a CPU. Isso pode reduzir a latência em até duas vezes e garantir uma experiência de IA mais interativa e fluida.

  • Gerenciamento eficiente de buffer de E/S: usa a API TensorBuffer para gerenciar o fluxo de dados de alta performance entre aceleradores. Isso inclui a interoperabilidade de buffer de cópia zero em AHardwareBuffer, OpenCL e OpenGL, eliminando cópias de dados caras entre as etapas de pré-processamento, inferência e pós-processamento.

Plataformas compatíveis

A API LiteRT CompiledModel oferece suporte a inferências de alto desempenho em dispositivos Android, iOS, Web, IoT e desktop. Consulte o guia específico da plataforma.