Como usar as NPUs da Qualcomm para o desenvolvimento de IA em dispositivos móveis com o LiteRT

À medida que os modelos de IA para dispositivos móveis crescem, os desenvolvedores do LiteRT precisam maximizar o desempenho. As NPUs são cada vez mais importantes para a IA no dispositivo, oferecendo latência mais baixa, maior capacidade e consumo de energia reduzido em comparação com CPUs e GPUs. O uso de NPUs da Qualcomm® pelo delegado direto do mecanismo de IA da Qualcomm melhora significativamente o desempenho do app de IA para dispositivos móveis em dispositivos Snapdragon. Em colaboração com a Qualcomm, a equipe de IA de borda do Google vai demonstrar a integração desse delegado a apps Android, destacando os ganhos de desempenho em relação aos processadores tradicionais e mostrando como começar.

Delegate direto do mecanismo de IA da Qualcomm

O delegado direto do Qualcomm AI Engine permite que os usuários executem modelos LiteRT usando a pilha de IA da Qualcomm. O uso do delegação direta do Qualcomm AI Engine é essencial para executar a inferência na NPU para seu modelo LiteRT no dispositivo. Os dispositivos compatíveis incluem:

Snapdragon 8 Gen 1 (SM8450)
Snapdragon 8 Gen 2 (SM8550)
Snapdragon 8 Gen 3 (SM8650)
Snapdragon 8 Elite (SM8750)
e muito mais

Os aplicativos nesses dispositivos vão se beneficiar da pilha de IA da Qualcomm ao segmentar a NPU, que oferece a melhor performance para modelos de IA.

Como aproveitar a NPU usando o Qualcomm AI Engine Direct Delegate

Primeiro, faça o download do Qualcomm AI Engine Direct Delegate disponível no Maven Central. Para configurar o delegado em um aplicativo Java do Android, são necessárias as seguintes dependências:

dependencies {
 implementation 'com.qualcomm.qti:qnn-runtime:2.34.0'
 implementation 'com.qualcomm.qti:qnn-litert-delegate:2.34.0' }

Para usar o delegado:

try {
  // Created default Options
  QnnDelegate.Options options = new QnnDelegate.Options();
  // Set the backend and library path
  options.setBackendType(QnnDelegate.Options.BackendType.HTP_BACKEND);
  options.setSkelLibraryDir(activity.getApplicationInfo().nativeLibraryDir);
  // Create the Delegate instance.
  qnnDelegate = new QnnDelegate(options);
  tfliteOptions.addDelegate(qnnDelegate);
}
catch (UnsupportedOperationException e) {
  // Delegate creation failed
}
tfliteInterpreter = new Interpreter(tfliteModel, tfliteOptions);

Para conferir um exemplo de app Android que usa o delegado QNN para LiteRT, consulte os Apps de exemplo Android do Qualcomm AI Hub.

Benefícios de desempenho

Em dispositivos com SOCs Snapdragon com o processador Tensor Hexagon da Qualcomm®, a maioria dos modelos tem desempenho significativamente mais rápido em comparação com GPU e CPU. O HTP também é um processador mais eficiente em termos de energia para computação de rede neural. O MobileNetv2, um modelo de código aberto pré-otimizado como parte dos Modelos do AI Hub, foi usado como amostra para esta análise de desempenho.

Dispositivo	NPU (delegação de QNN para HTP)	GPU (GPUv2)	CPU (XNNPACK)
Samsung S25	0,3 ms	1,8 ms	2,8ms
Samsung S24	0,4 ms	2,3 ms	3,6 ms
Samsung S23	0,6 ms	2,7 ms	4,1 ms

Dispositivo	NPU (delegação de QNN para HTP)	GPU (GPUv2)	CPU (XNNPACK)
Samsung S25	24,9 ms	43ms	481,7 ms
Samsung S24	29,8 ms	52,6 ms	621,4 ms
Samsung S23	43,7 ms	68,2 ms	871,1 ms

Os produtos da marca Snapdragon e Qualcomm são produtos da Qualcomm Technologies, Inc. e/ou de suas subsidiárias.

A seguir

Fique de olho em mais atualizações sobre como aproveitar as TPUs para o desenvolvimento de aplicativos de IA com o LiteRT Next.