À medida que os modelos de IA para dispositivos móveis crescem, os desenvolvedores do LiteRT precisam maximizar o desempenho. As NPUs são cada vez mais importantes para a IA no dispositivo, oferecendo latência mais baixa, maior capacidade e consumo de energia reduzido em comparação com CPUs e GPUs. O uso de NPUs da Qualcomm® pelo delegado direto do mecanismo de IA da Qualcomm melhora significativamente o desempenho do app de IA para dispositivos móveis em dispositivos Snapdragon. Em colaboração com a Qualcomm, a equipe de IA de borda do Google vai demonstrar a integração desse delegado a apps Android, destacando os ganhos de desempenho em relação aos processadores tradicionais e mostrando como começar.
Delegate direto do mecanismo de IA da Qualcomm
O delegado direto do Qualcomm AI Engine permite que os usuários executem modelos LiteRT usando a pilha de IA da Qualcomm. O uso do delegação direta do Qualcomm AI Engine é essencial para executar a inferência na NPU para seu modelo LiteRT no dispositivo. Os dispositivos compatíveis incluem:
- Snapdragon 8 Gen 1 (SM8450)
- Snapdragon 8 Gen 2 (SM8550)
- Snapdragon 8 Gen 3 (SM8650)
- Snapdragon 8 Elite (SM8750)
- e muito mais
Os aplicativos nesses dispositivos vão se beneficiar da pilha de IA da Qualcomm ao segmentar a NPU, que oferece a melhor performance para modelos de IA.
Como aproveitar a NPU usando o Qualcomm AI Engine Direct Delegate
Primeiro, faça o download do Qualcomm AI Engine Direct Delegate disponível no Maven Central. Para configurar o delegado em um aplicativo Java do Android, são necessárias as seguintes dependências:
dependencies {
implementation 'com.qualcomm.qti:qnn-runtime:2.34.0'
implementation 'com.qualcomm.qti:qnn-litert-delegate:2.34.0' }
Para usar o delegado:
try {
// Created default Options
QnnDelegate.Options options = new QnnDelegate.Options();
// Set the backend and library path
options.setBackendType(QnnDelegate.Options.BackendType.HTP_BACKEND);
options.setSkelLibraryDir(activity.getApplicationInfo().nativeLibraryDir);
// Create the Delegate instance.
qnnDelegate = new QnnDelegate(options);
tfliteOptions.addDelegate(qnnDelegate);
}
catch (UnsupportedOperationException e) {
// Delegate creation failed
}
tfliteInterpreter = new Interpreter(tfliteModel, tfliteOptions);
Para conferir um exemplo de app Android que usa o delegado QNN para LiteRT, consulte os Apps de exemplo Android do Qualcomm AI Hub.
Benefícios de desempenho
Em dispositivos com SOCs Snapdragon com o processador Tensor Hexagon da Qualcomm®, a maioria dos modelos tem desempenho significativamente mais rápido em comparação com GPU e CPU. O HTP também é um processador mais eficiente em termos de energia para computação de rede neural. O MobileNetv2, um modelo de código aberto pré-otimizado como parte dos Modelos do AI Hub, foi usado como amostra para esta análise de desempenho.
Dispositivo | NPU (delegação de QNN para HTP) | GPU (GPUv2) | CPU (XNNPACK) |
---|---|---|---|
Samsung S25 | 0,3 ms | 1,8 ms | 2,8ms |
Samsung S24 | 0,4 ms | 2,3 ms | 3,6 ms |
Samsung S23 | 0,6 ms | 2,7 ms | 4,1 ms |
Dispositivo | NPU (delegação de QNN para HTP) | GPU (GPUv2) | CPU (XNNPACK) |
---|---|---|---|
Samsung S25 | 24,9 ms | 43ms | 481,7 ms |
Samsung S24 | 29,8 ms | 52,6 ms | 621,4 ms |
Samsung S23 | 43,7 ms | 68,2 ms | 871,1 ms |
Os produtos da marca Snapdragon e Qualcomm são produtos da Qualcomm Technologies, Inc. e/ou de suas subsidiárias.
A seguir
Fique de olho em mais atualizações sobre como aproveitar as TPUs para o desenvolvimento de aplicativos de IA com o LiteRT Next.