Menggunakan Qualcomm NPUs untuk Pengembangan AI Seluler dengan LiteRT

Seiring berkembangnya model AI seluler, developer LiteRT perlu memaksimalkan performa. NPU semakin penting untuk AI di perangkat yang menawarkan latensi lebih rendah, throughput yang lebih tinggi, dan konsumsi daya yang lebih rendah dibandingkan dengan CPU dan GPU. Memanfaatkan Qualcomm® NPU melalui Qualcomm AI Engine Direct Delegate secara signifikan meningkatkan performa aplikasi AI seluler di perangkat Snapdragon. Melalui kolaborasi dengan Qualcomm, tim Google AI Edge akan menunjukkan integrasi delegasi ini ke dalam aplikasi Android, yang menyoroti peningkatan performa dibandingkan dengan prosesor tradisional dan menunjukkan cara memulainya.

Qualcomm AI Engine Direct Delegate

Qualcomm AI Engine Direct Delegate memungkinkan pengguna menjalankan model LiteRT menggunakan Qualcomm AI Stack. Menggunakan Qualcomm AI Engine Direct Delegate sangat penting untuk menjalankan inferensi di NPU untuk model LiteRT Anda di perangkat. Perangkat yang didukung meliputi:

Snapdragon 8 Gen 1 (SM8450)
Snapdragon 8 Gen 2 (SM8550)
Snapdragon 8 Gen 3 (SM8650)
Snapdragon 8 Elite (SM8750)
dan lainnya

Aplikasi di perangkat ini akan mendapatkan manfaat dari Qualcomm AI Stack dengan menargetkan NPU yang memberikan performa terbaik untuk model AI.

Cara memanfaatkan NPU menggunakan Qualcomm AI Engine Direct Delegate

Pertama, download Qualcomm AI Engine Direct Delegate yang tersedia di Maven Central. Untuk menyiapkan delegasi di Aplikasi Java Android, dependensi berikut diperlukan:

dependencies {
 implementation 'com.qualcomm.qti:qnn-runtime:2.34.0'
 implementation 'com.qualcomm.qti:qnn-litert-delegate:2.34.0' }

Untuk menggunakan delegasi:

try {
  // Created default Options
  QnnDelegate.Options options = new QnnDelegate.Options();
  // Set the backend and library path
  options.setBackendType(QnnDelegate.Options.BackendType.HTP_BACKEND);
  options.setSkelLibraryDir(activity.getApplicationInfo().nativeLibraryDir);
  // Create the Delegate instance.
  qnnDelegate = new QnnDelegate(options);
  tfliteOptions.addDelegate(qnnDelegate);
}
catch (UnsupportedOperationException e) {
  // Delegate creation failed
}
tfliteInterpreter = new Interpreter(tfliteModel, tfliteOptions);

Untuk melihat contoh aplikasi Android yang menggunakan QNN Delegate untuk LiteRT, lihat Aplikasi Contoh Android Qualcomm AI Hub.

Manfaat Performa

Pada perangkat dengan SOC Snapdragon dengan Qualcomm® Hexagon Tensor Processor, sebagian besar model berperforma jauh lebih cepat dibandingkan dengan GPU dan CPU. HTP juga merupakan prosesor yang lebih hemat daya untuk komputasi jaringan saraf. MobileNetv2, model open source, yang dioptimalkan sebelumnya sebagai bagian dari Model AI Hub digunakan sebagai sampel untuk analisis performa ini.

Perangkat	NPU (Delegasi QNN untuk HTP)	GPU (GPUv2)	CPU (XNNPACK)
Samsung S25	0,3 md	1,8 md	2,8 md
Samsung S24	0,4 md	2,3 md	3,6 md
Samsung S23	0,6 md	2,7 md	4,1 md

Perangkat	NPU (Delegasi QNN untuk HTP)	GPU (GPUv2)	CPU (XNNPACK)
Samsung S25	24,9 md	43 md	481,7 md
Samsung S24	29,8 md	52,6 mdtk	621,4 md
Samsung S23	43,7 md	68,2 md	871,1 md

Produk bermerek Snapdragon dan Qualcomm adalah produk Qualcomm Technologies, Inc. dan/atau anak perusahaannya.

Langkah Berikutnya

Nantikan pembaruan menarik lainnya tentang cara memanfaatkan NPU dengan lancar untuk pengembangan aplikasi AI dengan LiteRT Next.