Akselerasi hardware dengan LiteRT

Perangkat seluler dan edge modern dilengkapi dengan Unit Pemrosesan Grafis (GPU) dan Unit Pemrosesan Neural (NPU) khusus yang mampu mempercepat model AI hingga 25x dibandingkan dengan CPU, sekaligus mengurangi konsumsi daya hingga 5x.

LiteRT menyederhanakan akses ke silikon khusus ini melalui stack akselerasi hardware terpadu. Daripada mengelola SDK khusus vendor yang terfragmentasi atau API hardware yang kompleks, LiteRT menyediakan CompiledModel API yang disederhanakan yang mengabstraksi kompleksitas pengoptimalan model, pengelolaan memori, dan pengiriman hardware.

Jenis akselerator

LiteRT menyediakan antarmuka terpadu untuk mengeksekusi model di berbagai backend hardware. Dengan memanfaatkan CompiledModel API, Anda dapat beralih dengan lancar antara akselerator ini menggunakan kompilasi di perangkat atau Ahead-of-Time (AOT), dengan penggantian otomatis ke CPU untuk operasi yang tidak didukung.

CPU: jalur eksekusi default menggunakan XNNPACK dan selalu tersedia. Sangat cocok untuk Tugas umum dan penggantian untuk operator yang tidak didukung.
GPU: didukung oleh ML Drift, memberikan performa SOTA di seluruh platform edge yang memanfaatkan OpenCL, WebGPU, Metal, dll. Untuk mengetahui informasi selengkapnya, lihat Akselerasi GPU dengan LiteRT
NPU: efisiensi dan performa tertinggi untuk workload AI. LiteRT menawarkan alur pengembangan terpadu untuk mengakses chipset NPU khusus, termasuk Google Tensor, Qualcomm, dan MediaTek, tanpa memerlukan integrasi SDK khusus vendor. Untuk mengetahui informasi selengkapnya, lihat Akselerasi NPU dengan LiteRT

Akselerator ini dapat digabungkan untuk mendapatkan performa terbaik saat beberapa operasi kompleks tidak tersedia di hardware tertentu. Saat akselerator bersaing untuk suatu operasi, LiteRT menggunakan urutan prioritas berikut: NPU, GPU, CPU.