Memperkenalkan Google AI Edge Portal: Lakukan benchmark Edge AI dalam skala besar. Daftar untuk meminta akses selama pratinjau pribadi.

Inferensi di Perangkat dengan LiteRT

API LiteRT CompiledModel mewakili standar modern untuk inferensi ML di perangkat, yang menawarkan akselerasi hardware yang disederhanakan yang secara signifikan mengungguli API Interpreter. Antarmuka ini menyederhanakan deployment model .tflite di berbagai platform edge dengan memberikan pengalaman developer yang terpadu dan fitur canggih yang dirancang untuk efisiensi hardware maksimum.

Mengapa Memilih `CompiledModel` API?

Meskipun API Interpreter tetap tersedia untuk kompatibilitas mundur, API CompiledModel adalah tempat fitur performa dan akselerator baru diprioritaskan. Opsi ini direkomendasikan karena alasan berikut:

Akselerasi GPU terbaik di kelasnya: Memanfaatkan ML Drift, library akselerasi GPU canggih, untuk memberikan inferensi GPU yang andal di seluruh perangkat seluler, web, desktop, dan IoT. Lihat Akselerasi GPU dengan LiteRT.
Akses NPU terpadu: Memberikan pengalaman developer yang tunggal dan konsisten untuk mengakses NPU dari berbagai penyedia seperti Google Tensor, Qualcomm, MediaTek, dengan mengabstraksi kompilator khusus vendor dan kompleksitas runtime. Lihat Akselerasi NPU dengan LiteRT.
Pemilihan hardware otomatis: Otomatis memilih backend yang optimal di antara CPU, GPU, dan NPU, berdasarkan hardware yang tersedia dan logika prioritas internal, sehingga tidak perlu konfigurasi delegasi manual.
Eksekusi asinkron: Memanfaatkan mekanisme tingkat OS (seperti penghalang sinkronisasi) untuk memungkinkan akselerator hardware dipicu secara langsung setelah penyelesaian tugas sebelumnya tanpa melibatkan CPU. Hal ini dapat mengurangi latensi hingga 2x dan memastikan pengalaman AI yang lebih lancar dan interaktif.
Pengelolaan buffer I/O yang efisien: Memanfaatkan API TensorBuffer untuk mengelola aliran data berperforma tinggi antar-akselerator. Hal ini mencakup interop buffer tanpa salinan di seluruh AHardwareBuffer, OpenCL, dan OpenGL, menghilangkan salinan data yang mahal antara tahap pra-pemrosesan, inferensi, dan pasca-pemrosesan.

Mulai Menggunakan `CompiledModel` API

Untuk model ML klasik, lihat aplikasi demo berikut.
- Aplikasi Kotlin Segmentasi Gambar: Inferensi CPU/GPU/NPU.
- Aplikasi C++ segmentasi gambar: Inferensi CPU/GPU/NPU dengan eksekusi async.
Untuk model AI generatif, lihat aplikasi demo berikut:
- Aplikasi C++ Kemiripan Semantik EmbeddingGemma: Inferensi CPU/GPU/NPU.

Platform yang didukung

API LiteRT CompiledModel mendukung inferensi berperforma tinggi di seluruh perangkat Android, iOS, Web, IoT, dan Desktop. Lihat panduan khusus platform.

Inferensi di Perangkat dengan LiteRT

Mengapa Memilih CompiledModel API?

Mulai Menggunakan CompiledModel API

Platform yang didukung

Mengapa Memilih `CompiledModel` API?

Mulai Menggunakan `CompiledModel` API