Memperkenalkan Google AI Edge Portal: Lakukan benchmark Edge AI dalam skala besar. Daftar untuk meminta akses selama pratinjau pribadi.

Ringkasan LiteRT

LiteRT adalah framework di perangkat Google untuk deployment ML & AI Generatif berperforma tinggi di platform edge, menggunakan konversi, runtime, dan pengoptimalan yang efisien.

Rilis LiteRT 2.x terbaru memperkenalkan CompiledModel API, antarmuka runtime modern yang dirancang untuk memaksimalkan akselerasi hardware. Meskipun API Interpreter (sebelumnya TensorFlow Lite) tetap tersedia untuk kompatibilitas mundur, API CompiledModel adalah pilihan yang direkomendasikan bagi developer yang menginginkan performa canggih dalam aplikasi AI di perangkat.

Fitur utama LiteRT

Menyederhanakan pengembangan dengan LiteRT

Pemilihan akselerator otomatis versus pembuatan delegasi eksplisit. Penanganan buffer I/O yang efisien dan eksekusi asinkron untuk performa yang lebih unggul. Lihat dokumentasi inferensi di perangkat.

Performa GPU terbaik di kelasnya

Didukung oleh ML Drift, kini mendukung model ML dan AI Generatif di GPU API. Lihat dokumentasi akselerasi GPU.

Akselerasi NPU terpadu

Percepat model Anda menggunakan akses NPU yang disederhanakan dari penyedia chipset utama. Lihat dokumentasi akselerasi NPU.

Dukungan LLM Unggul

LiteRT memberikan deployment berperforma tinggi untuk model AI Generatif di seluruh platform seluler, desktop, dan web. Lihat dokumentasi deployment AI Generatif.

Dukungan framework ML yang luas

LiteRT mendukung konversi yang disederhanakan dari Framework PyTorch, TensorFlow, dan JAX ke format .tflite atau .litertlm. Lihat dokumentasi konversi model.

Mulai Menggunakan `CompiledModel` API

Untuk model ML klasik, lihat aplikasi demo berikut.
- Aplikasi Kotlin Segmentasi Gambar: Inferensi CPU/GPU/NPU.
- Aplikasi C++ segmentasi gambar: Inferensi CPU/GPU/NPU dengan eksekusi async.
Untuk model AI generatif, lihat aplikasi demo berikut:
- Aplikasi C++ Kemiripan Semantik EmbeddingGemma: Inferensi CPU/GPU/NPU.

Alur kerja pengembangan

LiteRT menjalankan inferensi sepenuhnya di perangkat di Android, iOS, Web, IoT, dan di desktop/laptop. Terlepas dari perangkat, berikut adalah alur kerja yang paling umum, dengan link ke petunjuk lebih lanjut.

Mengidentifikasi solusi yang paling sesuai untuk tantangan ML

LiteRT menawarkan tingkat fleksibilitas dan kemampuan penyesuaian yang tinggi kepada pengguna dalam memecahkan masalah machine learning, sehingga cocok bagi pengguna yang memerlukan model tertentu atau implementasi khusus. Pengguna yang mencari solusi plug-and-play mungkin lebih memilih MediaPipe Tasks, yang menyediakan solusi siap pakai untuk tugas machine learning umum seperti deteksi objek, klasifikasi teks, dan inferensi LLM.

Grafik alur kerja pengembangan LiteRT

Mendapatkan dan menyiapkan model

Model LiteRT direpresentasikan dalam format portabel yang efisien yang dikenal sebagai FlatBuffers, yang menggunakan ekstensi file .tflite.

Anda dapat memperoleh model LiteRT dengan cara berikut:

Mendapatkan model terlatih: untuk beban kerja ML populer seperti Segmentasi gambar, Deteksi objek, dll.

Pendekatan paling sederhana adalah menggunakan model LiteRT yang sudah dalam format .tflite. Model ini tidak memerlukan langkah konversi tambahan.

Jenis model	Sumber model terlatih
ML Klasik (format `.tflite`)	Buka Kaggle atau HuggingFace Misalnya, Model segmentasi gambar dan aplikasi contoh
AI generatif (format `.litertlm`)	Halaman Hugging Face LiteRT Misalnya, Gemma Family

Konversikan model PyTorch, TensorFlow, atau JAX yang Anda pilih menjadi model LiteRT jika Anda memilih untuk tidak menggunakan model terlatih. [PRO USER]

Framework model Contoh model Alat konversi

PyTorch Hugging Face
Torchvision Link

TensorFlow Model Kaggle
Hugging Face Link

Jax Hugging Face Link
Menulis LLM Anda untuk pengoptimalan lebih lanjut menggunakan Generative API [PENGGUNA PRO]

Library Generative API kami menyediakan blok penyusun bawaan PyTorch untuk menyusun model Transformer seperti Gemma, TinyLlama, dan lainnya menggunakan abstraksi yang kompatibel untuk perangkat seluler, sehingga kami dapat menjamin konversi dan eksekusi berperforma tinggi di runtime seluler kami, LiteRT. Lihat dokumentasi Generative API.

Framework model	Contoh model	Alat konversi
PyTorch	Hugging Face Torchvision	Link
TensorFlow	Model Kaggle Hugging Face	Link
Jax	Hugging Face	Link

Optimalkan [PENGGUNA PRO]

AI Edge Quantizer untuk developer tingkat lanjut adalah alat untuk menguantisasi model LiteRT yang dikonversi. Tujuannya adalah untuk memfasilitasi pengguna tingkat lanjut dalam berupaya mencapai performa optimal pada model yang membutuhkan banyak resource (misalnya, model GenAI).

Lihat detail selengkapnya dari dokumentasi AI Edge Quantizer.

Mengintegrasikan model ke dalam aplikasi Anda di platform edge

LiteRT memungkinkan Anda menjalankan model ML sepenuhnya di perangkat dengan performa tinggi di seluruh platform Android, iOS, Web, Desktop, dan IoT.

Gunakan panduan berikut untuk mengintegrasikan model LiteRT di platform pilihan Anda:

Platform yang didukung	Perangkat yang didukung	API yang didukung
Jalankan di Android	Perangkat seluler Android	C++/Kotlin
Menjalankan di iOS/macOS	Perangkat seluler iOS, Macbook	C++/Swift
Menjalankan di Web menggunakan LiteRT.js	Perangkat dengan Chrome, Firefox, atau Safari	JavaScript
Menjalankan di Linux	Workstation Linux atau perangkat IoT berbasis Linux	C++/Python
Jalankan di Windows	Workstation atau laptop Windows	C++/Python
Jalankan di IoT	Perangkat tersemat	C++

Cuplikan kode berikut menunjukkan implementasi dasar di Kotlin dan C++.

Kotlin

// Load model and initialize runtime
val compiledModel = CompiledModel.create(
    "/path/to/mymodel.tflite",
    CompiledModel.Options(Accelerator.CPU))

// Preallocate input/output buffers
val inputBuffers = compiledModel.createInputBuffers()
val outputBuffers = compiledModel.createOutputBuffers()

// Fill the input buffer
inputBuffers.get(0).writeFloat(input0)
inputBuffers.get(1).writeFloat(input1)

// Invoke
compiledModel.run(inputBuffers, outputBuffers)

// Read the output
val output = outputBuffers.get(0).readFloat()

C++

// Load model and initialize runtime
LITERT_ASSIGN_OR_RETURN(auto env, GetEnvironment());
LITERT_ASSIGN_OR_RETURN(auto options, GetOptions());
LITERT_ASSIGN_OR_RETURN(
    auto compiled_model,
    CompiledModel::Create(env, "/path/to/mymodel.tflite", options));

// Preallocate input/output buffers
LITERT_ASSIGN_OR_RETURN(auto input_buffers,compiled_model.CreateInputBuffers(signature_index));
LITERT_ASSIGN_OR_RETURN(auto output_buffers,compiled_model.CreateOutputBuffers(signature_index));

// Fill the input buffer
LITERT_ABORT_IF_ERROR(input_buffers[0].Write(input0));
LITERT_ABORT_IF_ERROR(input_buffers[1].Write(input1));

// Invoke
LITERT_ABORT_IF_ERROR(compiled_model.Run(signature_index, input_buffers, output_buffers));

// Read the output
LITERT_ABORT_IF_ERROR(output_buffers[0].Read(output0));

Pilih backend

Cara paling mudah untuk menggabungkan backend di LiteRT adalah dengan mengandalkan kecerdasan bawaan runtime. Dengan API CompiledModel, LiteRT menyederhanakan penyiapan secara signifikan dengan kemampuan untuk menentukan backend target sebagai opsi. Lihat panduan inferensi di perangkat untuk mengetahui detail selengkapnya.

	Android	iOS / macOS	Web	Linux / Windows	IoT
CPU	XNNPACK	XNNPACK	XNNPACK	XNNPACK	XNNPACK
GPU	OpenGL OpenCL	WebGPU Metal	WebGPU	WebGPU OpenCL	WebGPU
NPU	MediaTek Qualcomm	-	-	-	-

Dokumentasi dan dukungan tambahan

LiteRT-Samples GitHub Repo untuk aplikasi contoh LiteRT lainnya.
Untuk pengguna TensorFlow Lite yang sudah ada, lihat panduan migrasi.
Halaman Alat LiteRT untuk performa, pembuatan profil, pelaporan error, dll.