Memperkenalkan Google AI Edge Portal: Lakukan benchmark Edge AI dalam skala besar. Daftar untuk meminta akses selama pratinjau pribadi.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Ringkasan LiteRT-LM

LiteRT-LM adalah framework inferensi open source yang siap produksi dan dirancang untuk memberikan deployment LLM lintas platform berperforma tinggi di perangkat edge.

Dukungan Lintas Platform: Berjalan di Android, iOS, Web, Desktop, dan IoT (misalnya, Raspberry Pi).
Akselerasi Hardware: Dapatkan performa puncak dan stabilitas sistem dengan memanfaatkan akselerator GPU dan NPU di berbagai hardware.
Multi-Modalitas: Bangun dengan LLM yang memiliki dukungan audio dan visual.
Penggunaan Alat: Dukungan panggilan fungsi untuk alur kerja agentik dengan decoding terbatas untuk meningkatkan akurasi.
Dukungan Model Luas: Jalankan Gemma, Llama, Phi-4, Qwen, dan lainnya.

Yang Baru (v0.12.0)

Swift API: Mengintegrasikan LiteRT-LM secara native ke dalam aplikasi iOS dengan akselerasi GPU Metal. Lihat Panduan Swift.
Web JavaScript API: Jalankan model di dalam browser web dengan performa tinggi menggunakan GPU/CPU web. Lihat Panduan JavaScript.
Pembaruan CLI / Python API LiteRT-LM: Antarmuka command line dan Python API kini mendukung backend NPU, selain backend CPU dan GPU di Linux, macOS, dan Windows. Lihat Panduan CLI.
API Flutter yang Dikelola Komunitas: Buat aplikasi Flutter lintas platform menggunakan paket flutter_gemma komunitas. Lihat Panduan Flutter.

Showcase GenAI di Perangkat

Screenshot Galeri Google AI Edge

Google AI Edge Gallery adalah aplikasi eksperimental yang dirancang untuk mendemonstrasikan kemampuan AI Generatif di perangkat yang berjalan sepenuhnya offline menggunakan LiteRT-LM.

Google Play: Menggunakan LLM secara lokal di perangkat Android yang didukung.
App Store: Rasakan AI di perangkat di perangkat iOS Anda.
Sumber GitHub: Lihat kode sumber aplikasi galeri untuk mempelajari cara mengintegrasikan LiteRT-LM ke dalam project Anda sendiri.

Model Unggulan: Gemma-4-E2B

Ukuran Model: 2,58 GB

Detail teknis tambahan ada di kartu model HuggingFace

Platform (Perangkat)	Backend	Isi otomatis (tk/s)	Mendekode (tk/s)	Waktu hingga Token Pertama (detik)	Memori CPU Puncak (MB)
Android (S26 Ultra)	CPU	557	47	1,8	1733
Android (S26 Ultra)	GPU	3808	52	0,3	676
iOS (iPhone 17 Pro)	CPU	532	25	1.9	607
iOS (iPhone 17 Pro)	GPU	2878	56	0,3	1450
Linux (Arm 2,3 & 2,8 GHz, NVIDIA GeForce RTX 4090)	CPU	260	35	4	1628
Linux (Arm 2,3 & 2,8 GHz, NVIDIA GeForce RTX 4090)	GPU	11234	143	0,1	913
macOS (MacBook Pro M4)	CPU	901	42	1.1	736
macOS (MacBook Pro M4)	GPU	7835	160	0,1	1623
Windows (Intel LunarLake)	CPU	435	30	2,4	3505
Windows (Intel LunarLake)	GPU	3751	48	0,3	3540
IoT (Raspberry Pi 5 16GB)	CPU	133	8	7.8	1546

Mulai Membangun

LiteRT-LM menyediakan API untuk beberapa bahasa pemrograman dan platform guna membantu Anda membangun aplikasi AI di perangkat dengan cepat. Pilih panduan di bawah untuk memulai:

Language	Status	Paling Cocok Untuk...	Dokumentasi
CLI	✅ Stabil	Mulai menggunakan LiteRT-LM dalam waktu kurang dari 1 menit.	Panduan CLI
Python	✅ Stabil	Prototip cepat, pengembangan, di desktop & Raspberry Pi.	Panduan Python
Kotlin	✅ Stabil	Aplikasi Android native dan alat desktop berbasis JVM. Dioptimalkan untuk Coroutine.	Panduan Kotlin
Swift	🚀 Pratinjau Awal	Integrasi iOS dan macOS native dengan dukungan Metal khusus.	Panduan Swift
JavaScript (web)	🚀 Pratinjau Awal	Men-deploy model langsung di browser web dengan performa tinggi.	Panduan JavaScript
Flutter	🚀Komunitas	Aplikasi Flutter lintas platform menggunakan komunitas `flutter_gemma`.	Panduan Flutter
C++	✅ Stabil	Logika inti lintas platform berperforma tinggi dan sistem sematan.	Panduan C++

Membangun dari Sumber

Jika Anda ingin menyesuaikan LiteRT-LM atau membangunnya untuk konfigurasi hardware tertentu, Anda dapat mengompilasinya langsung dari kode sumber. Untuk mengetahui petunjuk langkah demi langkah tentang cara menyiapkan lingkungan dan membangun framework, lihat Panduan Build dan Jalankan LiteRT-LM di GitHub.

Backend & Platform yang Didukung

Akselerasi	Android	iOS	macOS	Windows	Linux	IoT
CPU	✅	✅	✅	✅	✅	✅
GPU	✅	✅	✅	✅	✅	-
NPU	✅	-	-	🚀	-	-

Model yang Didukung

Tabel berikut mencantumkan model yang didukung oleh LiteRT-LM. Untuk mengetahui angka performa dan kartu model yang lebih mendetail, buka Komunitas LiteRT di Hugging Face.

Model	Jenis	Ukuran (MB)	Detail	Perangkat	Pengisian Otomatis CPU (tk/s)	Dekode CPU (tk/s)	Pengisian Awal GPU (tk/s)	Dekode GPU (tkp/dtk)
Gemma4-E2B	Chat	2583	Kartu Model	Samsung S26 Ultra	557	47	3808	52
				iPhone 17 Pro	532	25	2878	57
				MacBook Pro M4	901	42	7835	160
Gemma4-E4B	Chat	3654	Kartu Model	Samsung S26 Ultra	195	18	1293	22
				iPhone 17 Pro	159	10	1189	25
				MacBook Pro M4	277	27	2560	101
Gemma-3n-E2B	Chat	2965	Kartu Model	MacBook Pro M3	233	28	-	-
				Samsung S24 Ultra	111	16	816	16
Gemma-3n-E4B	Chat	4235	Kartu Model	MacBook Pro M3	170	20	-	-
				Samsung S24 Ultra	74	9	548	9
Gemma3-1B	Chat	1005	Kartu Model	Samsung S24 Ultra	177	33	1191	24
FunctionGemma	Dasar	289	Kartu Model	Samsung S25 Ultra	2238	154	-	-
phi-4-mini	Chat	3906	Kartu Model	Samsung S24 Ultra	67	7	314	10
Qwen2.5-1.5B	Chat	1598	Kartu Model	Samsung S25 Ultra	298	34	1668	31
Qwen3-0.6B	Chat	586	Kartu Model	Vivo X300 Pro	165	9	580	21
Qwen2.5-0.5B	Chat	521	Kartu Model	Samsung S24 Ultra	251	30	-	-

Melaporkan Masalah

Jika Anda menemukan bug atau memiliki permintaan fitur, laporkan di Masalah GitHub LiteRT-LM.