LiteRT-LM adalah framework inferensi open source siap produksi yang dirancang untuk menghadirkan deployment LLM lintas platform berperforma tinggi di perangkat edge.
Fitur Utama
- Dukungan Lintas Platform: Berjalan di Android, iOS, Web, dan Desktop.
- Akselerasi Hardware:
- GPU: Didukung oleh ML Drift, yang mendukung model ML dan AI Generatif.
- NPU: Inferensi yang dipercepat di perangkat dengan chipset Qualcomm dan MediaTek (Akses Awal).
- Multi-Modalitas: Mendukung input Audio dan Penglihatan.
- Penggunaan Alat: Dukungan panggilan fungsi untuk alur kerja berbasis agen.
- Dukungan Model yang Luas: Jalankan Gemma, Llama, Phi-4, Qwen, dan lainnya.
Backend & Platform yang Didukung
| Platform | Dukungan CPU | Dukungan GPU | Dukungan NPU |
|---|---|---|---|
| Android | ✅ | ✅ | ✅ |
| iOS | ✅ | ✅ | - |
| macOS | ✅ | ✅ | - |
| Windows | ✅ | ✅ | - |
| Linux | ✅ | ✅ | - |
| Tersemat | ✅ | - | - |
Mulai Cepat
Ingin mencobanya terlebih dahulu? Sebelum melanjutkan penyiapan lengkap, Anda dapat menggunakan biner bawaan untuk desktop atau aplikasi Google AI Edge Gallery untuk perangkat seluler guna menjalankan LiteRT-LM secara langsung.
Aplikasi Seluler
Google AI Edge Gallery adalah aplikasi demo yang menghadirkan kecanggihan model AI Generatif terbaru langsung ke tangan Anda, yang didukung oleh LiteRT-LM.
CLI Desktop
Setelah mendownload biner lit, cukup jalankan lit untuk melihat opsi.
Pilih Platform Anda
| Language | Status | Terbaik Untuk... | Dokumentasi |
|---|---|---|---|
| Kotlin | ✅ Stabil |
Aplikasi Android native dan alat desktop berbasis JVM. Dioptimalkan untuk Coroutine. | Referensi API Kotlin |
| C++ | ✅ Stabil |
Logika inti lintas platform dan sistem sematan berperforma tinggi. | Referensi C++ API |
| Swift | 🚀 Dalam Pengembangan |
Integrasi iOS dan macOS native dengan dukungan Metal khusus. | Segera Hadir |
| Python | 🚀 Dalam Pengembangan |
Pembuatan prototipe, pengembangan, dan pembuatan skrip sisi desktop yang cepat. | Segera Hadir |
Model yang Didukung
Tabel berikut menunjukkan contoh model yang didukung sepenuhnya dan diuji dengan LiteRT-LM.
Catatan: "Siap Chat" menunjukkan model yang disesuaikan untuk chat (penyesuaian perintah). Model "dasar" sering kali memerlukan penyesuaian untuk performa chat yang optimal, kecuali jika digunakan untuk penyelesaian tertentu.
| Model | Jenis | Kuantisasi | Panjang Konteks | Ukuran (MB) | Download |
|---|---|---|---|---|---|
| Gemma | |||||
| Gemma3-1B | Siap Chat | 4-bit per saluran | 4096 | 557 | Download |
| Gemma-3n-E2B | Siap Chat | 4-bit per saluran | 4096 | 2965 | Download |
| Gemma-3n-E4B | Siap Chat | 4-bit per saluran | 4096 | 4235 | Download |
| FunctionGemma-270M | Dasar (Penyesuaian diperlukan) | 8-bit per saluran | 1024 | 288 | Panduan Penyesuaian |
| ↪ TinyGarden-270M | Demo | 8-bit per saluran | 1024 | 288 | Download / Coba Aplikasi |
| Llama | |||||
| Llama-3.2-1B-Instruct | Siap Chat | 8-bit per saluran | 8192 | 1162 | Download |
| Llama-3.2-3B-Instruct | Siap Chat | 8-bit per saluran | 8192 | 2893 | Download |
| Phi | |||||
| phi-4-mini | Siap Chat | 8-bit per saluran | 4096 | 3728 | Download |
| Qwen | |||||
| qwen2.5-1.5b | Siap Chat | 8-bit per saluran | 4096 | 1524 | Download |
Performa
Berikut adalah angka performa untuk menjalankan setiap model di berbagai perangkat. Perhatikan bahwa tolok ukur diukur dengan pengisian awal 1024 token dan dekode 256 token ( dengan penguncian performa di perangkat Android).
| Model | Perangkat | Backend | Pengisian otomatis (token/dtk) | Decode (token/dtk) | Ukuran konteks |
|---|---|---|---|---|---|
| Gemma3-1B | MacBook Pro (2023 M3) |
CPU | 423 | 67 | 4096 |
| Gemma3-1B | Samsung S24 (Ultra) |
CPU | 243 | 44 | 4096 |
| Gemma3-1B | Samsung S24 (Ultra) |
GPU | 1877 | 45 | 4096 |
| Gemma3-1B | Samsung S25 (Ultra) |
NPU | 5837 | 85 | 1280 |
| Gemma-3n-E2B | MacBook Pro (2023 M3) |
CPU | 233 | 28 | 4096 |
| Gemma-3n-E2B | Samsung S24 (Ultra) |
CPU | 111 | 16 | 4096 |
| Gemma-3n-E2B | Samsung S24 (Ultra) |
GPU | 816 | 16 | 4096 |
| Gemma-3n-E4B | MacBook Pro (2023 M3) |
CPU | 170 | 20 | 4096 |
| Gemma-3n-E4B | Samsung S24 (Ultra) |
CPU | 74 | 9 | 4096 |
| Gemma-3n-E4B | Samsung S24 (Ultra) |
GPU | 548 | 9 | 4096 |
| FunctionGemma | Samsung S25 (Ultra) |
CPU | 1718 | 126 | 1024 |
Catatan: Model tertentu akan memerlukan waktu lebih lama untuk dimuat saat pertama kali dimuat di perangkat tertentu karena bobotnya dioptimalkan. Pemuatan berikutnya akan lebih cepat karena adanya penyimpanan dalam cache.
Hosting dan Deployment Model
Jika model melampaui batas download "over-the-air" (sering kali sekitar 1,5 GB), diperlukan strategi pengambilan data jarak jauh.
- Firebase: Direkomendasikan untuk mendownload file besar di Android dan iOS.
- HuggingFace API: Ambil model secara langsung menggunakan HuggingFace API.
Melaporkan Masalah
Jika Anda menemukan bug atau memiliki permintaan fitur, gunakan halaman Masalah GitHub LiteRT-LM.