Ringkasan LiteRT-LM

LiteRT-LM adalah framework inferensi open source siap produksi yang dirancang untuk menghadirkan deployment LLM lintas platform berperforma tinggi di perangkat edge.

Fitur Utama

  • Dukungan Lintas Platform: Berjalan di Android, iOS, Web, dan Desktop.
  • Akselerasi Hardware:
    • GPU: Didukung oleh ML Drift, yang mendukung model ML dan AI Generatif.
    • NPU: Inferensi yang dipercepat di perangkat dengan chipset Qualcomm dan MediaTek (Akses Awal).
  • Multi-Modalitas: Mendukung input Audio dan Penglihatan.
  • Penggunaan Alat: Dukungan panggilan fungsi untuk alur kerja berbasis agen.
  • Dukungan Model yang Luas: Jalankan Gemma, Llama, Phi-4, Qwen, dan lainnya.

Backend & Platform yang Didukung

Platform Dukungan CPU Dukungan GPU Dukungan NPU
Android
iOS -
macOS -
Windows -
Linux -
Tersemat - -

Mulai Cepat

Ingin mencobanya terlebih dahulu? Sebelum melanjutkan penyiapan lengkap, Anda dapat menggunakan biner bawaan untuk desktop atau aplikasi Google AI Edge Gallery untuk perangkat seluler guna menjalankan LiteRT-LM secara langsung.

Aplikasi Seluler

Google AI Edge Gallery adalah aplikasi demo yang menghadirkan kecanggihan model AI Generatif terbaru langsung ke tangan Anda, yang didukung oleh LiteRT-LM.

CLI Desktop

Setelah mendownload biner lit, cukup jalankan lit untuk melihat opsi.

Pilih Platform Anda

Language Status Terbaik Untuk... Dokumentasi
Kotlin
Stabil
Aplikasi Android native dan alat desktop berbasis JVM. Dioptimalkan untuk Coroutine. Referensi API Kotlin
C++
Stabil
Logika inti lintas platform dan sistem sematan berperforma tinggi. Referensi C++ API
Swift 🚀
Dalam Pengembangan
Integrasi iOS dan macOS native dengan dukungan Metal khusus. Segera Hadir
Python 🚀
Dalam Pengembangan
Pembuatan prototipe, pengembangan, dan pembuatan skrip sisi desktop yang cepat. Segera Hadir

Model yang Didukung

Tabel berikut menunjukkan contoh model yang didukung sepenuhnya dan diuji dengan LiteRT-LM.

Catatan: "Siap Chat" menunjukkan model yang disesuaikan untuk chat (penyesuaian perintah). Model "dasar" sering kali memerlukan penyesuaian untuk performa chat yang optimal, kecuali jika digunakan untuk penyelesaian tertentu.

Model Jenis Kuantisasi Panjang Konteks Ukuran (MB) Download
Gemma
Gemma3-1B Siap Chat 4-bit per saluran 4096 557 Download
Gemma-3n-E2B Siap Chat 4-bit per saluran 4096 2965 Download
Gemma-3n-E4B Siap Chat 4-bit per saluran 4096 4235 Download
FunctionGemma-270M Dasar (Penyesuaian diperlukan) 8-bit per saluran 1024 288 Panduan Penyesuaian
↪ TinyGarden-270M Demo 8-bit per saluran 1024 288 Download / Coba Aplikasi
Llama
Llama-3.2-1B-Instruct Siap Chat 8-bit per saluran 8192 1162 Download
Llama-3.2-3B-Instruct Siap Chat 8-bit per saluran 8192 2893 Download
Phi
phi-4-mini Siap Chat 8-bit per saluran 4096 3728 Download
Qwen
qwen2.5-1.5b Siap Chat 8-bit per saluran 4096 1524 Download

Performa

Berikut adalah angka performa untuk menjalankan setiap model di berbagai perangkat. Perhatikan bahwa tolok ukur diukur dengan pengisian awal 1024 token dan dekode 256 token ( dengan penguncian performa di perangkat Android).

Model Perangkat Backend Pengisian otomatis (token/dtk) Decode (token/dtk) Ukuran konteks
Gemma3-1B MacBook Pro
(2023 M3)
CPU 423 67 4096
Gemma3-1B Samsung S24
(Ultra)
CPU 243 44 4096
Gemma3-1B Samsung S24
(Ultra)
GPU 1877 45 4096
Gemma3-1B Samsung S25
(Ultra)
NPU 5837 85 1280
Gemma-3n-E2B MacBook Pro
(2023 M3)
CPU 233 28 4096
Gemma-3n-E2B Samsung S24
(Ultra)
CPU 111 16 4096
Gemma-3n-E2B Samsung S24
(Ultra)
GPU 816 16 4096
Gemma-3n-E4B MacBook Pro
(2023 M3)
CPU 170 20 4096
Gemma-3n-E4B Samsung S24
(Ultra)
CPU 74 9 4096
Gemma-3n-E4B Samsung S24
(Ultra)
GPU 548 9 4096
FunctionGemma Samsung S25
(Ultra)
CPU 1718 126 1024

Catatan: Model tertentu akan memerlukan waktu lebih lama untuk dimuat saat pertama kali dimuat di perangkat tertentu karena bobotnya dioptimalkan. Pemuatan berikutnya akan lebih cepat karena adanya penyimpanan dalam cache.

Hosting dan Deployment Model

Jika model melampaui batas download "over-the-air" (sering kali sekitar 1,5 GB), diperlukan strategi pengambilan data jarak jauh.

  • Firebase: Direkomendasikan untuk mendownload file besar di Android dan iOS.
  • HuggingFace API: Ambil model secara langsung menggunakan HuggingFace API.

Melaporkan Masalah

Jika Anda menemukan bug atau memiliki permintaan fitur, gunakan halaman Masalah GitHub LiteRT-LM.