Memperkenalkan Google AI Edge Portal: Lakukan benchmark Edge AI dalam skala besar. Daftar untuk meminta akses selama pratinjau pribadi.

Ringkasan LiteRT-LM

LiteRT-LM adalah framework inferensi open source yang siap produksi dan dirancang untuk memberikan deployment LLM lintas platform berperforma tinggi di perangkat edge.

Dukungan Lintas Platform: Berjalan di Android, iOS, Web, Desktop, dan IoT (misalnya Raspberry Pi).
Akselerasi Hardware: Dapatkan performa puncak dan stabilitas sistem dengan memanfaatkan akselerator GPU dan NPU di berbagai hardware.
Multi-Modalitas: Bangun dengan LLM yang memiliki dukungan audio dan visual.
Penggunaan Alat: Dukungan panggilan fungsi untuk alur kerja agentik dengan decoding terbatas untuk meningkatkan akurasi.
Dukungan Model Luas: Jalankan Gemma, Llama, Phi-4, Qwen, dan lainnya.

Demo GenAI di Perangkat

Screenshot Galeri Google AI Edge

Google AI Edge Gallery adalah aplikasi eksperimental yang dirancang untuk mendemonstrasikan kemampuan AI Generatif di perangkat yang berjalan sepenuhnya offline menggunakan LiteRT-LM.

Google Play: Menggunakan LLM secara lokal di perangkat Android yang didukung.
App Store: Nikmati AI di perangkat di perangkat iOS Anda.
Sumber GitHub: Lihat kode sumber untuk aplikasi galeri guna mempelajari cara mengintegrasikan LiteRT-LM dalam project Anda sendiri.

Model Unggulan: Gemma-4-E2B

Ukuran Model: 2,58 GB

Detail teknis tambahan ada di kartu model HuggingFace

Platform (Perangkat)	Backend	Isi otomatis (tk/s)	Decode (tk/s)	Waktu hingga Token Pertama (detik)	Memori CPU Puncak (MB)
Android (S26 Ultra)	CPU	557	47	1,8	1733
Android (S26 Ultra)	GPU	3808	52	0,3	676
iOS (iPhone 17 Pro)	CPU	532	25	1.9	607
iOS (iPhone 17 Pro)	GPU	2878	56	0,3	1450
Linux (Arm 2,3 & 2,8 GHz, NVIDIA GeForce RTX 4090)	CPU	260	35	4	1628
Linux (Arm 2,3 & 2,8 GHz, NVIDIA GeForce RTX 4090)	GPU	11234	143	0,1	913
macOS (MacBook Pro M4)	CPU	901	42	1.1	736
macOS (MacBook Pro M4)	GPU	7835	160	0,1	1623
IoT (Raspberry Pi 5 16GB)	CPU	133	8	7.8	1546

Mulai Membangun

Cuplikan berikut menunjukkan cara memulai CLI LiteRT-LM, serta API Python, Kotlin, dan C++.

CLI

litert-lm run model.litertlm --prompt="What is the capital of France?"

Python

engine = litert_lm.Engine("model.litertlm")

with engine.create_conversation() as conversation:
    response = conversation.send_message("What is the capital of France?")
    print(f"Response: {response['content'][0]['text']}")

Kotlin

val engineConfig = EngineConfig(
    modelPath = "/path/to/your/model.litertlm",
    backend = Backend.CPU(),
)

val engine = Engine(engineConfig)
engine.initialize()

val conversation = engine.createConversation()
print(conversation.sendMessage("What is the capital of France?"))

C++

auto model_assets = ModelAssets::Create(model_path);
CHECK_OK(model_assets);

auto engine_settings = EngineSettings::CreateDefault(
    model_assets,
    /*backend=*/litert::lm::Backend::CPU);

absl::StatusOr<std::unique_ptr<Engine>> engine = Engine::CreateEngine(engine_settings);
CHECK_OK(engine);

auto conversation_config = ConversationConfig::CreateDefault(**engine);
CHECK_OK(conversation_config);
absl::StatusOr<std::unique_ptr<Conversation>> conversation = Conversation::Create(**engine, *conversation_config);
CHECK_OK(conversation);

absl::StatusOr<Message> model_message = (*conversation)->SendMessage(
    JsonMessage{
        {"role", "user"},
        {"content", "What is the capital of France?"}
    });
CHECK_OK(model_message);

std::cout << *model_message << std::endl;

Language	Status	Paling Cocok Untuk...	Dokumentasi
CLI	🚀 Pratinjau Awal	Mulai menggunakan LiteRT-LM dalam waktu kurang dari 1 menit.	Panduan CLI
Python	✅ Stabil	Pembuatan prototipe dan pengembangan yang cepat di desktop & Raspberry Pi.	Panduan Python
Kotlin	✅ Stabil	Aplikasi Android native dan alat desktop berbasis JVM. Dioptimalkan untuk Coroutine.	Panduan Android (Kotlin)
C++	✅ Stabil	Logika inti lintas platform dan sistem sematan berperforma tinggi.	Panduan C++
Swift	🚀 Dalam Pengembangan	Integrasi iOS dan macOS native dengan dukungan Metal khusus.	Segera Hadir

Backend & Platform yang Didukung

Akselerasi	Android	iOS	macOS	Windows	Linux	IoT
CPU	✅	✅	✅	✅	✅	✅
GPU	✅	✅	✅	✅	✅	-
NPU	✅	-	-	-	-	-

Model yang Didukung

Tabel berikut mencantumkan model yang didukung oleh LiteRT-LM. Untuk mengetahui angka performa dan kartu model yang lebih mendetail, buka Komunitas LiteRT di Hugging Face.

Model	Jenis	Ukuran (MB)	Detail	Perangkat	Pengisian Otomatis CPU (tk/s)	Dekode CPU (tk/s)	Pengisian Awal GPU (tk/s)	Dekode GPU (tkp/dtk)
Gemma4-E2B	Chat	2583	Kartu Model	Samsung S26 Ultra	557	47	3808	52
				iPhone 17 Pro	532	25	2878	57
				MacBook Pro M4	901	42	7835	160
Gemma4-E4B	Chat	3654	Kartu Model	Samsung S26 Ultra	195	18	1293	22
				iPhone 17 Pro	159	10	1189	25
				MacBook Pro M4	277	27	2560	101
Gemma-3n-E2B	Chat	2965	Kartu Model	MacBook Pro M3	233	28	-	-
				Samsung S24 Ultra	111	16	816	16
Gemma-3n-E4B	Chat	4235	Kartu Model	MacBook Pro M3	170	20	-	-
				Samsung S24 Ultra	74	9	548	9
Gemma3-1B	Chat	1005	Kartu Model	Samsung S24 Ultra	177	33	1191	24
FunctionGemma	Dasar	289	Kartu Model	Samsung S25 Ultra	2238	154	-	-
phi-4-mini	Chat	3906	Kartu Model	Samsung S24 Ultra	67	7	314	10
Qwen2.5-1.5B	Chat	1598	Kartu Model	Samsung S25 Ultra	298	34	1668	31
Qwen3-0.6B	Chat	586	Kartu Model	Vivo X300 Pro	165	9	580	21
Qwen2.5-0.5B	Chat	521	Kartu Model	Samsung S24 Ultra	251	30	-	-

Melaporkan Masalah

Jika Anda menemukan bug atau memiliki permintaan fitur, laporkan di Masalah GitHub LiteRT-LM.