ขอแนะนํา Google AI Edge Portal: เปรียบเทียบประสิทธิภาพ AI บนอุปกรณ์ขอบในวงกว้าง ลงชื่อสมัครใช้เพื่อขอสิทธิ์เข้าถึงในช่วงเวอร์ชันตัวอย่างก่อนเปิดตัว

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

ภาพรวมของ LiteRT-LM

LiteRT-LM เป็นเฟรมเวิร์กการอนุมานแบบโอเพนซอร์สที่พร้อมใช้งานจริง ซึ่งออกแบบมาเพื่อ มอบการติดตั้งใช้งาน LLM ประสิทธิภาพสูงแบบข้ามแพลตฟอร์มบนอุปกรณ์ Edge

รองรับหลายแพลตฟอร์ม: ทำงานบน Android, iOS, เว็บ, เดสก์ท็อป และ IoT (เช่น Raspberry Pi)
การเร่งด้วยฮาร์ดแวร์: รับประสิทธิภาพสูงสุดและความเสถียรของระบบโดย ใช้ประโยชน์จากตัวเร่ง GPU และ NPU ในฮาร์ดแวร์ที่หลากหลาย
ความสามารถในการประมวลผลข้อมูลหลายรูปแบบ: สร้างด้วย LLM ที่รองรับภาพและเสียง
การใช้เครื่องมือ: รองรับการเรียกใช้ฟังก์ชันสำหรับเวิร์กโฟลว์แบบ Agent พร้อม การถอดรหัสแบบจำกัดเพื่อความแม่นยำที่ดียิ่งขึ้น
รองรับโมเดลที่หลากหลาย: เรียกใช้ Gemma, Llama, Phi-4, Qwen และอื่นๆ

มีอะไรใหม่ (v0.12.0)

Swift API: ผสานรวม LiteRT-LM เข้ากับแอปพลิเคชัน iOS โดยตรงด้วย การเร่งความเร็ว GPU ของ Metal โปรดดูคู่มือ Swift
Web JavaScript API: เรียกใช้โมเดลภายในเว็บเบราว์เซอร์ที่มีประสิทธิภาพสูง โดยใช้ Web GPU/CPU ดูคู่มือ JavaScript
การอัปเดต CLI / Python API ของ LiteRT-LM: อินเทอร์เฟซบรรทัดคำสั่งและ Python API รองรับ NPU แล้ว นอกเหนือจากแบ็กเอนด์ CPU และ GPU ใน Linux, macOS และ Windows ดูคู่มือ CLI
Flutter API ที่ชุมชนดูแล: สร้างแอปพลิเคชัน Flutter แบบข้ามแพลตฟอร์ม โดยใช้แพ็กเกจ flutter_gemma ของชุมชน ดูคู่มือ Flutter

การสาธิต GenAI ในอุปกรณ์

ภาพหน้าจอ Google AI Edge Gallery

Google AI Edge Gallery เป็นแอปเวอร์ชันทดลองที่ออกแบบมาเพื่อแสดงความสามารถของ Generative AI ในอุปกรณ์ ซึ่งทำงานแบบออฟไลน์ทั้งหมดโดยใช้ LiteRT-LM

Google Play: ใช้ LLM ในเครื่องบนอุปกรณ์ Android ที่รองรับ
App Store: สัมผัสประสบการณ์ AI ในอุปกรณ์บนอุปกรณ์ iOS
แหล่งที่มาของ GitHub: ดูซอร์สโค้ดของแอปแกลเลอรีเพื่อดูวิธีผสานรวม LiteRT-LM ภายในโปรเจ็กต์ของคุณเอง

โมเดลแนะนำ: Gemma-4-E2B

ขนาดโมเดล: 2.58 GB

ดูรายละเอียดทางเทคนิคเพิ่มเติมได้ในการ์ดโมเดล HuggingFace

แพลตฟอร์ม (อุปกรณ์)	แบ็กเอนด์	กรอกข้อมูลล่วงหน้า (tk/s)	ถอดรหัส (tk/s)	เวลาที่ได้รับโทเค็นแรก (วินาที)	หน่วยความจำ CPU สูงสุด (MB)
Android (S26 Ultra)	CPU	557	47	1.8	1733
Android (S26 Ultra)	GPU	3808	52	0.3	676
iOS (iPhone 17 Pro)	CPU	532	25	1.9	607
iOS (iPhone 17 Pro)	GPU	2878	56	0.3	1450
Linux (Arm 2.3 และ 2.8 GHz, NVIDIA GeForce RTX 4090)	CPU	260	35	4	1628
Linux (Arm 2.3 และ 2.8 GHz, NVIDIA GeForce RTX 4090)	GPU	11234	143	0.1	913
macOS (MacBook Pro M4)	CPU	901	42	1.1	736
macOS (MacBook Pro M4)	GPU	7835	160	0.1	1623
Windows (Intel LunarLake)	CPU	435	30	2.4	3505
Windows (Intel LunarLake)	GPU	3751	48	0.3	3540
IoT (Raspberry Pi 5 16GB)	CPU	133	8	7.8	1546

เริ่มสร้าง

LiteRT-LM มี API สำหรับภาษาการเขียนโปรแกรมและแพลตฟอร์มต่างๆ เพื่อช่วยให้คุณสร้างแอปพลิเคชัน AI ในอุปกรณ์ได้อย่างรวดเร็ว เลือกคำแนะนำด้านล่างเพื่อเริ่มต้นใช้งาน

ภาษา	สถานะ	เหมาะสำหรับ...	เอกสารประกอบ
CLI	✅ เสถียร	เริ่มต้นใช้งาน LiteRT-LM ใน เวลาไม่ถึง 1 นาที	CLI Guide
Python	✅ เสถียร	การสร้างต้นแบบอย่างรวดเร็ว การพัฒนาบนเดสก์ท็อปและ Raspberry Pi	Python Guide
Kotlin	✅ เสถียร	แอป Android แบบเนทีฟและ เครื่องมือเดสก์ท็อป ที่ใช้ JVM เพิ่มประสิทธิภาพ สำหรับ Coroutine	คู่มือ Kotlin
Swift	🚀 เวอร์ชันตัวอย่างทดลองใช้	การผสานรวม iOS และ macOS ดั้งเดิม พร้อมการรองรับ Metal โดยเฉพาะ	Swift Guide
JavaScript (เว็บ)	🚀 เวอร์ชันตัวอย่างทดลองใช้	ทำให้โมเดลใช้งานได้ โดยตรงในเว็บ เบราว์เซอร์ที่มี ประสิทธิภาพสูง	คำแนะนำ JavaScript
Flutter	🚀 ชุมชน	แอป Flutter ข้ามแพลตฟอร์ม ที่ใช้ชุมชน `flutter_gemma`	Flutter Guide
C++	✅ เสถียร	ตรรกะหลักและระบบฝังตัว ประสิทธิภาพสูง ข้ามแพลตฟอร์ม	C++ Guide

สร้างจากแหล่งที่มา

หากต้องการปรับแต่ง LiteRT-LM หรือสร้างสำหรับฮาร์ดแวร์ ที่เฉพาะเจาะจง คุณสามารถคอมไพล์จากซอร์สโค้ดได้โดยตรง ดูวิธีการแบบทีละขั้นตอนเกี่ยวกับวิธีตั้งค่าสภาพแวดล้อมและสร้าง เฟรมเวิร์กได้ที่ คู่มือการสร้างและเรียกใช้ LiteRT-LM ใน GitHub

แบ็กเอนด์และแพลตฟอร์มที่รองรับ

การเร่งความเร็ว	Android	iOS	macOS	Windows	Linux	IoT
CPU	✅	✅	✅	✅	✅	✅
GPU	✅	✅	✅	✅	✅	-
NPU	✅	-	-	🚀	-	-

รุ่นที่รองรับ

ตารางต่อไปนี้แสดงรายการโมเดลที่ LiteRT-LM รองรับ ดูตัวเลขประสิทธิภาพและโมเดลการ์ดแบบละเอียดเพิ่มเติมได้ที่ชุมชน LiteRT บน Hugging Face

รุ่น	ประเภท	ขนาด (MB)	รายละเอียด	อุปกรณ์	การเติม CPU ล่วงหน้า (tk/s)	การถอดรหัส CPU (tk/s)	การเติมข้อความล่วงหน้าของ GPU (โทเค็น/วินาที)	ถอดรหัส GPU (tk/s)
Gemma4-E2B	แชท	2583	การ์ดโมเดล	Samsung S26 Ultra	557	47	3808	52
				iPhone 17 Pro	532	25	2878	57
				MacBook Pro M4	901	42	7835	160
Gemma4-E4B	แชท	3654	การ์ดโมเดล	Samsung S26 Ultra	195	18	1293	22
				iPhone 17 Pro	159	10	1189	25
				MacBook Pro M4	277	27	2560	101
Gemma-3n-E2B	แชท	2965	การ์ดโมเดล	MacBook Pro M3	233	28	-	-
				Samsung S24 Ultra	111	16	816	16
Gemma-3n-E4B	แชท	4235	การ์ดโมเดล	MacBook Pro M3	170	20	-	-
				Samsung S24 Ultra	74	9	548	9
Gemma3-1B	แชท	1005	การ์ดโมเดล	Samsung S24 Ultra	177	33	1191	24
FunctionGemma	ฐาน	289	การ์ดโมเดล	Samsung S25 Ultra	2238	154	-	-
phi-4-mini	แชท	3906	การ์ดโมเดล	Samsung S24 Ultra	67	7	314	10
Qwen2.5-1.5B	แชท	1598	การ์ดโมเดล	Samsung S25 Ultra	298	34	1668	31
Qwen3-0.6B	แชท	586	การ์ดโมเดล	Vivo X300 Pro	165	9	580	21
Qwen2.5-0.5B	แชท	521	การ์ดโมเดล	Samsung S24 Ultra	251	30	-	-

รายงานปัญหา

หากพบข้อบกพร่องหรือมีคำขอฟีเจอร์ โปรดรายงานที่ปัญหาใน GitHub ของ LiteRT-LM