LiteRT-LM เป็นเฟรมเวิร์กการอนุมานแบบโอเพนซอร์สที่พร้อมใช้งานจริง ซึ่งออกแบบมาเพื่อ มอบการติดตั้งใช้งาน LLM ประสิทธิภาพสูงแบบข้ามแพลตฟอร์มบนอุปกรณ์ Edge
- รองรับหลายแพลตฟอร์ม: ทำงานบน Android, iOS, เว็บ, เดสก์ท็อป และ IoT (เช่น Raspberry Pi)
- การเร่งด้วยฮาร์ดแวร์: รับประสิทธิภาพสูงสุดและความเสถียรของระบบโดย ใช้ประโยชน์จากตัวเร่ง GPU และ NPU ในฮาร์ดแวร์ที่หลากหลาย
- ความสามารถในการประมวลผลข้อมูลหลายรูปแบบ: สร้างด้วย LLM ที่รองรับภาพและเสียง
- การใช้เครื่องมือ: รองรับการเรียกใช้ฟังก์ชันสำหรับเวิร์กโฟลว์แบบ Agent พร้อม การถอดรหัสแบบจำกัดเพื่อความแม่นยำที่ดียิ่งขึ้น
- รองรับโมเดลที่หลากหลาย: เรียกใช้ Gemma, Llama, Phi-4, Qwen และอื่นๆ
มีอะไรใหม่ (v0.12.0)
- Swift API: ผสานรวม LiteRT-LM เข้ากับแอปพลิเคชัน iOS โดยตรงด้วย การเร่งความเร็ว GPU ของ Metal โปรดดูคู่มือ Swift
- Web JavaScript API: เรียกใช้โมเดลภายในเว็บเบราว์เซอร์ที่มีประสิทธิภาพสูง โดยใช้ Web GPU/CPU ดูคู่มือ JavaScript
- การอัปเดต CLI / Python API ของ LiteRT-LM: อินเทอร์เฟซบรรทัดคำสั่งและ Python API รองรับ NPU แล้ว นอกเหนือจากแบ็กเอนด์ CPU และ GPU ใน Linux, macOS และ Windows ดูคู่มือ CLI
- Flutter API ที่ชุมชนดูแล: สร้างแอปพลิเคชัน Flutter แบบข้ามแพลตฟอร์ม โดยใช้แพ็กเกจ flutter_gemma ของชุมชน ดูคู่มือ Flutter
การสาธิต GenAI ในอุปกรณ์
Google AI Edge Gallery เป็นแอปเวอร์ชันทดลองที่ออกแบบมาเพื่อแสดงความสามารถของ Generative AI ในอุปกรณ์ ซึ่งทำงานแบบออฟไลน์ทั้งหมดโดยใช้ LiteRT-LM
- Google Play: ใช้ LLM ในเครื่องบนอุปกรณ์ Android ที่รองรับ
- App Store: สัมผัสประสบการณ์ AI ในอุปกรณ์บนอุปกรณ์ iOS
- แหล่งที่มาของ GitHub: ดูซอร์สโค้ดของแอปแกลเลอรีเพื่อดูวิธีผสานรวม LiteRT-LM ภายในโปรเจ็กต์ของคุณเอง
โมเดลแนะนำ: Gemma-4-E2B
- ขนาดโมเดล: 2.58 GB
ดูรายละเอียดทางเทคนิคเพิ่มเติมได้ในการ์ดโมเดล HuggingFace
แพลตฟอร์ม (อุปกรณ์) แบ็กเอนด์ กรอกข้อมูลล่วงหน้า (tk/s) ถอดรหัส (tk/s) เวลาที่ได้รับโทเค็นแรก (วินาที) หน่วยความจำ CPU สูงสุด (MB) Android (S26 Ultra) CPU 557 47 1.8 1733 GPU 3808 52 0.3 676 iOS (iPhone 17 Pro) CPU 532 25 1.9 607 GPU 2878 56 0.3 1450 Linux (Arm 2.3 และ 2.8 GHz, NVIDIA GeForce RTX 4090) CPU 260 35 4 1628 GPU 11234 143 0.1 913 macOS (MacBook Pro M4) CPU 901 42 1.1 736 GPU 7835 160 0.1 1623 Windows (Intel LunarLake) CPU 435 30 2.4 3505 GPU 3751 48 0.3 3540 IoT (Raspberry Pi 5 16GB) CPU 133 8 7.8 1546
เริ่มสร้าง
LiteRT-LM มี API สำหรับภาษาการเขียนโปรแกรมและแพลตฟอร์มต่างๆ เพื่อช่วยให้คุณสร้างแอปพลิเคชัน AI ในอุปกรณ์ได้อย่างรวดเร็ว เลือกคำแนะนำด้านล่างเพื่อเริ่มต้นใช้งาน
| ภาษา | สถานะ | เหมาะสำหรับ... | เอกสารประกอบ |
|---|---|---|---|
| CLI | ✅ เสถียร |
เริ่มต้นใช้งาน LiteRT-LM ใน เวลาไม่ถึง 1 นาที | CLI Guide |
| Python | ✅ เสถียร |
การสร้างต้นแบบอย่างรวดเร็ว การพัฒนาบนเดสก์ท็อปและ Raspberry Pi | Python Guide |
| Kotlin | ✅ เสถียร |
แอป Android แบบเนทีฟและ เครื่องมือเดสก์ท็อป ที่ใช้ JVM เพิ่มประสิทธิภาพ สำหรับ Coroutine | คู่มือ Kotlin |
| Swift | 🚀 เวอร์ชันตัวอย่างทดลองใช้ |
การผสานรวม iOS และ macOS ดั้งเดิม พร้อมการรองรับ Metal โดยเฉพาะ | Swift Guide |
| JavaScript (เว็บ) | 🚀 เวอร์ชันตัวอย่างทดลองใช้ |
ทำให้โมเดลใช้งานได้ โดยตรงในเว็บ เบราว์เซอร์ที่มี ประสิทธิภาพสูง | คำแนะนำ JavaScript |
| Flutter | 🚀 ชุมชน |
แอป Flutter
ข้ามแพลตฟอร์ม
ที่ใช้ชุมชน
flutter_gemma |
Flutter Guide |
| C++ | ✅ เสถียร |
ตรรกะหลักและระบบฝังตัว ประสิทธิภาพสูง ข้ามแพลตฟอร์ม | C++ Guide |
สร้างจากแหล่งที่มา
หากต้องการปรับแต่ง LiteRT-LM หรือสร้างสำหรับฮาร์ดแวร์ ที่เฉพาะเจาะจง คุณสามารถคอมไพล์จากซอร์สโค้ดได้โดยตรง ดูวิธีการแบบทีละขั้นตอนเกี่ยวกับวิธีตั้งค่าสภาพแวดล้อมและสร้าง เฟรมเวิร์กได้ที่ คู่มือการสร้างและเรียกใช้ LiteRT-LM ใน GitHub
แบ็กเอนด์และแพลตฟอร์มที่รองรับ
| การเร่งความเร็ว | Android | iOS | macOS | Windows | Linux | IoT |
|---|---|---|---|---|---|---|
| CPU | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| GPU | ✅ | ✅ | ✅ | ✅ | ✅ | - |
| NPU | ✅ | - | - | 🚀 | - | - |
รุ่นที่รองรับ
ตารางต่อไปนี้แสดงรายการโมเดลที่ LiteRT-LM รองรับ ดูตัวเลขประสิทธิภาพและโมเดลการ์ดแบบละเอียดเพิ่มเติมได้ที่ชุมชน LiteRT บน Hugging Face
| รุ่น | ประเภท | ขนาด (MB) | รายละเอียด | อุปกรณ์ | การเติม CPU ล่วงหน้า (tk/s) | การถอดรหัส CPU (tk/s) | การเติมข้อความล่วงหน้าของ GPU (โทเค็น/วินาที) | ถอดรหัส GPU (tk/s) |
|---|---|---|---|---|---|---|---|---|
| Gemma4-E2B | แชท | 2583 | การ์ดโมเดล | Samsung S26 Ultra | 557 | 47 | 3808 | 52 |
| iPhone 17 Pro | 532 | 25 | 2878 | 57 | ||||
| MacBook Pro M4 | 901 | 42 | 7835 | 160 | ||||
| Gemma4-E4B | แชท | 3654 | การ์ดโมเดล | Samsung S26 Ultra | 195 | 18 | 1293 | 22 |
| iPhone 17 Pro | 159 | 10 | 1189 | 25 | ||||
| MacBook Pro M4 | 277 | 27 | 2560 | 101 | ||||
| Gemma-3n-E2B | แชท | 2965 | การ์ดโมเดล | MacBook Pro M3 | 233 | 28 | - | - |
| Samsung S24 Ultra | 111 | 16 | 816 | 16 | ||||
| Gemma-3n-E4B | แชท | 4235 | การ์ดโมเดล | MacBook Pro M3 | 170 | 20 | - | - |
| Samsung S24 Ultra | 74 | 9 | 548 | 9 | ||||
| Gemma3-1B | แชท | 1005 | การ์ดโมเดล | Samsung S24 Ultra | 177 | 33 | 1191 | 24 |
| FunctionGemma | ฐาน | 289 | การ์ดโมเดล | Samsung S25 Ultra | 2238 | 154 | - | - |
| phi-4-mini | แชท | 3906 | การ์ดโมเดล | Samsung S24 Ultra | 67 | 7 | 314 | 10 |
| Qwen2.5-1.5B | แชท | 1598 | การ์ดโมเดล | Samsung S25 Ultra | 298 | 34 | 1668 | 31 |
| Qwen3-0.6B | แชท | 586 | การ์ดโมเดล | Vivo X300 Pro | 165 | 9 | 580 | 21 |
| Qwen2.5-0.5B | แชท | 521 | การ์ดโมเดล | Samsung S24 Ultra | 251 | 30 | - | - |
รายงานปัญหา
หากพบข้อบกพร่องหรือมีคำขอฟีเจอร์ โปรดรายงานที่ปัญหาใน GitHub ของ LiteRT-LM