LiteRT-LM là một khung suy luận nguồn mở, sẵn sàng cho hoạt động sản xuất, được thiết kế để cung cấp các hoạt động triển khai LLM hiệu suất cao, đa nền tảng trên các thiết bị biên.
Tính năng chính
- Hỗ trợ đa nền tảng: Chạy trên Android, iOS, Web và máy tính.
- Tăng tốc phần cứng:
- GPU: Dựa trên ML Drift, hỗ trợ cả mô hình ML và AI tạo sinh.
- NPU: Suy luận tăng tốc trên các thiết bị có chipset Qualcomm và MediaTek (Truy cập sớm).
- Đa phương thức: Hỗ trợ đầu vào bằng hình ảnh và âm thanh.
- Sử dụng công cụ: Hỗ trợ gọi hàm cho quy trình công việc dựa trên tác nhân.
- Hỗ trợ nhiều mô hình: Chạy Gemma, Llama, Phi-4, Qwen và nhiều mô hình khác.
Nền tảng và phần phụ trợ được hỗ trợ
| Nền tảng | Hỗ trợ CPU | Hỗ trợ GPU | Hỗ trợ NPU |
|---|---|---|---|
| Android | ✅ | ✅ | ✅ |
| iOS | ✅ | ✅ | - |
| macOS | ✅ | ✅ | - |
| Windows | ✅ | ✅ | - |
| Linux | ✅ | ✅ | - |
| Nhúng | ✅ | - | - |
Bắt đầu nhanh
Bạn muốn dùng thử trước? Trước khi tiến hành thiết lập đầy đủ, bạn có thể sử dụng các tệp nhị phân được tạo sẵn cho máy tính hoặc ứng dụng Google AI Edge Gallery cho thiết bị di động để chạy LiteRT-LM ngay lập tức.
Ứng dụng dành cho thiết bị di động
Google AI Edge Gallery là một ứng dụng minh hoạ giúp bạn khai thác sức mạnh của các mô hình AI tạo sinh tiên tiến ngay trên thiết bị của mình, dựa trên LiteRT-LM.
Desktop CLI
Sau khi tải tệp nhị phân lit xuống, bạn chỉ cần chạy lit để xem các lựa chọn.
Chọn nền tảng
| Ngôn ngữ | Trạng thái | Phù hợp nhất cho... | Tài liệu |
|---|---|---|---|
| Kotlin | ✅ Ổn định |
Ứng dụng Android gốc và các công cụ dành cho máy tính dựa trên JVM. Được tối ưu hoá cho các coroutine. | Tài liệu tham khảo về API Kotlin |
| C++ | ✅ Ổn định |
Logic cốt lõi và hệ thống nhúng đa nền tảng, hiệu suất cao. | Tài liệu tham khảo C++ API |
| Swift | 🚀 Đang phát triển |
Tích hợp iOS và macOS gốc với chế độ hỗ trợ Metal chuyên biệt. | Sắp có |
| Python | 🚀 Đang phát triển |
Tạo mẫu nhanh, phát triển và viết kịch bản phía máy tính. | Sắp có |
Các mô hình được hỗ trợ
Bảng sau đây cho thấy một số mẫu được hỗ trợ đầy đủ và đã được kiểm thử bằng LiteRT-LM.
Lưu ý: "Chat Ready" cho biết các mô hình được điều chỉnh cho cuộc trò chuyện (điều chỉnh hướng dẫn). Các mô hình "Cơ sở" thường cần được điều chỉnh để đạt được hiệu suất trò chuyện tối ưu, trừ phi được dùng cho các lượt hoàn thành cụ thể.
| Mô hình | Loại | Lượng tử hoá | Độ dài ngữ cảnh | Kích thước (MB) | Tải xuống |
|---|---|---|---|---|---|
| Gemma | |||||
| Gemma3-1B | Sẵn sàng trò chuyện | 4 bit cho mỗi kênh | 4096 | 557 | Tải xuống |
| Gemma-3n-E2B | Sẵn sàng trò chuyện | 4 bit cho mỗi kênh | 4096 | 2965 | Tải xuống |
| Gemma-3n-E4B | Sẵn sàng trò chuyện | 4 bit cho mỗi kênh | 4096 | 4235 | Tải xuống |
| FunctionGemma-270M | Cơ bản (Cần tinh chỉnh) | 8 bit cho mỗi kênh | 1024 | 288 | Hướng dẫn tinh chỉnh |
| ↪ TinyGarden-270M | Bản minh hoạ | 8 bit cho mỗi kênh | 1024 | 288 | Tải xuống / Dùng thử ứng dụng |
| Llama | |||||
| Llama-3.2-1B-Instruct | Sẵn sàng trò chuyện | 8 bit cho mỗi kênh | 8192 | 1162 | Tải xuống |
| Llama-3.2-3B-Instruct | Sẵn sàng trò chuyện | 8 bit cho mỗi kênh | 8192 | 2893 | Tải xuống |
| Phi | |||||
| phi-4-mini | Sẵn sàng trò chuyện | 8 bit cho mỗi kênh | 4096 | 3728 | Tải xuống |
| Qwen | |||||
| qwen2.5-1.5b | Sẵn sàng trò chuyện | 8 bit cho mỗi kênh | 4096 | 1524 | Tải xuống |
Hiệu suất
Dưới đây là số liệu hiệu suất khi chạy từng mô hình trên nhiều thiết bị. Xin lưu ý rằng điểm chuẩn được đo bằng 1024 mã thông báo điền sẵn và 256 mã thông báo giải mã (với tính năng khoá hiệu suất trên thiết bị Android).
| Mô hình | Thiết bị | Phụ trợ | Điền sẵn (số lượng mã thông báo/giây) | Giải mã (số lượng mã thông báo/giây) | Kích thước ngữ cảnh |
|---|---|---|---|---|---|
| Gemma3-1B | MacBook Pro (2023 M3) |
CPU | 423 | 67 | 4096 |
| Gemma3-1B | Samsung S24 (Ultra) |
CPU | 243 | 44 | 4096 |
| Gemma3-1B | Samsung S24 (Ultra) |
GPU | 1877 | 45 | 4096 |
| Gemma3-1B | Samsung S25 (Ultra) |
NPU | 5837 | 85 | 1280 |
| Gemma-3n-E2B | MacBook Pro (2023 M3) |
CPU | 233 | 28 | 4096 |
| Gemma-3n-E2B | Samsung S24 (Ultra) |
CPU | 111 | 16 | 4096 |
| Gemma-3n-E2B | Samsung S24 (Ultra) |
GPU | 816 | 16 | 4096 |
| Gemma-3n-E4B | MacBook Pro (2023 M3) |
CPU | 170 | 20 | 4096 |
| Gemma-3n-E4B | Samsung S24 (Ultra) |
CPU | 74 | 9 | 4096 |
| Gemma-3n-E4B | Samsung S24 (Ultra) |
GPU | 548 | 9 | 4096 |
| FunctionGemma | Samsung S25 (Ultra) |
CPU | 1718 | 126 | 1024 |
Lưu ý: Lần đầu tiên một mô hình nhất định được tải trên một thiết bị nhất định, mô hình đó sẽ mất nhiều thời gian hơn để tải vì các trọng số được tối ưu hoá. Các lần tải tiếp theo sẽ nhanh hơn do có bộ nhớ đệm.
Lưu trữ và triển khai mô hình
Khi một mô hình vượt quá giới hạn tải xuống "qua mạng" (thường là khoảng 1,5 GB), bạn phải sử dụng chiến lược tìm nạp từ xa.
- Firebase: Nên dùng để tải các tệp lớn xuống trên Android và iOS.
- HuggingFace API: Tìm nạp trực tiếp các mô hình bằng HuggingFace API.
Báo cáo sự cố
Nếu bạn gặp lỗi hoặc có yêu cầu về tính năng, vui lòng sử dụng trang Vấn đề về LiteRT-LM trên GitHub.