Tổng quan về LiteRT-LM

LiteRT-LM là một khung suy luận nguồn mở, sẵn sàng cho hoạt động sản xuất, được thiết kế để cung cấp các hoạt động triển khai LLM hiệu suất cao, đa nền tảng trên các thiết bị biên.

Tính năng chính

  • Hỗ trợ đa nền tảng: Chạy trên Android, iOS, Web và máy tính.
  • Tăng tốc phần cứng:
    • GPU: Dựa trên ML Drift, hỗ trợ cả mô hình ML và AI tạo sinh.
    • NPU: Suy luận tăng tốc trên các thiết bị có chipset Qualcomm và MediaTek (Truy cập sớm).
  • Đa phương thức: Hỗ trợ đầu vào bằng hình ảnh và âm thanh.
  • Sử dụng công cụ: Hỗ trợ gọi hàm cho quy trình công việc dựa trên tác nhân.
  • Hỗ trợ nhiều mô hình: Chạy Gemma, Llama, Phi-4, Qwen và nhiều mô hình khác.

Nền tảng và phần phụ trợ được hỗ trợ

Nền tảng Hỗ trợ CPU Hỗ trợ GPU Hỗ trợ NPU
Android
iOS -
macOS -
Windows -
Linux -
Nhúng - -

Bắt đầu nhanh

Bạn muốn dùng thử trước? Trước khi tiến hành thiết lập đầy đủ, bạn có thể sử dụng các tệp nhị phân được tạo sẵn cho máy tính hoặc ứng dụng Google AI Edge Gallery cho thiết bị di động để chạy LiteRT-LM ngay lập tức.

Ứng dụng dành cho thiết bị di động

Google AI Edge Gallery là một ứng dụng minh hoạ giúp bạn khai thác sức mạnh của các mô hình AI tạo sinh tiên tiến ngay trên thiết bị của mình, dựa trên LiteRT-LM.

Desktop CLI

Sau khi tải tệp nhị phân lit xuống, bạn chỉ cần chạy lit để xem các lựa chọn.

Chọn nền tảng

Ngôn ngữ Trạng thái Phù hợp nhất cho... Tài liệu
Kotlin
Ổn định
Ứng dụng Android gốc và các công cụ dành cho máy tính dựa trên JVM. Được tối ưu hoá cho các coroutine. Tài liệu tham khảo về API Kotlin
C++
Ổn định
Logic cốt lõi và hệ thống nhúng đa nền tảng, hiệu suất cao. Tài liệu tham khảo C++ API
Swift 🚀
Đang phát triển
Tích hợp iOS và macOS gốc với chế độ hỗ trợ Metal chuyên biệt. Sắp có
Python 🚀
Đang phát triển
Tạo mẫu nhanh, phát triển và viết kịch bản phía máy tính. Sắp có

Các mô hình được hỗ trợ

Bảng sau đây cho thấy một số mẫu được hỗ trợ đầy đủ và đã được kiểm thử bằng LiteRT-LM.

Lưu ý: "Chat Ready" cho biết các mô hình được điều chỉnh cho cuộc trò chuyện (điều chỉnh hướng dẫn). Các mô hình "Cơ sở" thường cần được điều chỉnh để đạt được hiệu suất trò chuyện tối ưu, trừ phi được dùng cho các lượt hoàn thành cụ thể.

Mô hình Loại Lượng tử hoá Độ dài ngữ cảnh Kích thước (MB) Tải xuống
Gemma
Gemma3-1B Sẵn sàng trò chuyện 4 bit cho mỗi kênh 4096 557 Tải xuống
Gemma-3n-E2B Sẵn sàng trò chuyện 4 bit cho mỗi kênh 4096 2965 Tải xuống
Gemma-3n-E4B Sẵn sàng trò chuyện 4 bit cho mỗi kênh 4096 4235 Tải xuống
FunctionGemma-270M Cơ bản (Cần tinh chỉnh) 8 bit cho mỗi kênh 1024 288 Hướng dẫn tinh chỉnh
↪ TinyGarden-270M Bản minh hoạ 8 bit cho mỗi kênh 1024 288 Tải xuống / Dùng thử ứng dụng
Llama
Llama-3.2-1B-Instruct Sẵn sàng trò chuyện 8 bit cho mỗi kênh 8192 1162 Tải xuống
Llama-3.2-3B-Instruct Sẵn sàng trò chuyện 8 bit cho mỗi kênh 8192 2893 Tải xuống
Phi
phi-4-mini Sẵn sàng trò chuyện 8 bit cho mỗi kênh 4096 3728 Tải xuống
Qwen
qwen2.5-1.5b Sẵn sàng trò chuyện 8 bit cho mỗi kênh 4096 1524 Tải xuống

Hiệu suất

Dưới đây là số liệu hiệu suất khi chạy từng mô hình trên nhiều thiết bị. Xin lưu ý rằng điểm chuẩn được đo bằng 1024 mã thông báo điền sẵn và 256 mã thông báo giải mã (với tính năng khoá hiệu suất trên thiết bị Android).

Mô hình Thiết bị Phụ trợ Điền sẵn (số lượng mã thông báo/giây) Giải mã (số lượng mã thông báo/giây) Kích thước ngữ cảnh
Gemma3-1B MacBook Pro
(2023 M3)
CPU 423 67 4096
Gemma3-1B Samsung S24
(Ultra)
CPU 243 44 4096
Gemma3-1B Samsung S24
(Ultra)
GPU 1877 45 4096
Gemma3-1B Samsung S25
(Ultra)
NPU 5837 85 1280
Gemma-3n-E2B MacBook Pro
(2023 M3)
CPU 233 28 4096
Gemma-3n-E2B Samsung S24
(Ultra)
CPU 111 16 4096
Gemma-3n-E2B Samsung S24
(Ultra)
GPU 816 16 4096
Gemma-3n-E4B MacBook Pro
(2023 M3)
CPU 170 20 4096
Gemma-3n-E4B Samsung S24
(Ultra)
CPU 74 9 4096
Gemma-3n-E4B Samsung S24
(Ultra)
GPU 548 9 4096
FunctionGemma Samsung S25
(Ultra)
CPU 1718 126 1024

Lưu ý: Lần đầu tiên một mô hình nhất định được tải trên một thiết bị nhất định, mô hình đó sẽ mất nhiều thời gian hơn để tải vì các trọng số được tối ưu hoá. Các lần tải tiếp theo sẽ nhanh hơn do có bộ nhớ đệm.

Lưu trữ và triển khai mô hình

Khi một mô hình vượt quá giới hạn tải xuống "qua mạng" (thường là khoảng 1,5 GB), bạn phải sử dụng chiến lược tìm nạp từ xa.

  • Firebase: Nên dùng để tải các tệp lớn xuống trên AndroidiOS.
  • HuggingFace API: Tìm nạp trực tiếp các mô hình bằng HuggingFace API.

Báo cáo sự cố

Nếu bạn gặp lỗi hoặc có yêu cầu về tính năng, vui lòng sử dụng trang Vấn đề về LiteRT-LM trên GitHub.