Giới thiệu Google AI Edge Portal: Đo điểm chuẩn AI trên thiết bị Edge trên quy mô lớn. Đăng ký để yêu cầu quyền truy cập trong bản xem trước riêng tư.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

LiteRT-LM CLI

Giao diện dòng lệnh (CLI) cho phép bạn kiểm thử các mô hình ngay lập tức mà không cần mã.

Nền tảng được hỗ trợ:

Linux
macOS
Windows
Raspberry Pi

Cài đặt

Phương thức 1: `uvx` (Nên dùng để kiểm thử nhanh)

Chạy litert-lm ngay lập tức mà không cần cài đặt vĩnh viễn. Yêu cầu uv.

Bạn có thể thêm tiền tố uvx vào bất kỳ lệnh litert-lm nào để kích hoạt lệnh theo yêu cầu:

uvx litert-lm run --help

Phương thức 2: `uv` (Cài đặt cố định)

Cài đặt litert-lm dưới dạng tệp nhị phân trên toàn hệ thống. Yêu cầu phải có uv.

uv tool install litert-lm

Phương thức 3: `pip`

Cài đặt tiêu chuẩn trong môi trường ảo. Việc sử dụng --upgrade đảm bảo bạn nhận được phiên bản mới nhất ngay cả khi đã cài đặt một phiên bản trước đó.

python3 -m venv .venv
source .venv/bin/activate
pip install --upgrade litert-lm

Đang nâng cấp

Cách nâng cấp litert-lm lên phiên bản mới nhất:

Nếu sử dụng `uvx` (Phương thức 1)

Bạn không cần làm gì cả. uvx tự động chạy phiên bản mới nhất.

Nếu được cài đặt bằng `uv` (Phương thức 2)

uv tool upgrade litert-lm

Nếu được cài đặt bằng `pip` (Phương thức 3)

Kích hoạt môi trường ảo và chạy:

pip install --upgrade litert-lm

Trò chuyện

Tải xuống từ HuggingFace và chạy mô hình:

litert-lm run  \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --prompt="What is the capital of France?"

🔴 Mới: Dự đoán nhiều mã thông báo (MTP)

Dự đoán nhiều token (MTP) là một phương pháp tối ưu hoá hiệu suất giúp tăng tốc đáng kể tốc độ giải mã. MTP được đề xuất cho tất cả các tác vụ trên các phần phụ trợ GPU.

Để bật MTP trong CLI, hãy sử dụng cờ --enable-speculative-decoding=true:

litert-lm run  \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --backend=gpu \
  --enable-speculative-decoding=true \
  --prompt="What is the capital of France?"

Gọi hàm / Công cụ

Bạn có thể chạy các công cụ bằng chế độ cài đặt sẵn. Tạo một preset.py:

import datetime
import base64

def get_current_time() -> str:
    """Returns the current date and time."""
    return datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")

system_instruction = "You are a helpful assistant with access to tools."
tools = [get_current_time]

Chạy với chế độ đặt sẵn:

litert-lm run  \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --preset=preset.py

Câu lệnh mẫu và kết quả tương tác:

> what will the time be in two hours?
[tool_call] {"arguments": {}, "name": "get_current_time"}
[tool_response] {"name": "get_current_time", "response": "2026-03-25 21:54:07"}
The current time is 2026-03-25 21:54:07.

In two hours, it will be **2026-03-25 23:54:07**.

Điều gì đang xảy ra?

Khi bạn đặt một câu hỏi cần thông tin bên ngoài (chẳng hạn như thời gian hiện tại), mô hình sẽ nhận ra rằng nó cần gọi một công cụ.

Mô hình phát ra tool_call: Mô hình xuất ra một yêu cầu JSON để gọi hàm get_current_time.
Công cụ thực thi CLI: CLI LiteRT-LM chặn lệnh gọi này và thực thi hàm Python tương ứng được xác định trong preset.py.
CLI gửi tool_response: CLI gửi kết quả trở lại mô hình.
Mô hình tạo câu trả lời cuối cùng: Mô hình sử dụng câu trả lời của công cụ để tính toán và tạo câu trả lời cuối cùng cho người dùng.

Vòng lặp "Gọi hàm" này diễn ra tự động trong CLI, cho phép bạn tăng cường các LLM cục bộ bằng các chức năng của Python mà không cần viết mã điều phối phức tạp.

Các API Python, C++ và Kotlin cũng có các chức năng tương tự.

Đang gỡ cài đặt

Cách gỡ cài đặt litert-lm:

Nếu sử dụng `uvx` (Phương thức 1)

Bạn không cần làm gì cả. uvx chạy từ bộ nhớ đệm tạm thời và không cài đặt vĩnh viễn.

Nếu được cài đặt bằng `uv` (Phương thức 2)

uv tool uninstall litert-lm

Nếu được cài đặt bằng `pip` (Phương thức 3)

pip uninstall litert-lm

LiteRT-LM CLI

Cài đặt

Phương thức 1: uvx (Nên dùng để kiểm thử nhanh)

Phương thức 2: uv (Cài đặt cố định)

Phương thức 3: pip

Đang nâng cấp

Nếu sử dụng uvx (Phương thức 1)

Nếu được cài đặt bằng uv (Phương thức 2)

Nếu được cài đặt bằng pip (Phương thức 3)

Trò chuyện

🔴 Mới: Dự đoán nhiều mã thông báo (MTP)

Gọi hàm / Công cụ

Điều gì đang xảy ra?

Đang gỡ cài đặt

Nếu sử dụng uvx (Phương thức 1)

Nếu được cài đặt bằng uv (Phương thức 2)

Nếu được cài đặt bằng pip (Phương thức 3)

Phương thức 1: `uvx` (Nên dùng để kiểm thử nhanh)

Phương thức 2: `uv` (Cài đặt cố định)

Phương thức 3: `pip`

Nếu sử dụng `uvx` (Phương thức 1)

Nếu được cài đặt bằng `uv` (Phương thức 2)

Nếu được cài đặt bằng `pip` (Phương thức 3)

Nếu sử dụng `uvx` (Phương thức 1)

Nếu được cài đặt bằng `uv` (Phương thức 2)

Nếu được cài đặt bằng `pip` (Phương thức 3)