อินเทอร์เฟซบรรทัดคำสั่ง (CLI) ช่วยให้คุณทดสอบโมเดลได้ทันทีโดยไม่ต้องใช้โค้ด
แพลตฟอร์มที่รองรับ
- Linux
- macOS
- Windows
- Raspberry Pi
การติดตั้ง
วิธีการที่ 1: uv (แนะนำ)
ติดตั้ง litert-lm เป็นไบนารีทั่วทั้งระบบ ซึ่งต้องมี uv
uv tool install litert-lm
วิธีการที่ 2: pip
การติดตั้งมาตรฐานภายในสภาพแวดล้อมเสมือน
python3 -m venv .venv
source .venv/bin/activate
pip install litert-lm
แชท
ดาวน์โหลดจาก HuggingFace แล้วเรียกใช้โมเดลโดยทำดังนี้
litert-lm run \
--from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
gemma-4-E2B-it.litertlm \
--prompt="What is the capital of France?"
🔴 ใหม่: การคาดการณ์หลายโทเค็น (MTP)
การคาดการณ์หลายโทเค็น (MTP) เป็นการเพิ่มประสิทธิภาพที่ช่วยเร่งความเร็วในการถอดรหัสได้อย่างมาก เราขอแนะนำให้ใช้ MTP กับงานทั้งหมดในแบ็กเอนด์ GPU
หากต้องการเปิดใช้ MTP ใน CLI ให้ใช้แฟล็ก --enable-speculative-decoding=true ดังนี้
litert-lm run \
--from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
gemma-4-E2B-it.litertlm \
--backend=gpu \
--enable-speculative-decoding=true \
--prompt="What is the capital of France?"
การเรียกใช้ฟังก์ชัน / เครื่องมือ
คุณสามารถเรียกใช้เครื่องมือด้วยการตั้งค่าล่วงหน้าได้ โดยสร้าง preset.py ดังนี้
import datetime
import base64
def get_current_time() -> str:
"""Returns the current date and time."""
return datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")
system_instruction = "You are a helpful assistant with access to tools."
tools = [get_current_time]
เรียกใช้ด้วยการตั้งค่าล่วงหน้าโดยทำดังนี้
litert-lm run \
--from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
gemma-4-E2B-it.litertlm \
--preset=preset.py
ตัวอย่างพรอมต์และเอาต์พุตแบบอินเทอร์แอกทีฟ
> what will the time be in two hours?
[tool_call] {"arguments": {}, "name": "get_current_time"}
[tool_response] {"name": "get_current_time", "response": "2026-03-25 21:54:07"}
The current time is 2026-03-25 21:54:07.
In two hours, it will be **2026-03-25 23:54:07**.
สิ่งที่เกิดขึ้น
เมื่อคุณถามคำถามที่ต้องใช้ข้อมูลภายนอก (เช่น เวลาปัจจุบัน) โมเดลจะจดจำได้ว่าต้องเรียกใช้เครื่องมือ
- โมเดลส่ง
tool_call: โมเดลจะส่งออกคำขอ JSON เพื่อเรียกใช้ฟังก์ชันget_current_time - CLI เรียกใช้เครื่องมือ: LiteRT-LM CLI จะสกัดกั้นการเรียกนี้และเรียกใช้ฟังก์ชัน Python ที่เกี่ยวข้องซึ่งกำหนดไว้ใน
preset.py - CLI ส่ง
tool_response: CLI จะส่งผลลัพธ์กลับไปยังโมเดล - โมเดลสร้างคำตอบสุดท้าย: โมเดลจะใช้การตอบกลับของเครื่องมือเพื่อคำนวณและสร้างคำตอบสุดท้ายสำหรับผู้ใช้
ลูป "การเรียกใช้ฟังก์ชัน" นี้จะเกิดขึ้นโดยอัตโนมัติภายใน CLI ซึ่งช่วยให้คุณเพิ่มขีดความสามารถของ LLM ในเครื่องด้วย Python ได้โดยไม่ต้องเขียนโค้ดการจัดการเป็นกลุ่มที่ซับซ้อน
ความสามารถเดียวกันนี้มีให้ใช้งานจาก Python, C++, และ Kotlin API