LiteRT-LM CLI

อินเทอร์เฟซบรรทัดคำสั่ง (CLI) ช่วยให้คุณทดสอบโมเดลได้ทันทีโดยไม่ต้องใช้โค้ด

แพลตฟอร์มที่รองรับ

  • Linux
  • macOS
  • Windows
  • Raspberry Pi

การติดตั้ง

ติดตั้ง litert-lm เป็นไบนารีทั่วทั้งระบบ ซึ่งต้องมี uv

uv tool install litert-lm

วิธีการที่ 2: pip

การติดตั้งมาตรฐานภายในสภาพแวดล้อมเสมือน

python3 -m venv .venv
source .venv/bin/activate
pip install litert-lm

แชท

ดาวน์โหลดจาก HuggingFace แล้วเรียกใช้โมเดลโดยทำดังนี้

litert-lm run  \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --prompt="What is the capital of France?"

🔴 ใหม่: การคาดการณ์หลายโทเค็น (MTP)

การคาดการณ์หลายโทเค็น (MTP) เป็นการเพิ่มประสิทธิภาพที่ช่วยเร่งความเร็วในการถอดรหัสได้อย่างมาก เราขอแนะนำให้ใช้ MTP กับงานทั้งหมดในแบ็กเอนด์ GPU

หากต้องการเปิดใช้ MTP ใน CLI ให้ใช้แฟล็ก --enable-speculative-decoding=true ดังนี้

litert-lm run  \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --backend=gpu \
  --enable-speculative-decoding=true \
  --prompt="What is the capital of France?"

การเรียกใช้ฟังก์ชัน / เครื่องมือ

คุณสามารถเรียกใช้เครื่องมือด้วยการตั้งค่าล่วงหน้าได้ โดยสร้าง preset.py ดังนี้

import datetime
import base64

def get_current_time() -> str:
    """Returns the current date and time."""
    return datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")

system_instruction = "You are a helpful assistant with access to tools."
tools = [get_current_time]

เรียกใช้ด้วยการตั้งค่าล่วงหน้าโดยทำดังนี้

litert-lm run  \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --preset=preset.py

ตัวอย่างพรอมต์และเอาต์พุตแบบอินเทอร์แอกทีฟ

> what will the time be in two hours?
[tool_call] {"arguments": {}, "name": "get_current_time"}
[tool_response] {"name": "get_current_time", "response": "2026-03-25 21:54:07"}
The current time is 2026-03-25 21:54:07.

In two hours, it will be **2026-03-25 23:54:07**.

สิ่งที่เกิดขึ้น

เมื่อคุณถามคำถามที่ต้องใช้ข้อมูลภายนอก (เช่น เวลาปัจจุบัน) โมเดลจะจดจำได้ว่าต้องเรียกใช้เครื่องมือ

  1. โมเดลส่ง tool_call: โมเดลจะส่งออกคำขอ JSON เพื่อเรียกใช้ฟังก์ชัน get_current_time
  2. CLI เรียกใช้เครื่องมือ: LiteRT-LM CLI จะสกัดกั้นการเรียกนี้และเรียกใช้ฟังก์ชัน Python ที่เกี่ยวข้องซึ่งกำหนดไว้ใน preset.py
  3. CLI ส่ง tool_response: CLI จะส่งผลลัพธ์กลับไปยังโมเดล
  4. โมเดลสร้างคำตอบสุดท้าย: โมเดลจะใช้การตอบกลับของเครื่องมือเพื่อคำนวณและสร้างคำตอบสุดท้ายสำหรับผู้ใช้

ลูป "การเรียกใช้ฟังก์ชัน" นี้จะเกิดขึ้นโดยอัตโนมัติภายใน CLI ซึ่งช่วยให้คุณเพิ่มขีดความสามารถของ LLM ในเครื่องด้วย Python ได้โดยไม่ต้องเขียนโค้ดการจัดการเป็นกลุ่มที่ซับซ้อน

ความสามารถเดียวกันนี้มีให้ใช้งานจาก Python, C++, และ Kotlin API