‫LiteRT-LM CLI

ממשק שורת הפקודה (CLI) מאפשר לבדוק מודלים באופן מיידי – ללא צורך בכתיבת קוד.

פלטפורמות נתמכות:

  • Linux
  • macOS
  • Windows
  • Raspberry Pi

התקנה

להריץ את litert-lm באופן מיידי בלי להתקין אותה באופן קבוע. נדרש uv.

אפשר להוסיף את הקידומת uvx לכל פקודה של litert-lm כדי להריץ אותה לפי דרישה:

uvx litert-lm run --help

שיטה 2: uv (התקנה מתמשכת)

הכלי מתקין את litert-lm כקובץ בינארי ברמת המערכת. נדרש uv.

uv tool install litert-lm

שיטה 3: pip

התקנה רגילה בסביבה וירטואלית. השימוש ב---upgrade מבטיח שתקבלו את הגרסה העדכנית ביותר גם אם כבר מותקנת גרסה קודמת.

python3 -m venv .venv
source .venv/bin/activate
pip install --upgrade litert-lm

בתהליך שדרוג

כדי לשדרג את litert-lm לגרסה האחרונה:

אם משתמשים ב-uvx (שיטה 1)

לא נדרשת כל פעולה. ‫uvx מריץ באופן אוטומטי את הגרסה העדכנית ביותר.

אם התוסף הותקן באמצעות uv (שיטה 2)

uv tool upgrade litert-lm

אם התקנתם את האפליקציה באמצעות pip (שיטה 3)

מפעילים את הסביבה הווירטואלית ומריצים את הפקודה:

pip install --upgrade litert-lm

צ'אט

מורידים מ-HuggingFace ומריצים את המודל:

litert-lm run  \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --prompt="What is the capital of France?"

‫🔴 חדש: חיזוי מרובה טוקנים (MTP)

תחזית מרובת טוקנים (MTP) היא אופטימיזציה של הביצועים שמאיצה באופן משמעותי את מהירויות הפענוח. מומלץ להשתמש ב-MTP לכל המשימות ב-GPU backends.

כדי להפעיל את MTP ב-CLI, משתמשים בדגל --enable-speculative-decoding=true:

litert-lm run  \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --backend=gpu \
  --enable-speculative-decoding=true \
  --prompt="What is the capital of France?"

בקשה להפעלת פונקציה / כלים

אפשר להפעיל כלים עם הגדרות קבועות מראש. יצירת preset.py:

import datetime
import base64

def get_current_time() -> str:
    """Returns the current date and time."""
    return datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")

system_instruction = "You are a helpful assistant with access to tools."
tools = [get_current_time]

הפעלה עם הגדרה קבועה מראש:

litert-lm run  \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --preset=preset.py

הנחיות לדוגמה ופלט אינטראקטיבי:

> what will the time be in two hours?
[tool_call] {"arguments": {}, "name": "get_current_time"}
[tool_response] {"name": "get_current_time", "response": "2026-03-25 21:54:07"}
The current time is 2026-03-25 21:54:07.

In two hours, it will be **2026-03-25 23:54:07**.

מה קורה כאן?

כששואלים שאלה שדורשת מידע חיצוני (כמו השעה הנוכחית), המודל מזהה שהוא צריך להפעיל כלי.

  1. Model Emits tool_call: המודל מוציא בקשת JSON כדי להפעיל את הפונקציה get_current_time.
  2. CLI מפעיל כלי: ה-CLI של LiteRT-LM מיירט את הקריאה הזו ומפעיל את פונקציית Python המתאימה שמוגדרת ב-preset.py.
  3. CLI שולח tool_response: ה-CLI שולח את התוצאה בחזרה למודל.
  4. המערכת יוצרת תשובה סופית: המודל משתמש בתשובה של הכלי כדי לחשב וליצור את התשובה הסופית למשתמש.

לולאת 'הפעלת פונקציות' מתרחשת אוטומטית ב-CLI, ומאפשרת לכם להוסיף יכולות של Python למודלים מקומיים של LLM בלי לכתוב קוד מורכב של תזמור.

אותן יכולות זמינות בממשקי ה-API של Python,‏ C++‎ ו-Kotlin.

מסיר התקנה

כדי להסיר את ההתקנה של litert-lm:

אם משתמשים ב-uvx (שיטה 1)

לא נדרשת כל פעולה. uvx פועלת ממטמון זמני ולא מותקנת באופן קבוע.

אם התוסף הותקן באמצעות uv (שיטה 2)

uv tool uninstall litert-lm

אם התקנתם את האפליקציה באמצעות pip (שיטה 3)

pip uninstall litert-lm