LiteRT-LM CLI

Ndërfaqja e Linjës së Komandës (CLI) ju lejon të testoni modelet menjëherë - nuk kërkohet kod.

Platformat e mbështetura:

  • Linux
  • macOS
  • Windows
  • Raspberry Pi

Instalimi

Ekzekutoni menjëherë litert-lm pa e instaluar përgjithmonë. Kërkon uv .

Mund t’i vendosësh uvx si parashtesë çdo komande litert-lm për ta ekzekutuar sipas kërkesës:

uvx litert-lm run --help

Metoda 2: uv (Instalim i vazhdueshëm)

Instalon litert-lm si një skedar binar për të gjithë sistemin. Kërkon uv .

uv tool install litert-lm

Metoda 3: pip

Instalimi standard brenda një mjedisi virtual. Përdorimi i --upgrade siguron që të merrni versionin më të fundit edhe nëse një version i mëparshëm është instaluar tashmë.

python3 -m venv .venv
source .venv/bin/activate
pip install --upgrade litert-lm

Duke u përmirësuar

Për të përditësuar litert-lm në versionin më të fundit:

Nëse përdorni uvx (Metoda 1)

Nuk kërkohet asnjë veprim. uvx ekzekuton automatikisht versionin më të fundit.

Nëse instalohet me uv (Metoda 2)

uv tool upgrade litert-lm

Nëse instalohet me pip (Metoda 3)

Aktivizoni mjedisin tuaj virtual dhe ekzekutoni:

pip install --upgrade litert-lm

Bisedë

Shkarkojeni nga HuggingFace dhe ekzekutoni modelin:

litert-lm run  \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --prompt="What is the capital of France?"

🔴 E re: Parashikimi me shumë shenja (MTP)

Parashikimi i Shumë-Shenjave (MTP) është një optimizim i performancës që përshpejton ndjeshëm shpejtësitë e dekodimit. MTP rekomandohet universalisht për të gjitha detyrat në backend-et e GPU-së.

Për të aktivizuar MTP në CLI, përdorni flamurin --enable-speculative-decoding=true :

litert-lm run  \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --backend=gpu \
  --enable-speculative-decoding=true \
  --prompt="What is the capital of France?"

Thirrja e Funksionit / Mjetet

Mund të ekzekutoni mjete me paracaktime. Krijoni një preset.py :

import datetime
import base64

def get_current_time() -> str:
    """Returns the current date and time."""
    return datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")

system_instruction = "You are a helpful assistant with access to tools."
tools = [get_current_time]

Ekzekutoni me parazgjedhjen:

litert-lm run  \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --preset=preset.py

Shembuj të udhëzimeve dhe rezultateve interaktive:

> what will the time be in two hours?
[tool_call] {"arguments": {}, "name": "get_current_time"}
[tool_response] {"name": "get_current_time", "response": "2026-03-25 21:54:07"}
The current time is 2026-03-25 21:54:07.

In two hours, it will be **2026-03-25 23:54:07**.

Çfarë po ndodh këtu?

Kur bëni një pyetje që kërkon informacion të jashtëm (si koha aktuale), modeli e njeh se duhet të thërrasë një mjet.

  1. Modeli lëshon tool_call : Modeli nxjerr një kërkesë JSON për të thirrur funksionin get_current_time .
  2. Mjeti i Ekzekutimit të CLI : CLI i LiteRT-LM kap këtë thirrje dhe ekzekuton funksionin përkatës Python të përcaktuar në preset.py tuaj.
  3. CLI dërgon tool_response : CLI e dërgon rezultatin përsëri te modeli.
  4. Modeli Gjeneron Përgjigjen Përfundimtare : Modeli përdor përgjigjen e mjetit për të llogaritur dhe gjeneruar përgjigjen përfundimtare për përdoruesin.

Ky cikli "Thirrje Funksioni" ndodh automatikisht brenda CLI-së, duke ju lejuar të plotësoni LLM-të lokale me aftësi Python pa shkruar ndonjë kod kompleks orkestrimi.

Të njëjtat aftësi janë të disponueshme nga API-të Python , C++ dhe Kotlin .

Duke u çinstaluar

Për të çinstaluar litert-lm :

Nëse përdorni uvx (Metoda 1)

Nuk kërkohet asnjë veprim. uvx ekzekutohet nga një memorje e përkohshme dhe nuk instalohet përgjithmonë.

Nëse instalohet me uv (Metoda 2)

uv tool uninstall litert-lm

Nëse instalohet me pip (Metoda 3)

pip uninstall litert-lm