Interfaccia a riga di comando LiteRT-LM

L'interfaccia a riga di comando (CLI) ti consente di testare immediatamente i modelli, senza bisogno di codice.

Piattaforme supportate:

  • Linux
  • macOS
  • Windows (tramite WSL)
  • Raspberry Pi

Installazione

Installa litert-lm come binario a livello di sistema. Richiede uv.

uv tool install litert-lm-nightly

Metodo 2: pip

Installazione standard all'interno di un ambiente virtuale.

python3 -m venv .venv
source .venv/bin/activate
pip install litert-lm-nightly

Chat

Scarica da Hugging Face ed esegui il modello:

litert-lm run  \
  --from-huggingface-repo=google/gemma-3n-E2B-it-litert-lm \
  gemma-3n-E2B-it-int4 \
  --prompt="What is the capital of France?"

Chiamata di funzione / Strumenti

Puoi eseguire gli strumenti con i preset. Crea un preset.py:

import datetime
import base64

def get_current_time() -> str:
    """Returns the current date and time."""
    return datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")

system_instruction = "You are a helpful assistant with access to tools."
tools = [get_current_time]

Esegui con preset:

litert-lm run  \
  --from-huggingface-repo=google/gemma-3n-E2B-it-litert-lm \
  gemma-3n-E2B-it-int4 \
  --preset=preset.py

Esempi di prompt e output interattivi:

> what will the time be in two hours?
[tool_call] {"arguments": {}, "name": "get_current_time"}
[tool_response] {"name": "get_current_time", "response": "2026-03-25 21:54:07"}
The current time is 2026-03-25 21:54:07.

In two hours, it will be **2026-03-25 23:54:07**.

Che cosa sta succedendo?

Quando poni una domanda che richiede informazioni esterne (come l'ora attuale), il modello riconosce che deve chiamare uno strumento.

  1. Il modello emette tool_call: il modello restituisce una richiesta JSON per chiamare la funzione get_current_time.
  2. CLI Executes Tool: la CLI LiteRT-LM intercetta questa chiamata ed esegue la funzione Python corrispondente definita in preset.py.
  3. CLI Sends tool_response: la CLI invia il risultato al modello.
  4. Il modello genera la risposta finale: il modello utilizza la risposta dello strumento per calcolare e generare la risposta finale per l'utente.

Questo ciclo di "chiamata di funzione" avviene automaticamente all'interno della CLI, consentendoti di aumentare i LLM locali con funzionalità Python senza scrivere codice di orchestrazione complesso.

Le stesse funzionalità sono disponibili dalle API Python, C++ e Kotlin.