CLI de LiteRT-LM

La interfaz de línea de comandos (CLI) te permite probar modelos de inmediato sin necesidad de escribir código.

Plataformas compatibles:

  • Linux
  • macOS
  • Windows
  • Raspberry Pi

Instalación

Ejecuta litert-lm de inmediato sin instalarlo de forma permanente. Requiere uv.

Puedes anteponer uvx a cualquier comando litert-lm para ejecutarlo a pedido:

uvx litert-lm run --help

Método 2: uv (instalación persistente)

Instala litert-lm como un objeto binario para todo el sistema. Requiere uv.

uv tool install litert-lm

Método 3: pip

Instalación estándar en un entorno virtual. Usar --upgrade garantiza que obtendrás la versión más reciente, incluso si ya se instaló una versión anterior.

python3 -m venv .venv
source .venv/bin/activate
pip install --upgrade litert-lm

Actualizándose

Para actualizar litert-lm a la versión más reciente, haz lo siguiente:

Si usas uvx (método 1)

No se requiere ninguna acción. uvx ejecuta automáticamente la versión más reciente.

Si se instaló con uv (método 2)

uv tool upgrade litert-lm

Si se instaló con pip (método 3)

Activa tu entorno virtual y ejecuta el siguiente comando:

pip install --upgrade litert-lm

Chat

Descarga el modelo de Hugging Face y ejecútalo:

litert-lm run  \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --prompt="What is the capital of France?"

🔴 Novedad: Multi-Token Prediction (MTP)

La predicción de varios tokens (MTP) es una optimización del rendimiento que acelera significativamente las velocidades de decodificación. Se recomienda el MTP de forma universal para todas las tareas en los backends de GPU.

Para habilitar MTP en la CLI, usa la marca --enable-speculative-decoding=true:

litert-lm run  \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --backend=gpu \
  --enable-speculative-decoding=true \
  --prompt="What is the capital of France?"

Llamadas a funciones o herramientas

Puedes ejecutar herramientas con parámetros de configuración predeterminados. Crear un preset.py:

import datetime
import base64

def get_current_time() -> str:
    """Returns the current date and time."""
    return datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")

system_instruction = "You are a helpful assistant with access to tools."
tools = [get_current_time]

Ejecuta con el valor preestablecido:

litert-lm run  \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --preset=preset.py

Ejemplos de instrucciones y resultados interactivos:

> what will the time be in two hours?
[tool_call] {"arguments": {}, "name": "get_current_time"}
[tool_response] {"name": "get_current_time", "response": "2026-03-25 21:54:07"}
The current time is 2026-03-25 21:54:07.

In two hours, it will be **2026-03-25 23:54:07**.

¿Qué está pasando aquí?

Cuando haces una pregunta que requiere información externa (como la hora actual), el modelo reconoce que debe llamar a una herramienta.

  1. El modelo emite tool_call: El modelo genera una solicitud JSON para llamar a la función get_current_time.
  2. CLI Executes Tool: La CLI de LiteRT-LM intercepta esta llamada y ejecuta la función de Python correspondiente definida en tu preset.py.
  3. La CLI envía tool_response: La CLI envía el resultado al modelo.
  4. El modelo genera la respuesta final: El modelo usa la respuesta de la herramienta para calcular y generar la respuesta final para el usuario.

Este bucle de "llamada a funciones" se produce automáticamente dentro de la CLI, lo que te permite aumentar los LLM locales con capacidades de Python sin escribir ningún código de orquestación complejo.

Las mismas capacidades están disponibles en las APIs de Python, C++ y Kotlin.

Desinstalando

Sigue estos pasos para desinstalar litert-lm:

Si usas uvx (método 1)

No se requiere ninguna acción. uvx se ejecuta desde una caché temporal y no se instala de forma permanente.

Si se instaló con uv (método 2)

uv tool uninstall litert-lm

Si se instaló con pip (método 3)

pip uninstall litert-lm