La interfaz de línea de comandos (CLI) te permite probar modelos de inmediato sin necesidad de escribir código.
Plataformas compatibles:
- Linux
- macOS
- Windows (a través de WSL)
- Raspberry Pi
Instalación
Método 1: uv (recomendado)
Instala litert-lm como un objeto binario para todo el sistema. Requiere uv.
uv tool install litert-lm-nightly
Método 2: pip
Instalación estándar en un entorno virtual.
python3 -m venv .venv
source .venv/bin/activate
pip install litert-lm-nightly
Chat
Descarga el modelo de Hugging Face y ejecútalo:
litert-lm run \
--from-huggingface-repo=google/gemma-3n-E2B-it-litert-lm \
gemma-3n-E2B-it-int4 \
--prompt="What is the capital of France?"
Llamadas a funciones o herramientas
Puedes ejecutar herramientas con parámetros de configuración predeterminados. Crear un preset.py:
import datetime
import base64
def get_current_time() -> str:
"""Returns the current date and time."""
return datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")
system_instruction = "You are a helpful assistant with access to tools."
tools = [get_current_time]
Ejecuta con el valor preestablecido:
litert-lm run \
--from-huggingface-repo=google/gemma-3n-E2B-it-litert-lm \
gemma-3n-E2B-it-int4 \
--preset=preset.py
Ejemplos de instrucciones y resultados interactivos:
> what will the time be in two hours?
[tool_call] {"arguments": {}, "name": "get_current_time"}
[tool_response] {"name": "get_current_time", "response": "2026-03-25 21:54:07"}
The current time is 2026-03-25 21:54:07.
In two hours, it will be **2026-03-25 23:54:07**.
¿Qué está pasando aquí?
Cuando haces una pregunta que requiere información externa (como la hora actual), el modelo reconoce que debe llamar a una herramienta.
- El modelo emite
tool_call: El modelo genera una solicitud JSON para llamar a la funciónget_current_time. - CLI Executes Tool: La CLI de LiteRT-LM intercepta esta llamada y ejecuta la función de Python correspondiente definida en tu
preset.py. - La CLI envía
tool_response: La CLI envía el resultado al modelo. - El modelo genera la respuesta final: El modelo usa la respuesta de la herramienta para calcular y generar la respuesta final para el usuario.
Este bucle de "llamada a funciones" se produce automáticamente dentro de la CLI, lo que te permite aumentar los LLM locales con capacidades de Python sin escribir ningún código de orquestación complejo.
Las mismas capacidades están disponibles en las APIs de Python, C++ y Kotlin.