A interface de linha de comando (CLI) permite testar modelos imediatamente sem necessidade de código.
Plataformas compatíveis:
- Linux
- macOS
- Windows (via WSL)
- Raspberry Pi
Instalação
Método 1: uv (recomendado)
Instala litert-lm como um binário em todo o sistema. Requer uv.
uv tool install litert-lm-nightly
Método 2: pip
Instalação padrão em um ambiente virtual.
python3 -m venv .venv
source .venv/bin/activate
pip install litert-lm-nightly
Chat
Faça o download do HuggingFace e execute o modelo:
litert-lm run \
--from-huggingface-repo=google/gemma-3n-E2B-it-litert-lm \
gemma-3n-E2B-it-int4 \
--prompt="What is the capital of France?"
Chamada de função / ferramentas
É possível executar ferramentas com predefinições. Crie uma preset.py:
import datetime
import base64
def get_current_time() -> str:
"""Returns the current date and time."""
return datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")
system_instruction = "You are a helpful assistant with access to tools."
tools = [get_current_time]
Executar com predefinição:
litert-lm run \
--from-huggingface-repo=google/gemma-3n-E2B-it-litert-lm \
gemma-3n-E2B-it-int4 \
--preset=preset.py
Exemplos de comandos e saída interativa:
> what will the time be in two hours?
[tool_call] {"arguments": {}, "name": "get_current_time"}
[tool_response] {"name": "get_current_time", "response": "2026-03-25 21:54:07"}
The current time is 2026-03-25 21:54:07.
In two hours, it will be **2026-03-25 23:54:07**.
O que está acontecendo aqui?
Quando você faz uma pergunta que exige informações externas (como a hora atual), o modelo reconhece que precisa chamar uma ferramenta.
- O modelo emite
tool_call: o modelo gera uma solicitação JSON para chamar a funçãoget_current_time. - A CLI executa a ferramenta: a CLI LiteRT-LM intercepta essa chamada e executa a função Python correspondente definida em
preset.py. - A CLI envia
tool_response: a CLI envia o resultado de volta ao modelo. - O modelo gera a resposta final: o modelo usa a resposta da ferramenta para calcular e gerar a resposta final para o usuário.
Esse loop de "chamada de função" acontece automaticamente na CLI, permitindo que você aumente os LLMs locais com recursos do Python sem escrever nenhum código de orquestração complexo.
Os mesmos recursos estão disponíveis nas APIs Python, C++ e Kotlin.