A interface de linha de comando (CLI, na sigla em inglês) do LiteRT-LM permite executar modelos e interagir com eles usando o terminal.
Instalação
Usar uv (recomendado)
Siga o guia de instalação do uv para instalar uv.
uv tool install litert-lm-nightly
Usar pip
python3 -m venv .venv
source .venv/bin/activate
pip install litert-lm-nightly
Chat
Execute o modelo usando a CLI:
litert-lm run google/gemma-3n-E2B-it-litert-lm/gemma-3n-E2B-it-int4 --prompt="What is the capital of France?"
Chamada de função / ferramentas
É possível executar ferramentas com predefinições. Crie um preset.py:
import datetime
import base64
def get_current_time() -> str:
"""Returns the current date and time."""
return datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")
system_instruction = "You are a helpful assistant with access to tools."
tools = [get_current_time]
Executar com predefinição:
litert-lm run google/gemma-3n-E2B-it-litert-lm/gemma-3n-E2B-it-int4 --preset=preset.py
Exemplos de comandos e saída interativa:
> what will the time be in two hours?
[tool_call] {"arguments": {}, "name": "get_current_time"}
[tool_response] {"name": "get_current_time", "response": "2026-03-25 21:54:07"}
The current time is 2026-03-25 21:54:07.
In two hours, it will be **2026-03-25 23:54:07**.
O que está acontecendo aqui?
Quando você faz uma pergunta que exige informações externas (como a hora atual), o modelo reconhece que precisa chamar uma ferramenta.
- O modelo emite
tool_call: o modelo gera uma solicitação JSON para chamar a funçãoget_current_time. - A CLI executa a ferramenta: a CLI do LiteRT-LM intercepta essa chamada e executa a função Python correspondente definida no seu
preset.py. - A CLI envia
tool_response: a CLI envia o resultado de volta ao modelo. - O modelo gera a resposta final: o modelo usa a resposta da ferramenta para calcular e gerar a resposta final para o usuário.
Esse loop de "chamada de função" acontece automaticamente na CLI, permitindo aumentar os LLMs locais com recursos do Python sem escrever nenhum código de orquestração complexo.
Os mesmos recursos estão disponíveis nas APIs Python, C++ e Kotlin.