A interface de linha de comando (CLI) permite testar modelos imediatamente, sem necessidade de código.
Plataformas compatíveis :
- Linux
- macOS
- Windows
- Raspberry Pi
Instalação
Método 1: uvx (recomendado para testes rápidos)
Execute o litert-lm imediatamente sem instalar permanentemente. Requer
uv.
Você pode prefixar qualquer comando litert-lm com
uvx para executá-lo sob demanda:
uvx litert-lm run --help
Método 2: uv (instalação persistente)
Instala litert-lm como um binário em todo o sistema. Requer uv.
uv tool install litert-lm
Método 3: pip
Instalação padrão em um ambiente virtual. O uso de --upgrade garante que você tenha a versão mais recente, mesmo que uma versão anterior já esteja instalada.
python3 -m venv .venv
source .venv/bin/activate
pip install --upgrade litert-lm
Upgrade
Para fazer upgrade do litert-lm para a versão mais recente:
Se estiver usando uvx (método 1)
Nenhuma ação é necessária. O uvx executa automaticamente a versão mais recente.
Se instalado com uv (método 2)
uv tool upgrade litert-lm
Se instalado com pip (método 3)
Ative seu ambiente virtual e execute:
pip install --upgrade litert-lm
Chat
Faça o download do HuggingFace e execute o modelo:
litert-lm run \
--from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
gemma-4-E2B-it.litertlm \
--prompt="What is the capital of France?"
🔴 Novo: previsão de vários tokens (MTP)
A previsão de vários tokens (MTP, na sigla em inglês) é uma otimização de desempenho que acelera significativamente as velocidades de decodificação. A MTP é recomendada universalmente para todas as tarefas em back-ends de GPU.
Para ativar a MTP na CLI, use a flag --enable-speculative-decoding=true:
litert-lm run \
--from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
gemma-4-E2B-it.litertlm \
--backend=gpu \
--enable-speculative-decoding=true \
--prompt="What is the capital of France?"
Chamada de função / ferramentas
É possível executar ferramentas com predefinições. Crie um preset.py:
import datetime
import base64
def get_current_time() -> str:
"""Returns the current date and time."""
return datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")
system_instruction = "You are a helpful assistant with access to tools."
tools = [get_current_time]
Executar com predefinição:
litert-lm run \
--from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
gemma-4-E2B-it.litertlm \
--preset=preset.py
Exemplos de comandos e saída interativa:
> what will the time be in two hours?
[tool_call] {"arguments": {}, "name": "get_current_time"}
[tool_response] {"name": "get_current_time", "response": "2026-03-25 21:54:07"}
The current time is 2026-03-25 21:54:07.
In two hours, it will be **2026-03-25 23:54:07**.
O que está acontecendo aqui?
Quando você faz uma pergunta que exige informações externas (como a hora atual), o modelo reconhece que precisa chamar uma ferramenta.
- O modelo emite
tool_call: o modelo gera uma solicitação JSON para chamar a funçãoget_current_time. - A CLI executa a ferramenta: a CLI do LiteRT-LM intercepta essa chamada e executa a função Python correspondente definida no seu
preset.py. - A CLI envia
tool_response: a CLI envia o resultado de volta para o modelo. - O modelo gera a resposta final: o modelo usa a resposta da ferramenta para calcular e gerar a resposta final para o usuário.
Esse loop de "chamada de função" acontece automaticamente na CLI, permitindo aumentar os LLMs locais com recursos do Python sem escrever nenhum código de orquestração complexo.
Os mesmos recursos estão disponíveis nas APIs Python, C++, e Kotlin.
Desinstalando
Para desinstalar litert-lm:
Se estiver usando uvx (método 1)
Nenhuma ação é necessária. O uvx é executado em um cache temporário e não instala permanentemente.
Se instalado com uv (método 2)
uv tool uninstall litert-lm
Se instalado com pip (método 3)
pip uninstall litert-lm