CLI do LiteRT-LM

A interface de linha de comando (CLI) permite testar modelos imediatamente sem necessidade de código.

Plataformas compatíveis:

  • Linux
  • macOS
  • Windows (via WSL)
  • Raspberry Pi

Instalação

Instala litert-lm como um binário em todo o sistema. Requer uv.

uv tool install litert-lm-nightly

Método 2: pip

Instalação padrão em um ambiente virtual.

python3 -m venv .venv
source .venv/bin/activate
pip install litert-lm-nightly

Chat

Faça o download do HuggingFace e execute o modelo:

litert-lm run  \
  --from-huggingface-repo=google/gemma-3n-E2B-it-litert-lm \
  gemma-3n-E2B-it-int4 \
  --prompt="What is the capital of France?"

Chamada de função / ferramentas

É possível executar ferramentas com predefinições. Crie uma preset.py:

import datetime
import base64

def get_current_time() -> str:
    """Returns the current date and time."""
    return datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")

system_instruction = "You are a helpful assistant with access to tools."
tools = [get_current_time]

Executar com predefinição:

litert-lm run  \
  --from-huggingface-repo=google/gemma-3n-E2B-it-litert-lm \
  gemma-3n-E2B-it-int4 \
  --preset=preset.py

Exemplos de comandos e saída interativa:

> what will the time be in two hours?
[tool_call] {"arguments": {}, "name": "get_current_time"}
[tool_response] {"name": "get_current_time", "response": "2026-03-25 21:54:07"}
The current time is 2026-03-25 21:54:07.

In two hours, it will be **2026-03-25 23:54:07**.

O que está acontecendo aqui?

Quando você faz uma pergunta que exige informações externas (como a hora atual), o modelo reconhece que precisa chamar uma ferramenta.

  1. O modelo emite tool_call: o modelo gera uma solicitação JSON para chamar a função get_current_time.
  2. A CLI executa a ferramenta: a CLI LiteRT-LM intercepta essa chamada e executa a função Python correspondente definida em preset.py.
  3. A CLI envia tool_response: a CLI envia o resultado de volta ao modelo.
  4. O modelo gera a resposta final: o modelo usa a resposta da ferramenta para calcular e gerar a resposta final para o usuário.

Esse loop de "chamada de função" acontece automaticamente na CLI, permitindo que você aumente os LLMs locais com recursos do Python sem escrever nenhum código de orquestração complexo.

Os mesmos recursos estão disponíveis nas APIs Python, C++ e Kotlin.