CLI do LiteRT-LM

A interface de linha de comando (CLI, na sigla em inglês) do LiteRT-LM permite executar modelos e interagir com eles usando o terminal.

Instalação

Siga o guia de instalação do uv para instalar uv.

uv tool install litert-lm-nightly

Usar pip

python3 -m venv .venv
source .venv/bin/activate
pip install litert-lm-nightly

Chat

Execute o modelo usando a CLI:

litert-lm run google/gemma-3n-E2B-it-litert-lm/gemma-3n-E2B-it-int4 --prompt="What is the capital of France?"

Chamada de função / ferramentas

É possível executar ferramentas com predefinições. Crie um preset.py:

import datetime
import base64

def get_current_time() -> str:
    """Returns the current date and time."""
    return datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")

system_instruction = "You are a helpful assistant with access to tools."
tools = [get_current_time]

Executar com predefinição:

litert-lm run google/gemma-3n-E2B-it-litert-lm/gemma-3n-E2B-it-int4 --preset=preset.py

Exemplos de comandos e saída interativa:

> what will the time be in two hours?
[tool_call] {"arguments": {}, "name": "get_current_time"}
[tool_response] {"name": "get_current_time", "response": "2026-03-25 21:54:07"}
The current time is 2026-03-25 21:54:07.

In two hours, it will be **2026-03-25 23:54:07**.

O que está acontecendo aqui?

Quando você faz uma pergunta que exige informações externas (como a hora atual), o modelo reconhece que precisa chamar uma ferramenta.

  1. O modelo emite tool_call: o modelo gera uma solicitação JSON para chamar a função get_current_time.
  2. A CLI executa a ferramenta: a CLI do LiteRT-LM intercepta essa chamada e executa a função Python correspondente definida no seu preset.py.
  3. A CLI envia tool_response: a CLI envia o resultado de volta ao modelo.
  4. O modelo gera a resposta final: o modelo usa a resposta da ferramenta para calcular e gerar a resposta final para o usuário.

Esse loop de "chamada de função" acontece automaticamente na CLI, permitindo aumentar os LLMs locais com recursos do Python sem escrever nenhum código de orquestração complexo.

Os mesmos recursos estão disponíveis nas APIs Python, C++ e Kotlin.