LiteRT-LM CLI

コマンドライン インターフェース(CLI)を使用すると、コードを記述せずに モデルをすぐにテストできます。

サポートされるプラットフォーム:

  • Linux
  • macOS
  • Windows
  • Raspberry Pi

インストール

litert-lm を永続的にインストールせずにすぐに実行します。 uv が必要です。

任意の litert-lm コマンドの先頭に uvx を付けて、オンデマンドで実行できます。

uvx litert-lm run --help

方法 2: uv(永続的なインストール)

litert-lm をシステム全体のバイナリとしてインストールします。uv が必要です。

uv tool install litert-lm

方法 3: pip

仮想環境内での標準インストール。--upgrade を使用すると、以前のバージョンがすでにインストールされている場合でも、最新バージョンを取得できます。

python3 -m venv .venv
source .venv/bin/activate
pip install --upgrade litert-lm

アップグレード

litert-lm を最新バージョンにアップグレードするには:

uvx を使用している場合(方法 1)

対応は不要です。uvx は自動的に最新バージョンを実行します。

uv でインストールした場合(方法 2)

uv tool upgrade litert-lm

pip でインストールした場合(方法 3)

仮想環境を有効にして、次を実行します。

pip install --upgrade litert-lm

チャット

HuggingFace からダウンロードしてモデルを実行します。

litert-lm run  \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --prompt="What is the capital of France?"

🔴 新機能: マルチトークン予測(MTP)

マルチトークン予測(MTP)は、デコード速度を大幅に向上させるパフォーマンス最適化です。MTP は、GPU バックエンドのすべてのタスクで推奨されます。

CLI で MTP を有効にするには、--enable-speculative-decoding=true フラグを使用します。

litert-lm run  \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --backend=gpu \
  --enable-speculative-decoding=true \
  --prompt="What is the capital of France?"

関数呼び出し / ツール

プリセットを使用してツールを実行できます。preset.py を作成します。

import datetime
import base64

def get_current_time() -> str:
    """Returns the current date and time."""
    return datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")

system_instruction = "You are a helpful assistant with access to tools."
tools = [get_current_time]

プリセットを使用して実行します。

litert-lm run  \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --preset=preset.py

プロンプトとインタラクティブ出力の例:

> what will the time be in two hours?
[tool_call] {"arguments": {}, "name": "get_current_time"}
[tool_response] {"name": "get_current_time", "response": "2026-03-25 21:54:07"}
The current time is 2026-03-25 21:54:07.

In two hours, it will be **2026-03-25 23:54:07**.

ここで何が起きているのか

外部情報(現在時刻など)が必要な質問をすると、モデルはツールを呼び出す必要があることを認識します。

  1. モデルが tool_call を出力: モデルは、get_current_time 関数を呼び出す JSON リクエストを出力します。
  2. CLI がツールを実行: LiteRT-LM CLI はこの呼び出しをインターセプトし、preset.py で定義されている対応する Python 関数を実行します。
  3. CLI が tool_response を送信: CLI は結果をモデルに返します。
  4. モデルが最終的な回答を生成: モデルはツール レスポンスを使用して、ユーザーに対する最終的な回答を計算して生成します。

この「関数呼び出し」ループは CLI 内で自動的に行われるため、複雑なオーケストレーション コードを記述せずに、ローカル LLM を Python 機能で拡張できます。

PythonC++、 およびKotlin API からも同じ機能を利用できます。

アンインストール

litert-lm をアンインストールするには:

uvx を使用している場合(方法 1)

対応は不要です。uvx は一時キャッシュから実行され、永続的にインストールされません。

uv でインストールした場合(方法 2)

uv tool uninstall litert-lm

pip でインストールした場合(方法 3)

pip uninstall litert-lm