Google AI Edge Portal のご紹介: エッジ AI を大規模にベンチマークします。限定公開プレビュー中にアクセスをリクエストするには、登録してください。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

LiteRT-LM CLI

コマンドラインインターフェース（CLI）を使用すると、コードを記述せずに モデルをすぐにテストできます。

サポートされるプラットフォーム:

Linux
macOS
Windows
Raspberry Pi

インストール

方法 1: `uvx`（クイックテストにおすすめ）

litert-lm を永続的にインストールせずにすぐに実行します。 uv が必要です。

任意の litert-lm コマンドの先頭に uvx を付けて、オンデマンドで実行できます。

uvx litert-lm run --help

方法 2: `uv`（永続的なインストール）

litert-lm をシステム全体のバイナリとしてインストールします。uv が必要です。

uv tool install litert-lm

方法 3: `pip`

仮想環境内での標準インストール。--upgrade を使用すると、以前のバージョンがすでにインストールされている場合でも、最新バージョンを取得できます。

python3 -m venv .venv
source .venv/bin/activate
pip install --upgrade litert-lm

アップグレード

litert-lm を最新バージョンにアップグレードするには:

`uvx` を使用している場合（方法 1）

対応は不要です。uvx は自動的に最新バージョンを実行します。

`uv` でインストールした場合（方法 2）

uv tool upgrade litert-lm

`pip` でインストールした場合（方法 3）

仮想環境を有効にして、次を実行します。

pip install --upgrade litert-lm

チャット

HuggingFace からダウンロードしてモデルを実行します。

litert-lm run  \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --prompt="What is the capital of France?"

🔴 新機能: マルチトークン予測（MTP）

マルチトークン予測（MTP）は、デコード速度を大幅に向上させるパフォーマンス最適化です。MTP は、GPU バックエンドのすべてのタスクで推奨されます。

CLI で MTP を有効にするには、--enable-speculative-decoding=true フラグを使用します。

litert-lm run  \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --backend=gpu \
  --enable-speculative-decoding=true \
  --prompt="What is the capital of France?"

関数呼び出し / ツール

プリセットを使用してツールを実行できます。preset.py を作成します。

import datetime
import base64

def get_current_time() -> str:
    """Returns the current date and time."""
    return datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")

system_instruction = "You are a helpful assistant with access to tools."
tools = [get_current_time]

プリセットを使用して実行します。

litert-lm run  \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --preset=preset.py

プロンプトとインタラクティブ出力の例:

> what will the time be in two hours?
[tool_call] {"arguments": {}, "name": "get_current_time"}
[tool_response] {"name": "get_current_time", "response": "2026-03-25 21:54:07"}
The current time is 2026-03-25 21:54:07.

In two hours, it will be **2026-03-25 23:54:07**.

ここで何が起きているのか

外部情報（現在時刻など）が必要な質問をすると、モデルはツールを呼び出す必要があることを認識します。

モデルが tool_call を出力: モデルは、get_current_time 関数を呼び出す JSON リクエストを出力します。
CLI がツールを実行: LiteRT-LM CLI はこの呼び出しをインターセプトし、preset.py で定義されている対応する Python 関数を実行します。
CLI が tool_response を送信: CLI は結果をモデルに返します。
モデルが最終的な回答を生成: モデルはツールレスポンスを使用して、ユーザーに対する最終的な回答を計算して生成します。

この「関数呼び出し」ループは CLI 内で自動的に行われるため、複雑なオーケストレーションコードを記述せずに、ローカル LLM を Python 機能で拡張できます。

Python、C++、およびKotlin API からも同じ機能を利用できます。

アンインストール

litert-lm をアンインストールするには:

`uvx` を使用している場合（方法 1）

対応は不要です。uvx は一時キャッシュから実行され、永続的にインストールされません。

`uv` でインストールした場合（方法 2）

uv tool uninstall litert-lm

`pip` でインストールした場合（方法 3）

pip uninstall litert-lm

LiteRT-LM CLI

インストール

方法 1: uvx（クイック テストにおすすめ）

方法 2: uv（永続的なインストール）

方法 3: pip

アップグレード

uvx を使用している場合（方法 1）

uv でインストールした場合（方法 2）

pip でインストールした場合（方法 3）

チャット

🔴 新機能: マルチトークン予測（MTP）

関数呼び出し / ツール

ここで何が起きているのか

アンインストール

uvx を使用している場合（方法 1）

uv でインストールした場合（方法 2）

pip でインストールした場合（方法 3）

方法 1: `uvx`（クイックテストにおすすめ）

方法 2: `uv`（永続的なインストール）

方法 3: `pip`

`uvx` を使用している場合（方法 1）

`uv` でインストールした場合（方法 2）

`pip` でインストールした場合（方法 3）

`uvx` を使用している場合（方法 1）

`uv` でインストールした場合（方法 2）

`pip` でインストールした場合（方法 3）