コマンドライン インターフェース(CLI)を使用すると、コードを記述せずに モデルをすぐにテストできます。
サポートされるプラットフォーム:
- Linux
- macOS
- Windows
- Raspberry Pi
インストール
方法 1: uvx(クイック テストにおすすめ)
litert-lm を永続的にインストールせずにすぐに実行します。
uv が必要です。
任意の litert-lm コマンドの先頭に
uvx を付けて、オンデマンドで実行できます。
uvx litert-lm run --help
方法 2: uv(永続的なインストール)
litert-lm をシステム全体のバイナリとしてインストールします。uv が必要です。
uv tool install litert-lm
方法 3: pip
仮想環境内での標準インストール。--upgrade を使用すると、以前のバージョンがすでにインストールされている場合でも、最新バージョンを取得できます。
python3 -m venv .venv
source .venv/bin/activate
pip install --upgrade litert-lm
アップグレード
litert-lm を最新バージョンにアップグレードするには:
uvx を使用している場合(方法 1)
対応は不要です。uvx は自動的に最新バージョンを実行します。
uv でインストールした場合(方法 2)
uv tool upgrade litert-lm
pip でインストールした場合(方法 3)
仮想環境を有効にして、次を実行します。
pip install --upgrade litert-lm
チャット
HuggingFace からダウンロードしてモデルを実行します。
litert-lm run \
--from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
gemma-4-E2B-it.litertlm \
--prompt="What is the capital of France?"
🔴 新機能: マルチトークン予測(MTP)
マルチトークン予測(MTP)は、デコード速度を大幅に向上させるパフォーマンス最適化です。MTP は、GPU バックエンドのすべてのタスクで推奨されます。
CLI で MTP を有効にするには、--enable-speculative-decoding=true フラグを使用します。
litert-lm run \
--from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
gemma-4-E2B-it.litertlm \
--backend=gpu \
--enable-speculative-decoding=true \
--prompt="What is the capital of France?"
関数呼び出し / ツール
プリセットを使用してツールを実行できます。preset.py を作成します。
import datetime
import base64
def get_current_time() -> str:
"""Returns the current date and time."""
return datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")
system_instruction = "You are a helpful assistant with access to tools."
tools = [get_current_time]
プリセットを使用して実行します。
litert-lm run \
--from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
gemma-4-E2B-it.litertlm \
--preset=preset.py
プロンプトとインタラクティブ出力の例:
> what will the time be in two hours?
[tool_call] {"arguments": {}, "name": "get_current_time"}
[tool_response] {"name": "get_current_time", "response": "2026-03-25 21:54:07"}
The current time is 2026-03-25 21:54:07.
In two hours, it will be **2026-03-25 23:54:07**.
ここで何が起きているのか
外部情報(現在時刻など)が必要な質問をすると、モデルはツールを呼び出す必要があることを認識します。
- モデルが
tool_callを出力: モデルは、get_current_time関数を呼び出す JSON リクエストを出力します。 - CLI がツールを実行: LiteRT-LM CLI はこの呼び出しをインターセプトし、
preset.pyで定義されている対応する Python 関数を実行します。 - CLI が
tool_responseを送信: CLI は結果をモデルに返します。 - モデルが最終的な回答を生成: モデルはツール レスポンスを使用して、ユーザーに対する最終的な回答を計算して生成します。
この「関数呼び出し」ループは CLI 内で自動的に行われるため、複雑なオーケストレーション コードを記述せずに、ローカル LLM を Python 機能で拡張できます。
Python、C++、 およびKotlin API からも同じ機能を利用できます。
アンインストール
litert-lm をアンインストールするには:
uvx を使用している場合(方法 1)
対応は不要です。uvx は一時キャッシュから実行され、永続的にインストールされません。
uv でインストールした場合(方法 2)
uv tool uninstall litert-lm
pip でインストールした場合(方法 3)
pip uninstall litert-lm