CLI LiteRT-LM

Antarmuka Command Line (CLI) memungkinkan Anda menguji model secara langsung—tidak memerlukan kode.

Platform yang Didukung:

  • Linux
  • macOS
  • Windows
  • Raspberry Pi

Penginstalan

Jalankan litert-lm segera tanpa menginstalnya secara permanen. Memerlukan uv.

Anda dapat menambahkan awalan uvx ke perintah litert-lm untuk menjalankannya sesuai permintaan:

uvx litert-lm run --help

Metode 2: uv (Penginstalan persisten)

Menginstal litert-lm sebagai biner seluruh sistem. Memerlukan uv.

uv tool install litert-lm

Metode 3: pip

Penginstalan standar dalam lingkungan virtual. Menggunakan --upgrade memastikan Anda mendapatkan versi terbaru meskipun versi sebelumnya sudah diinstal.

python3 -m venv .venv
source .venv/bin/activate
pip install --upgrade litert-lm

Mengupgrade

Untuk mengupgrade litert-lm ke versi terbaru:

Jika menggunakan uvx (Metode 1)

Tidak perlu tindakan. uvx otomatis menjalankan versi terbaru.

Jika diinstal dengan uv (Metode 2)

uv tool upgrade litert-lm

Jika diinstal dengan pip (Metode 3)

Aktifkan lingkungan virtual Anda dan jalankan:

pip install --upgrade litert-lm

Chat

Download dari HuggingFace dan jalankan model:

litert-lm run  \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --prompt="What is the capital of France?"

🔴 Baru: Prediksi Multi-Token (MTP)

Prediksi Multi-Token (MTP) adalah pengoptimalan performa yang mempercepat kecepatan dekode secara signifikan. MTP direkomendasikan secara universal untuk semua tugas di backend GPU.

Untuk mengaktifkan MTP di CLI, gunakan flag --enable-speculative-decoding=true:

litert-lm run  \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --backend=gpu \
  --enable-speculative-decoding=true \
  --prompt="What is the capital of France?"

Pemanggilan Fungsi / Alat

Anda dapat menjalankan alat dengan preset. Buat preset.py:

import datetime
import base64

def get_current_time() -> str:
    """Returns the current date and time."""
    return datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")

system_instruction = "You are a helpful assistant with access to tools."
tools = [get_current_time]

Jalankan dengan preset:

litert-lm run  \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --preset=preset.py

Contoh perintah dan output interaktif:

> what will the time be in two hours?
[tool_call] {"arguments": {}, "name": "get_current_time"}
[tool_response] {"name": "get_current_time", "response": "2026-03-25 21:54:07"}
The current time is 2026-03-25 21:54:07.

In two hours, it will be **2026-03-25 23:54:07**.

Apa yang Terjadi di Sini?

Saat Anda mengajukan pertanyaan yang memerlukan informasi eksternal (seperti waktu saat ini), model akan mengenali bahwa model perlu memanggil alat.

  1. Model Mengirimkan tool_call: Model menampilkan permintaan JSON untuk memanggil fungsi get_current_time.
  2. CLI Menjalankan Alat: CLI LiteRT-LM mencegat panggilan ini dan menjalankan fungsi Python yang sesuai yang ditentukan dalam preset.py.
  3. CLI Mengirimkan tool_response: CLI mengirimkan hasilnya kembali ke model.
  4. Model Menghasilkan Jawaban Akhir: Model menggunakan respons alat untuk menghitung dan menghasilkan jawaban akhir bagi pengguna.

Loop "Pemanggilan Fungsi" ini terjadi secara otomatis dalam CLI, sehingga Anda dapat menambah LLM lokal dengan kemampuan Python tanpa menulis kode orkestrasi yang kompleks.

Kemampuan yang sama tersedia dari Python, C++, dan Kotlin API.

Mencopot pemasangan

Untuk mencopot pemasangan litert-lm:

Jika menggunakan uvx (Metode 1)

Tidak perlu tindakan. uvx berjalan dari cache sementara dan tidak diinstal secara permanen.

Jika diinstal dengan uv (Metode 2)

uv tool uninstall litert-lm

Jika diinstal dengan pip (Metode 3)

pip uninstall litert-lm