LiteRT-LM の概要

LiteRT-LM は、エッジ デバイスで高性能のクロスプラットフォーム LLM デプロイを実現するように設計された、本番環境対応のオープンソース推論フレームワークです。

主な機能

  • クロス プラットフォームのサポート: Android、iOS、ウェブ、パソコンで実行できます。
  • ハードウェア アクセラレーション:
    • GPU: ML Drift を搭載し、ML モデルと生成 AI モデルの両方をサポートします。
    • NPU: Qualcomm および MediaTek チップセット搭載デバイスでの推論の高速化(早期アクセス)。
  • マルチモーダリティ: ビジョンと音声の入力をサポートします。
  • ツールの使用: エージェント ワークフローの関数呼び出しをサポートします。
  • 幅広いモデルのサポート: Gemma、Llama、Phi-4、Qwen などを実行します。

サポートされているバックエンドとプラットフォーム

プラットフォーム CPU のサポート GPU のサポート NPU サポート
Android
iOS -
macOS -
Windows -
Linux -
Embedded - -

クイック スタート

まずはお試しになりますか?完全な設定を行う前に、デスクトップ用の事前構築済みバイナリまたはモバイル用の Google AI Edge Gallery アプリを使用して、LiteRT-LM をすぐに実行できます。

モバイルアプリ

Google AI Edge ギャラリーは、最先端の生成 AI モデルの機能を直接スマートフォンから利用できるデモアプリです。LiteRT-LM を搭載しています。

Desktop CLI

lit バイナリをダウンロードしたら、lit を実行してオプションを表示します。

プラットフォームを選択する

言語 ステータス 最適な用途 ドキュメント
Kotlin
安定版
ネイティブ Android アプリと JVM ベースのデスクトップ ツール。コルーチン向けに最適化されています。 Kotlin API リファレンス
C++
安定版
高パフォーマンスのクロス プラットフォーム コアロジックと組み込みシステム。 C++ API リファレンス
Swift 🚀
開発中
専用の Metal サポートによる iOS と macOS のネイティブ統合。 近日提供予定
Python 🚀
開発中
迅速なプロトタイピング、開発、デスクトップ側のスクリプト作成。 近日提供予定

サポートされているモデル

次の表は、LiteRT-LM で完全にサポートされ、テストされているモデルの例を示しています。

注: 「Chat Ready」は、チャット用に調整されたモデル(指示チューニング)を示します。「ベース」モデルは、特定の補完に使用する場合を除き、最適なチャット パフォーマンスを実現するためにファインチューニングが必要になることがよくあります。

モデル タイプ 量子化 コンテキストの長さ サイズ(MB) ダウンロード
Gemma
Gemma3-1B チャットの準備完了 4 ビット / チャンネル 4096 557 ダウンロード
Gemma-3n-E2B チャットの準備完了 4 ビット / チャンネル 4096 2965 ダウンロード
Gemma-3n-E4B チャットの準備完了 4 ビット / チャンネル 4096 4235 ダウンロード
FunctionGemma-270M ベース(ファインチューニングが必要) チャンネルあたり 8 ビット 1024 288 ファインチューニング ガイド
↪ TinyGarden-270M デモ チャンネルあたり 8 ビット 1024 288 ダウンロード / アプリを試す
Llama
Llama-3.2-1B-Instruct チャットの準備完了 チャンネルあたり 8 ビット 8192 1162 ダウンロード
Llama-3.2-3B-Instruct チャットの準備完了 チャンネルあたり 8 ビット 8192 2893 ダウンロード
ファイ
phi-4-mini チャットの準備完了 チャンネルあたり 8 ビット 4096 3728 ダウンロード
Qwen
qwen2.5-1.5b チャットの準備完了 チャンネルあたり 8 ビット 4096 1524 ダウンロード

パフォーマンス

以下に、さまざまなデバイスで各モデルを実行した場合のパフォーマンスの数値を示します。ベンチマークは、1,024 個のトークンをプリフィルし、256 個のトークンをデコードして測定されます(Android デバイスではパフォーマンス ロックがオンになっています)。

モデル デバイス バックエンド プリフィル(トークン/秒) デコード(トークン/秒) コンテキストのサイズ
Gemma3-1B MacBook Pro
(2023 年 M3)
CPU 423 67 4096
Gemma3-1B Samsung S24
(Ultra)
CPU 243 44 4096
Gemma3-1B Samsung S24
(Ultra)
GPU 1877 45 4096
Gemma3-1B Samsung S25
(Ultra)
NPU 5837 85 1280
Gemma-3n-E2B MacBook Pro
(2023 年 M3)
CPU 233 28 4096
Gemma-3n-E2B Samsung S24
(Ultra)
CPU 111 16 4096
Gemma-3n-E2B Samsung S24
(Ultra)
GPU 816 16 4096
Gemma-3n-E4B MacBook Pro
(2023 年 M3)
CPU 170 20 4096
Gemma-3n-E4B Samsung S24
(Ultra)
CPU 74 9 4096
Gemma-3n-E4B Samsung S24
(Ultra)
GPU 548 9 4096
FunctionGemma Samsung S25
(Ultra)
CPU 1718 126 1024

注: 特定のモデルが特定のデバイスに初めて読み込まれるときは、重みが最適化されるため、読み込みに時間がかかります。キャッシュ保存により、後続の読み込みは高速になります。

モデルのホスティングとデプロイ

モデルが「無線」ダウンロードの上限(通常は約 1.5 GB)を超えると、リモート フェッチ戦略が必要になります。

  • Firebase: AndroidiOS で大きなファイルをダウンロードする場合におすすめします。
  • HuggingFace API: HuggingFace API を使用してモデルを直接取得します。

問題の報告

バグが発生した場合や機能リクエストがある場合は、LiteRT-LM GitHub Issues ページをご利用ください。