LiteRT-LM は、エッジ デバイスで高性能のクロスプラットフォーム LLM デプロイを実現するように設計された、本番環境対応のオープンソース推論フレームワークです。
主な機能
- クロス プラットフォームのサポート: Android、iOS、ウェブ、パソコンで実行できます。
- ハードウェア アクセラレーション:
- GPU: ML Drift を搭載し、ML モデルと生成 AI モデルの両方をサポートします。
- NPU: Qualcomm および MediaTek チップセット搭載デバイスでの推論の高速化(早期アクセス)。
- マルチモーダリティ: ビジョンと音声の入力をサポートします。
- ツールの使用: エージェント ワークフローの関数呼び出しをサポートします。
- 幅広いモデルのサポート: Gemma、Llama、Phi-4、Qwen などを実行します。
サポートされているバックエンドとプラットフォーム
| プラットフォーム | CPU のサポート | GPU のサポート | NPU サポート |
|---|---|---|---|
| Android | ✅ | ✅ | ✅ |
| iOS | ✅ | ✅ | - |
| macOS | ✅ | ✅ | - |
| Windows | ✅ | ✅ | - |
| Linux | ✅ | ✅ | - |
| Embedded | ✅ | - | - |
クイック スタート
まずはお試しになりますか?完全な設定を行う前に、デスクトップ用の事前構築済みバイナリまたはモバイル用の Google AI Edge Gallery アプリを使用して、LiteRT-LM をすぐに実行できます。
モバイルアプリ
Google AI Edge ギャラリーは、最先端の生成 AI モデルの機能を直接スマートフォンから利用できるデモアプリです。LiteRT-LM を搭載しています。
Desktop CLI
lit バイナリをダウンロードしたら、lit を実行してオプションを表示します。
プラットフォームを選択する
| 言語 | ステータス | 最適な用途 | ドキュメント |
|---|---|---|---|
| Kotlin | ✅ 安定版 |
ネイティブ Android アプリと JVM ベースのデスクトップ ツール。コルーチン向けに最適化されています。 | Kotlin API リファレンス |
| C++ | ✅ 安定版 |
高パフォーマンスのクロス プラットフォーム コアロジックと組み込みシステム。 | C++ API リファレンス |
| Swift | 🚀 開発中 |
専用の Metal サポートによる iOS と macOS のネイティブ統合。 | 近日提供予定 |
| Python | 🚀 開発中 |
迅速なプロトタイピング、開発、デスクトップ側のスクリプト作成。 | 近日提供予定 |
サポートされているモデル
次の表は、LiteRT-LM で完全にサポートされ、テストされているモデルの例を示しています。
注: 「Chat Ready」は、チャット用に調整されたモデル(指示チューニング)を示します。「ベース」モデルは、特定の補完に使用する場合を除き、最適なチャット パフォーマンスを実現するためにファインチューニングが必要になることがよくあります。
| モデル | タイプ | 量子化 | コンテキストの長さ | サイズ(MB) | ダウンロード |
|---|---|---|---|---|---|
| Gemma | |||||
| Gemma3-1B | チャットの準備完了 | 4 ビット / チャンネル | 4096 | 557 | ダウンロード |
| Gemma-3n-E2B | チャットの準備完了 | 4 ビット / チャンネル | 4096 | 2965 | ダウンロード |
| Gemma-3n-E4B | チャットの準備完了 | 4 ビット / チャンネル | 4096 | 4235 | ダウンロード |
| FunctionGemma-270M | ベース(ファインチューニングが必要) | チャンネルあたり 8 ビット | 1024 | 288 | ファインチューニング ガイド |
| ↪ TinyGarden-270M | デモ | チャンネルあたり 8 ビット | 1024 | 288 | ダウンロード / アプリを試す |
| Llama | |||||
| Llama-3.2-1B-Instruct | チャットの準備完了 | チャンネルあたり 8 ビット | 8192 | 1162 | ダウンロード |
| Llama-3.2-3B-Instruct | チャットの準備完了 | チャンネルあたり 8 ビット | 8192 | 2893 | ダウンロード |
| ファイ | |||||
| phi-4-mini | チャットの準備完了 | チャンネルあたり 8 ビット | 4096 | 3728 | ダウンロード |
| Qwen | |||||
| qwen2.5-1.5b | チャットの準備完了 | チャンネルあたり 8 ビット | 4096 | 1524 | ダウンロード |
パフォーマンス
以下に、さまざまなデバイスで各モデルを実行した場合のパフォーマンスの数値を示します。ベンチマークは、1,024 個のトークンをプリフィルし、256 個のトークンをデコードして測定されます(Android デバイスではパフォーマンス ロックがオンになっています)。
| モデル | デバイス | バックエンド | プリフィル(トークン/秒) | デコード(トークン/秒) | コンテキストのサイズ |
|---|---|---|---|---|---|
| Gemma3-1B | MacBook Pro (2023 年 M3) |
CPU | 423 | 67 | 4096 |
| Gemma3-1B | Samsung S24 (Ultra) |
CPU | 243 | 44 | 4096 |
| Gemma3-1B | Samsung S24 (Ultra) |
GPU | 1877 | 45 | 4096 |
| Gemma3-1B | Samsung S25 (Ultra) |
NPU | 5837 | 85 | 1280 |
| Gemma-3n-E2B | MacBook Pro (2023 年 M3) |
CPU | 233 | 28 | 4096 |
| Gemma-3n-E2B | Samsung S24 (Ultra) |
CPU | 111 | 16 | 4096 |
| Gemma-3n-E2B | Samsung S24 (Ultra) |
GPU | 816 | 16 | 4096 |
| Gemma-3n-E4B | MacBook Pro (2023 年 M3) |
CPU | 170 | 20 | 4096 |
| Gemma-3n-E4B | Samsung S24 (Ultra) |
CPU | 74 | 9 | 4096 |
| Gemma-3n-E4B | Samsung S24 (Ultra) |
GPU | 548 | 9 | 4096 |
| FunctionGemma | Samsung S25 (Ultra) |
CPU | 1718 | 126 | 1024 |
注: 特定のモデルが特定のデバイスに初めて読み込まれるときは、重みが最適化されるため、読み込みに時間がかかります。キャッシュ保存により、後続の読み込みは高速になります。
モデルのホスティングとデプロイ
モデルが「無線」ダウンロードの上限(通常は約 1.5 GB)を超えると、リモート フェッチ戦略が必要になります。
- Firebase: Android と iOS で大きなファイルをダウンロードする場合におすすめします。
- HuggingFace API: HuggingFace API を使用してモデルを直接取得します。
問題の報告
バグが発生した場合や機能リクエストがある場合は、LiteRT-LM GitHub Issues ページをご利用ください。