LiteRT は、モバイル、デスクトップ、ウェブ プラットフォーム全体で生成 AI モデルの高性能なデプロイを実現します。LiteRT は、CPU、GPU、NPU のハードウェア アクセラレーションをシームレスに活用することで、オンデバイスの GenAI 推論に最先端のパフォーマンスを提供します。
次の統合型テクノロジ スタックを使用して、複雑な GenAI モデルをデプロイできます。
Torch Generative API: PyTorch GenAI モデルの作成と変換を行うための AI Edge Torch ライブラリ内の Python モジュール。デバイスでの高性能な実行を保証する最適化されたビルディング ブロックを提供します。詳細については、PyTorch GenAI モデルを変換するをご覧ください。
LiteRT-LM: LiteRT の上に構築された専用のオーケストレーション レイヤ。セッションのクローニング、kv-cache 管理、プロンプトのキャッシュ保存/スコアリング、ステートフル推論など、LLM 固有の複雑さを管理します。詳細については、LiteRT-LM GitHub リポジトリをご覧ください。
LiteRT Converter と Runtime: 効率的なモデル変換、ランタイム実行、最適化を実現する基盤となるエンジン。CPU、GPU、NPU 全体で高度なハードウェア アクセラレーションを可能にします。
LiteRT GenAI モデル動物園
LiteRT は、LiteRT Hugging Face コミュニティで、人気のあるオープンウェイト モデルのコレクションをサポートしています。これらのモデルは、すぐにデプロイできるように事前に変換およびチューニングされているため、CPU、GPU、NPU のピーク パフォーマンスをすぐに活用できます。
- Gemma ファミリー
- Gemma 3 270M
- Gemma 3 1B
- Gemma 3n E2B/E4B
- EmbeddingGemma 300M
- 関数 Gemma 270M
- Qwen ファミリー
- Llama
- ファイ
- SmoLM
- FastVLM