LiteRT を使用して生成 AI モデルをデプロイする

LiteRT は、モバイル、デスクトップ、ウェブ プラットフォーム全体で生成 AI モデルの高性能なデプロイを実現します。LiteRT は、CPU、GPU、NPU のハードウェア アクセラレーションをシームレスに活用することで、オンデバイスの GenAI 推論に最先端のパフォーマンスを提供します。

次の統合型テクノロジ スタックを使用して、複雑な GenAI モデルをデプロイできます。

  • Torch Generative API: PyTorch GenAI モデルの作成と変換を行うための AI Edge Torch ライブラリ内の Python モジュール。デバイスでの高性能な実行を保証する最適化されたビルディング ブロックを提供します。詳細については、PyTorch GenAI モデルを変換するをご覧ください。

  • LiteRT-LM: LiteRT の上に構築された専用のオーケストレーション レイヤ。セッションのクローニング、kv-cache 管理、プロンプトのキャッシュ保存/スコアリング、ステートフル推論など、LLM 固有の複雑さを管理します。詳細については、LiteRT-LM GitHub リポジトリをご覧ください。

  • LiteRT Converter と Runtime: 効率的なモデル変換、ランタイム実行、最適化を実現する基盤となるエンジン。CPU、GPU、NPU 全体で高度なハードウェア アクセラレーションを可能にします。

LiteRT GenAI モデル動物園

LiteRT は、LiteRT Hugging Face コミュニティで、人気のあるオープンウェイト モデルのコレクションをサポートしています。これらのモデルは、すぐにデプロイできるように事前に変換およびチューニングされているため、CPU、GPU、NPU のピーク パフォーマンスをすぐに活用できます。

注目のインサイト