LiteRT を使用したデバイス上の推論

LiteRT CompiledModel API は、デバイス上の ML 推論の最新の標準を表し、Interpreter API を大幅に上回る効率的なハードウェア アクセラレーションを提供します。このインターフェースは、統一されたデベロッパー エクスペリエンスと、ハードウェアの効率を最大限に高めるように設計された高度な機能を提供することで、幅広いエッジ プラットフォームへの .tflite モデルのデプロイを簡素化します。

CompiledModel API を選択する理由

Interpreter API は下位互換性のために引き続き利用できますが、新しいパフォーマンス機能とアクセラレータ機能は CompiledModel API で優先的に提供されます。この方法をおすすめする理由は次のとおりです。

  • クラス最高の GPU アクセラレーション: 最先端の GPU アクセラレーション ライブラリである ML Drift を活用して、モバイル、ウェブ、デスクトップ、IoT デバイス全体で信頼性の高い GPU 推論を実現します。LiteRT による GPU アクセラレーションをご覧ください。

  • 統合された NPU アクセス: Google Tensor、Qualcomm、MediaTek などのさまざまなプロバイダの NPU にアクセスするための単一の一貫したデベロッパー エクスペリエンスを提供し、ベンダー固有のコンパイラとランタイムの複雑さを抽象化します。LiteRT による NPU アクセラレーションをご覧ください。

  • ハードウェアの自動選択: 利用可能なハードウェアと内部優先度ロジックに基づいて、CPU、GPU、NPU の中から最適なバックエンドを自動的に選択し、デリゲートを手動で構成する必要をなくします。

  • 非同期実行: OS レベルのメカニズム(同期フェンスなど)を利用して、CPU を介さずに、ハードウェア アクセラレータが前のタスクの完了時に直接トリガーできるようにします。これにより、レイテンシを最大 2 倍削減し、よりスムーズでインタラクティブな AI エクスペリエンスを実現できます。

  • 効率的な I/O バッファ管理: TensorBuffer API を活用して、アクセラレータ間の高性能データフローを管理します。これには、AHardwareBuffer、OpenCL、OpenGL 間のゼロコピー バッファの相互運用が含まれ、前処理、推論、後処理の各ステージ間のコストのかかるデータコピーが不要になります。

対応プラットフォーム

LiteRT CompiledModel API は、Android、iOS、ウェブ、IoT、デスクトップ デバイスで高性能な推論をサポートします。プラットフォーム固有のガイドをご覧ください。