Google AI Edge Portal のご紹介: エッジ AI を大規模にベンチマークします。限定公開プレビュー中にアクセスをリクエストするには、登録してください。

LiteRT を使用したデバイス上の推論

LiteRT CompiledModel API は、デバイス上の ML 推論の最新の標準を表し、Interpreter API を大幅に上回る効率的なハードウェアアクセラレーションを提供します。このインターフェースは、統一されたデベロッパーエクスペリエンスと、ハードウェアの効率を最大限に高めるように設計された高度な機能を提供することで、幅広いエッジプラットフォームへの .tflite モデルのデプロイを簡素化します。

`CompiledModel` API を選択する理由

Interpreter API は下位互換性のために引き続き利用できますが、新しいパフォーマンス機能とアクセラレータ機能は CompiledModel API で優先的に提供されます。この方法をおすすめする理由は次のとおりです。

クラス最高の GPU アクセラレーション: 最先端の GPU アクセラレーションライブラリである ML Drift を活用して、モバイル、ウェブ、デスクトップ、IoT デバイス全体で信頼性の高い GPU 推論を実現します。LiteRT による GPU アクセラレーションをご覧ください。
統合された NPU アクセス: Google Tensor、Qualcomm、MediaTek などのさまざまなプロバイダの NPU にアクセスするための単一の一貫したデベロッパーエクスペリエンスを提供し、ベンダー固有のコンパイラとランタイムの複雑さを抽象化します。LiteRT による NPU アクセラレーションをご覧ください。
ハードウェアの自動選択: 利用可能なハードウェアと内部優先度ロジックに基づいて、CPU、GPU、NPU の中から最適なバックエンドを自動的に選択し、デリゲートを手動で構成する必要をなくします。
非同期実行: OS レベルのメカニズム（同期フェンスなど）を利用して、CPU を介さずに、ハードウェアアクセラレータが前のタスクの完了時に直接トリガーできるようにします。これにより、レイテンシを最大 2 倍削減し、よりスムーズでインタラクティブな AI エクスペリエンスを実現できます。
効率的な I/O バッファ管理: TensorBuffer API を活用して、アクセラレータ間の高性能データフローを管理します。これには、AHardwareBuffer、OpenCL、OpenGL 間のゼロコピーバッファの相互運用が含まれ、前処理、推論、後処理の各ステージ間のコストのかかるデータコピーが不要になります。

対応プラットフォーム

LiteRT CompiledModel API は、Android、iOS、ウェブ、IoT、デスクトップデバイスで高性能な推論をサポートします。プラットフォーム固有のガイドをご覧ください。

LiteRT を使用したデバイス上の推論

CompiledModel API を選択する理由

対応プラットフォーム

`CompiledModel` API を選択する理由