Google AI Edge Portal のご紹介: エッジ AI を大規模にベンチマークします。限定公開プレビュー中にアクセスをリクエストするには、登録してください。

LiteRT による GPU アクセラレーション

グラフィックプロセッシングユニット（GPU）は、CPU と比較して並列スループットが大きいため、ディープラーニングの高速化によく使用されます。LiteRT は、コンパイル済みモデル（CompiledModel）の作成時にハードウェアアクセラレーションをパラメータとして指定できるようにすることで、GPU アクセラレーションの使用プロセスを簡素化します。

LiteRT の GPU アクセラレーションを使用すると、GPU に適した入力バッファと出力バッファを作成し、GPU メモリ内のデータでゼロコピーを実現し、タスクを非同期で実行して並列処理を最大化できます。

使ってみる

従来の ML モデルの場合は、次のデモアプリをご覧ください。
- 画像セグメンテーション Kotlin アプリ: CPU/GPU/NPU 推論。
- 画像セグメンテーション C++ アプリ: 非同期実行による CPU/GPU/NPU 推論。
生成 AI モデルの場合は、次のデモとガイドをご覧ください。
- EmbeddingGemma セマンティック類似性 C++ アプリ: CPU/GPU/NPU 推論。
- LiteRT-LM を使用して LLM を実行するガイド。

GPU の依存関係を追加する

次の手順に沿って、Kotlin または C++ アプリケーションに GPU 依存関係を追加します。

Kotlin

Kotlin ユーザーの場合、GPU アクセラレータは組み込み型であり、スタートガイドに記載されている手順以外の手順は必要ありません。

C++

C++ ユーザーは、LiteRT GPU アクセラレーションを使用してアプリケーションの依存関係をビルドする必要があります。コアアプリケーションロジック（cc_binarymain.cc）には、次のランタイムコンポーネントが必要です。

LiteRT C API 共有ライブラリ: data 属性には、LiteRT C API 共有ライブラリ（//litert/c:litert_runtime_c_api_shared_lib）と GPU 固有のコンポーネント（litert_gpu_accelerator_prebuilts）を含める必要があります。
属性の依存関係: deps 属性には通常 GLES 依存関係 gles_deps() が含まれ、linkopts には通常 gles_linkopts() が含まれます。LiteRT は Android で OpenGLES を使用することが多いため、どちらも GPU アクセラレーションに非常に適しています。
モデルファイルとその他のアセット: data 属性を介して含まれます。

cc_binary ルールの例を次に示します。

load("//litert/build_common:special_rule.bzl", "litert_gpu_accelerator_prebuilts")

cc_binary(
    name = "your_application",
    srcs = [
        "main.cc",
    ],
    data = [
        ...
        # litert c api shared library
        "//litert/c:litert_runtime_c_api_shared_lib",
    ] + litert_gpu_accelerator_prebuilts(),
    linkopts = select({
        "@org_tensorflow//tensorflow:android": ["-landroid"],
        "//conditions:default": [],
    }) + gles_linkopts(), # gles link options
    deps = [
        ...
        "//litert/cc:litert_tensor_buffer", # litert cc library
        ...
    ] + gles_deps(), # gles dependencies
)

この設定により、コンパイルされたバイナリが GPU を動的に読み込んで使用し、ML 推論を高速化できます。

事前構築済みの GPU アクセラレータ

新しい LiteRT GPU アクセラレータはまだオープンソース化されていません。ただし、ビルド済みは利用可能です。Kotlin ユーザーの場合、LiteRT Maven パッケージにはすでに GPU アクセラレータが含まれています。C++ SDK ユーザーは、こちらから別途ダウンロードする必要があります。

Bazel では、次のルールを使用してターゲットに依存関係を追加できます。 cpp load("//litert/build_common:special_rule.bzl", "litert_gpu_accelerator_prebuilts")

`CompiledModel` API で GPU を使用する

GPU アクセラレータの使用を開始するには、コンパイル済みモデル（CompiledModel）の作成時に GPU パラメータを渡します。次のコードスニペットは、プロセス全体の基本的な実装を示しています。

C++

// 1. Create a compiled model targeting GPU
LITERT_ASSIGN_OR_RETURN(auto env, Environment::Create({}));
LITERT_ASSIGN_OR_RETURN(auto compiled_model, CompiledModel::Create(env, "mymodel.tflite", kLiteRtHwAcceleratorGpu));

// 2. Prepare input/output buffers
LITERT_ASSIGN_OR_RETURN(auto input_buffers, compiled_model.CreateInputBuffers());
LITERT_ASSIGN_OR_RETURN(auto output_buffers, compiled_model.CreateOutputBuffers());

// 3. Fill input data (if you have CPU-based data)
input_buffers[0].Write<float>(absl::MakeConstSpan(cpu_data, data_size));

// 4. Execute
compiled_model.Run(input_buffers, output_buffers);

// 5. Access model output
std::vector<float> data(output_data_size);
output_buffers.Read<float>(absl::MakeSpan(data));

Kotlin

// Load model and initialize runtime
val  model =
    CompiledModel.create(
        context.assets,
        "mymodel.tflite",
        CompiledModel.Options(Accelerator.GPU),
        env,
    )

// Preallocate input/output buffers
val inputBuffers = model.createInputBuffers()
val outputBuffers = model.createOutputBuffers()

// Fill the first input
inputBuffers[0].writeFloat(FloatArray(data_size) { data_value /* your data */ })

// Invoke
model.run(inputBuffers, outputBuffers)

// Read the output
val outputFloatArray = outputBuffers[0].readFloat()

詳しくは、C++ を使ってみるまたは Kotlin を使ってみるガイドをご覧ください。

GPU アクセラレーションによるゼロコピー

ゼロコピーを使用すると、CPU がデータを明示的にコピーしなくても、GPU が独自のメモリ内のデータに直接アクセスできます。ゼロコピーでは、CPU メモリとの間でデータをコピーしないため、エンドツーエンドのレイテンシを大幅に短縮できます。

次のコードは、ベクトルグラフィックのレンダリング用 API である OpenGL を使用したゼロコピー GPU の実装例です。コードは、OpenGL バッファ形式の画像を LiteRT に直接渡します。

// Suppose you have an OpenGL buffer consisting of:
// target (GLenum), id (GLuint), size_bytes (size_t), and offset (size_t)
// Load model and compile for GPU
LITERT_ASSIGN_OR_RETURN(auto env, Environment::Create({}));
LITERT_ASSIGN_OR_RETURN(auto compiled_model,
    CompiledModel::Create(env, "mymodel.tflite", kLiteRtHwAcceleratorGpu));

// Create a TensorBuffer that wraps the OpenGL buffer.
LITERT_ASSIGN_OR_RETURN(auto tensor_type, model.GetInputTensorType("input_tensor_name"));
LITERT_ASSIGN_OR_RETURN(auto gl_input_buffer, TensorBuffer::CreateFromGlBuffer(env,
    tensor_type, opengl_buffer.target, opengl_buffer.id, opengl_buffer.size_bytes, opengl_buffer.offset));
std::vector<TensorBuffer> input_buffers{gl_input_buffer};
LITERT_ASSIGN_OR_RETURN(auto output_buffers, compiled_model.CreateOutputBuffers());

// Execute
compiled_model.Run(input_buffers, output_buffers);

// If your output is also GPU-backed, you can fetch an OpenCL buffer or re-wrap it as an OpenGL buffer:
LITERT_ASSIGN_OR_RETURN(auto out_cl_buffer, output_buffers[0].GetOpenClBuffer());

非同期実行

LiteRT の非同期メソッド（RunAsync() など）を使用すると、CPU または NPU を使用して他のタスクを継続しながら、GPU 推論をスケジュールできます。複雑なパイプラインでは、GPU は CPU や NPU とともに非同期で使用されることがよくあります。

次のコードスニペットは、ゼロコピー GPU アクセラレーションの例で提供されているコードを基にしています。このコードは CPU と GPU の両方を非同期で使用し、入力バッファに LiteRT Event を接続します。LiteRT Event は、さまざまなタイプの同期プリミティブを管理します。次のコードは、LiteRtEventTypeEglSyncFence タイプのマネージド LiteRT イベントオブジェクトを作成します。この Event オブジェクトにより、GPU が完了するまで入力バッファから読み取らないことが保証されます。これらはすべて、CPU を使用せずに実行されます。

LITERT_ASSIGN_OR_RETURN(auto env, Environment::Create({}));
LITERT_ASSIGN_OR_RETURN(auto compiled_model,
    CompiledModel::Create(env, "mymodel.tflite", kLiteRtHwAcceleratorGpu));

// 1. Prepare input buffer (OpenGL buffer)
LITERT_ASSIGN_OR_RETURN(auto gl_input,
    TensorBuffer::CreateFromGlBuffer(env, tensor_type, opengl_tex));
std::vector<TensorBuffer> inputs{gl_input};
LITERT_ASSIGN_OR_RETURN(auto outputs, compiled_model.CreateOutputBuffers());

// 2. If the GL buffer is in use, create and set an event object to synchronize with the GPU.
LITERT_ASSIGN_OR_RETURN(auto input_event,
    Event::CreateManagedEvent(env, LiteRtEventTypeEglSyncFence));
inputs[0].SetEvent(std::move(input_event));

// 3. Kick off the GPU inference
compiled_model.RunAsync(inputs, outputs);

// 4. Meanwhile, do other CPU work...
// CPU Stays busy ..

// 5. Access model output
std::vector<float> data(output_data_size);
outputs[0].Read<float>(absl::MakeSpan(data));

サポートされているバックエンド

LiteRT は、各プラットフォームで次の GPU バックエンドをサポートしています。

プラットフォーム	バックエンド
Android	OpenCL + OpenGL
Linux	WebGPU（Vulkan）
macOS	メタル
Windows	WebGPU（Direct3D）
Android	OpenCL + OpenGL

サポートされているモデル

LiteRT は、次のモデルで GPU アクセラレーションをサポートしています。ベンチマークの結果は、Samsung Galaxy S24 デバイスで実施したテストに基づいています。

モデル	LiteRT GPU アクセラレーション	LiteRT GPU（ミリ秒）
hf_mms_300m	完全に委任	19.6
hf_mobilevit_small	完全に委任	8.7
hf_mobilevit_small_e2e	完全に委任	8.0
hf_wav2vec2_base_960h	完全に委任	9.1
hf_wav2vec2_base_960h_dynamic	完全に委任	9.8
isnet	完全に委任	43.1
timm_efficientnet	完全に委任	3.7
timm_nfnet	完全に委任	9.7
timm_regnety_120	完全に委任	12.1
torchaudio_deepspeech	完全に委任	4.6
torchaudio_wav2letter	完全に委任	4.8
torchvision_alexnet	完全に委任	3.3
torchvision_deeplabv3_mobilenet_v3_large	完全に委任	5.7
torchvision_deeplabv3_resnet101	完全に委任	35.1
torchvision_deeplabv3_resnet50	完全に委任	24.5
torchvision_densenet121	完全に委任	13.9
torchvision_efficientnet_b0	完全に委任	3.6
torchvision_efficientnet_b1	完全に委任	4.7
torchvision_efficientnet_b2	完全に委任	5.0
torchvision_efficientnet_b3	完全に委任	6.1
torchvision_efficientnet_b4	完全に委任	7.6
torchvision_efficientnet_b5	完全に委任	8.6
torchvision_efficientnet_b6	完全に委任	11.2
torchvision_efficientnet_b7	完全に委任	14.7
torchvision_fcn_resnet50	完全に委任	19.9
torchvision_googlenet	完全に委任	3.9
torchvision_inception_v3	完全に委任	8.6
torchvision_lraspp_mobilenet_v3_large	完全に委任	3.3
torchvision_mnasnet0_5	完全に委任	2.4
torchvision_mobilenet_v2	完全に委任	2.8
torchvision_mobilenet_v3_large	完全に委任	2.8
torchvision_mobilenet_v3_small	完全に委任	2.3
torchvision_resnet152	完全に委任	15.0
torchvision_resnet18	完全に委任	4.3
torchvision_resnet50	完全に委任	6.9
torchvision_squeezenet1_0	完全に委任	2.9
torchvision_squeezenet1_1	完全に委任	2.5
torchvision_vgg16	完全に委任	13.4
torchvision_wide_resnet101_2	完全に委任	25.0
torchvision_wide_resnet50_2	完全に委任	13.4
u2net_full	完全に委任	98.3
u2net_lite	完全に委任	51.4
hf_distil_whisper_small_no_cache	一部委任済み	251.9
hf_distilbert	一部委任済み	13.7
hf_tinyroberta_squad2	一部委任済み	17.1
hf_tinyroberta_squad2_dynamic_batch	一部委任済み	52.1
snapml_StyleTransferNet	一部委任済み	40.9
timm_efficientformer_l1	一部委任済み	17.6
timm_efficientformerv2_s0	一部委任済み	16.1
timm_pvt_v2_b1	一部委任済み	73.5
timm_pvt_v2_b3	一部委任済み	246.7
timm_resnest14d	一部委任済み	88.9
torchaudio_conformer	一部委任済み	21.5
torchvision_convnext_tiny	一部委任済み	8.2
torchvision_maxvit_t	一部委任済み	194.0
torchvision_shufflenet_v2	一部委任済み	9.5
torchvision_swin_tiny	一部委任済み	164.4
torchvision_video_resnet2plus1d_18	一部委任済み	6832.0
torchvision_video_swin3d_tiny	一部委任済み	2617.8
yolox_tiny	一部委任済み	11.2

LiteRT による GPU アクセラレーション

使ってみる

GPU の依存関係を追加する

Kotlin

C++

事前構築済みの GPU アクセラレータ

CompiledModel API で GPU を使用する

C++

Kotlin

GPU アクセラレーションによるゼロコピー

非同期実行

サポートされているバックエンド

サポートされているモデル

`CompiledModel` API で GPU を使用する