Google AI Edge Portal 隆重推出：大規模基準測試 Edge AI。申請在非公開預先發布版期間要求存取權。

LiteRT CompiledModel C++ API

LiteRT CompiledModel API 提供 C++ 版本，可讓開發人員精細控管記憶體配置和低階開發作業。如需範例，請參閱「影像分割 C++ 應用程式」。

以下指南說明 CompiledModel Kotlin API 的基本 CPU 推論。如需進階加速功能，請參閱 GPU 加速和 NPU 加速指南。

新增建構依附元件

請選擇適合專案的路徑：

使用預建程式庫 (跨平台)：使用 LiteRT 預建程式庫，立即完成設定。瞭解如何在 Android 上使用 LiteRT Maven 套件中的預先建構 C++ 程式庫，或在 Android、iOS、macOS、Linux 和 Windows 上下載/整合預先建構的 C++ 二進位檔。
從來源建構 (跨平台)：使用 CMake 從來源建構，全面掌控並支援多種平台 (Android、iOS、macOS、Linux、Windows)。詳情請參閱本指南。

基本推論

本節說明如何執行基本推論。

建立環境

Environment 物件提供執行階段環境，其中包含編譯器外掛程式路徑和 GPU 環境等元件。建立 CompiledModel 和 TensorBuffer 時，必須提供 Environment。下列程式碼會建立 CPU 和 GPU 執行作業的 Environment，不含任何選項：

LITERT_ASSIGN_OR_RETURN(auto env, Environment::Create({}));

建立`CompiledModel`

取得 LiteRT 模型或將模型轉換為 .tflite 格式後，請使用 CompiledModel API，透過模型檔案初始化執行階段。您可以在這個時間點指定硬體加速 (kLiteRtHwAcceleratorCpu 或 kLiteRtHwAcceleratorGpu)：

LITERT_ASSIGN_OR_RETURN(auto compiled_model,
  CompiledModel::Create(env, model, kLiteRtHwAcceleratorCpu));

建立輸入和輸出緩衝區

建立必要的資料結構 (緩衝區)，以保存您將提供給模型進行推論的輸入資料，以及模型在執行推論後產生的輸出資料。

LITERT_ASSIGN_OR_RETURN(auto input_buffers, compiled_model.CreateInputBuffers());
LITERT_ASSIGN_OR_RETURN(auto output_buffers, compiled_model.CreateOutputBuffers());

如果您使用 CPU 記憶體，請將資料直接寫入第一個輸入緩衝區，填入輸入內容。

input_buffers[0].Write<float>(absl::MakeConstSpan(input_data, input_size));

叫用模型

提供輸入和輸出緩衝區，並使用在上一個步驟中指定的模型和硬體加速功能，執行已編譯的模型。

compiled_model.Run(input_buffers, output_buffers);

擷取輸出內容

直接從記憶體讀取模型輸出，即可擷取輸出內容。

std::vector<float> data(output_data_size);
output_buffers[0].Read<float>(absl::MakeSpan(data));
// ... process output data

重要概念和元件

如要瞭解 LiteRT CompiledModel API 的重要概念和元件，請參閱以下各節。

處理錯誤

LiteRT 會使用 litert::Expected 傳回值或傳播錯誤，方式與 absl::StatusOr 或 std::expected 類似。您可以自行手動檢查錯誤。

為方便起見，LiteRT 提供下列巨集：

如果 expr 未產生錯誤，LITERT_ASSIGN_OR_RETURN(lhs, expr) 會將 expr 的結果指派給 lhs，否則會傳回錯誤。

展開後會顯示類似下列程式碼片段的內容。

auto maybe_model = CompiledModel::Create(env, "mymodel.tflite", HwAccelerators::kCpu);
if (!maybe_model) {
  return maybe_model.Error();
}
auto model = std::move(maybe_model.Value());

LITERT_ASSIGN_OR_ABORT(lhs, expr) 的功能與 LITERT_ASSIGN_OR_RETURN 相同，但如果發生錯誤，會中止程式。
如果 LITERT_RETURN_IF_ERROR(expr) 的評估結果為錯誤，則會傳回 expr。
LITERT_ABORT_IF_ERROR(expr) 的功能與 LITERT_RETURN_IF_ERROR 相同，但如果發生錯誤，會中止程式。

如要進一步瞭解 LiteRT 巨集，請參閱 litert_macros.h。

張量緩衝區 (TensorBuffer)

LiteRT 內建支援 I/O 緩衝區互通性，並使用 Tensor Buffer API (TensorBuffer) 處理編譯模型內外的資料流。Tensor Buffer API 可用於寫入 (Write<T>()) 和讀取 (Read<T>())，以及鎖定 CPU 記憶體。

如要更全面地瞭解如何實作 TensorBuffer API，請參閱 litert_tensor_buffer.h 的原始碼。

查詢模型輸入/輸出規定

配置 Tensor 緩衝區 (TensorBuffer) 的需求通常由硬體加速器指定。輸入和輸出緩衝區可能會有對齊、緩衝區步幅和記憶體類型方面的要求。您可以使用 CreateInputBuffers 等輔助函式，自動處理這些需求。

下列簡化程式碼片段示範如何擷取輸入資料的緩衝區需求：

LITERT_ASSIGN_OR_RETURN(auto reqs, compiled_model.GetInputBufferRequirements(signature_index, input_index));

如要更全面地瞭解如何實作 TensorBufferRequirements API，請參閱 litert_tensor_buffer_requirements.h 的原始碼。

建立受管理張量緩衝區 (TensorBuffers)

下列簡化程式碼片段示範如何建立 Managed Tensor Buffer，其中 TensorBuffer API 會分配相應的緩衝區：

LITERT_ASSIGN_OR_RETURN(auto tensor_buffer_cpu,
TensorBuffer::CreateManaged(env, /*buffer_type=*/kLiteRtTensorBufferTypeHostMemory,
  ranked_tensor_type, buffer_size));

LITERT_ASSIGN_OR_RETURN(auto tensor_buffer_gl, TensorBuffer::CreateManaged(env,
  /*buffer_type=*/kLiteRtTensorBufferTypeGlBuffer, ranked_tensor_type, buffer_size));

LITERT_ASSIGN_OR_RETURN(auto tensor_buffer_ahwb, TensorBuffer::CreateManaged(env,
  /*buffer_type=*/kLiteRtTensorBufferTypeAhwb, ranked_tensor_type, buffer_size));

以零複製方式建立 Tensor Buffer

如要將現有緩衝區包裝為 Tensor 緩衝區 (零複製)，請使用下列程式碼片段：

// Create a TensorBuffer from host memory
LITERT_ASSIGN_OR_RETURN(auto tensor_buffer_from_host,
  TensorBuffer::CreateFromHostMemory(env, ranked_tensor_type,
  ptr_to_host_memory, buffer_size));

// Create a TensorBuffer from GlBuffer
LITERT_ASSIGN_OR_RETURN(auto tensor_buffer_from_gl,
  TensorBuffer::CreateFromGlBuffer(env, ranked_tensor_type, gl_target, gl_id,
  size_bytes, offset));

// Create a TensorBuffer from AHardware Buffer
LITERT_ASSIGN_OR_RETURN(auto tensor_buffer_from_ahwb,
  TensorBuffer::CreateFromAhwb(env, ranked_tensor_type, ahardware_buffer, offset));

從 Tensor 緩衝區讀取及寫入資料

下列程式碼片段示範如何從輸入緩衝區讀取資料，以及如何寫入輸出緩衝區：

// Example of reading to input buffer:
std::vector<float> input_tensor_data = {1,2};
LITERT_ASSIGN_OR_RETURN(auto write_success,
  input_tensor_buffer.Write<float>(absl::MakeConstSpan(input_tensor_data)));
if(write_success){
  /* Continue after successful write... */
}

// Example of writing to output buffer:
std::vector<float> data(total_elements);
LITERT_ASSIGN_OR_RETURN(auto read_success,
  output_tensor_buffer.Read<float>(absl::MakeSpan(data)));
if(read_success){
  /* Continue after successful read */
}

進階：適用於特殊硬體緩衝區類型的零複製緩衝區互通性

某些緩衝區類型 (例如 AHardwareBuffer) 可與其他緩衝區類型互通。舉例來說，您可以從 AHardwareBuffer 建立 OpenGL 緩衝區，並採用零複製方式。以下程式碼片段提供範例：

LITERT_ASSIGN_OR_RETURN(auto tensor_buffer_ahwb,
  TensorBuffer::CreateManaged(env, kLiteRtTensorBufferTypeAhwb,
  ranked_tensor_type, buffer_size));
// Buffer interop: Get OpenGL buffer from AHWB,
// internally creating an OpenGL buffer backed by AHWB memory.
LITERT_ASSIGN_OR_RETURN(auto gl_buffer, tensor_buffer_ahwb.GetGlBuffer());

您也可以透過 AHardwareBuffer 建立 OpenCL 緩衝區：

LITERT_ASSIGN_OR_RETURN(auto cl_buffer, tensor_buffer_ahwb.GetOpenClMemory());

在支援 OpenCL 和 OpenGL 互通性的行動裝置上，可以從 GL 緩衝區建立 CL 緩衝區：

LITERT_ASSIGN_OR_RETURN(auto tensor_buffer_from_gl,
  TensorBuffer::CreateFromGlBuffer(env, ranked_tensor_type, gl_target, gl_id,
  size_bytes, offset));

// Creates an OpenCL buffer from the OpenGL buffer, zero-copy.
LITERT_ASSIGN_OR_RETURN(auto cl_buffer, tensor_buffer_from_gl.GetOpenClMemory());

實作範例

請參閱下列 C++ 中的 LiteRT 實作項目。

基本推論 (CPU)

以下是「開始使用」一節中程式碼片段的簡化版本。這是使用 LiteRT 進行推論的最簡單做法。

// Load model and initialize runtime
LITERT_ASSIGN_OR_RETURN(auto env, Environment::Create({}));
LITERT_ASSIGN_OR_RETURN(auto compiled_model, CompiledModel::Create(env, "mymodel.tflite",
  kLiteRtHwAcceleratorCpu));

// Preallocate input/output buffers
LITERT_ASSIGN_OR_RETURN(auto input_buffers, compiled_model.CreateInputBuffers());
LITERT_ASSIGN_OR_RETURN(auto output_buffers, compiled_model.CreateOutputBuffers());

// Fill the first input
float input_values[] = { /* your data */ };
input_buffers[0].Write<float>(absl::MakeConstSpan(input_values, /*size*/));

// Invoke
compiled_model.Run(input_buffers, output_buffers);

// Read the output
std::vector<float> data(output_data_size);
output_buffers[0].Read<float>(absl::MakeSpan(data));

使用主機記憶體進行零複製

LiteRT CompiledModel API 可減少推論管道的摩擦，特別是在處理多個硬體後端和零複製流程時。下列程式碼片段會在建立輸入緩衝區時使用 CreateFromHostMemory 方法，該緩衝區會搭配主機記憶體使用零複製。

// Define an LiteRT environment to use existing EGL display and context.
const std::vector<Environment::Option> environment_options = {
   {OptionTag::EglDisplay, user_egl_display},
   {OptionTag::EglContext, user_egl_context}};
LITERT_ASSIGN_OR_RETURN(auto env,
   Environment::Create(absl::MakeConstSpan(environment_options)));

// Load model1 and initialize runtime.
LITERT_ASSIGN_OR_RETURN(auto compiled_model1, CompiledModel::Create(env, "model1.tflite", kLiteRtHwAcceleratorGpu));

// Prepare I/O buffers. opengl_buffer is given outside from the producer.
LITERT_ASSIGN_OR_RETURN(auto tensor_type, model.GetInputTensorType("input_name0"));
// Create an input TensorBuffer based on tensor_type that wraps the given OpenGL Buffer.
LITERT_ASSIGN_OR_RETURN(auto tensor_buffer_from_opengl,
    litert::TensorBuffer::CreateFromGlBuffer(env, tensor_type, opengl_buffer));

// Create an input event and attach it to the input buffer. Internally, it creates
// and inserts a fence sync object into the current EGL command queue.
LITERT_ASSIGN_OR_RETURN(auto input_event, Event::CreateManaged(env, LiteRtEventTypeEglSyncFence));
tensor_buffer_from_opengl.SetEvent(std::move(input_event));

std::vector<TensorBuffer> input_buffers;
input_buffers.push_back(std::move(tensor_buffer_from_opengl));

// Create an output TensorBuffer of the model1. It's also used as an input of the model2.
LITERT_ASSIGN_OR_RETURN(auto intermedidate_buffers,  compiled_model1.CreateOutputBuffers());

// Load model2 and initialize runtime.
LITERT_ASSIGN_OR_RETURN(auto compiled_model2, CompiledModel::Create(env, "model2.tflite", kLiteRtHwAcceleratorGpu));
LITERT_ASSIGN_OR_RETURN(auto output_buffers, compiled_model2.CreateOutputBuffers());

compiled_model1.RunAsync(input_buffers, intermedidate_buffers);
compiled_model2.RunAsync(intermedidate_buffers, output_buffers);