최신 모바일 및 에지 기기에는 CPU에 비해 AI 모델을 최대 25배까지 가속화할 수 있는 특수 그래픽 처리 장치(GPU)와 신경망 처리 장치 (NPU)가 탑재되어 있으며, 동시에 전력 소비를 최대 5배까지 줄일 수 있습니다.
LiteRT는 통합 하드웨어 가속 스택을 통해 이러한 전문 실리콘에 대한 액세스를 간소화합니다. 분산된 공급업체별 SDK나 복잡한 하드웨어 API를 관리하는 대신 LiteRT는 모델 최적화, 메모리 관리, 하드웨어 디스패치의 복잡성을 추상화하는 간소화된 CompiledModel API를 제공합니다.
가속기 유형
LiteRT는 다양한 하드웨어 백엔드에서 모델을 실행하는 통합 인터페이스를 제공합니다. CompiledModel API를 활용하면 기기 내 또는 사전 (AOT) 컴파일을 사용하여 이러한 가속기 간에 원활하게 전환할 수 있으며, 지원되지 않는 작업의 경우 CPU로 자동 대체됩니다.
- CPU: XNNPACK을 사용하는 기본 실행 경로이며 항상 사용할 수 있습니다. 일반 작업에 적합하며 지원되지 않는 연산자의 대체로 사용할 수 있습니다.
- GPU: ML 드리프트로 구동되며 OpenCL, WebGPU, Metal 등을 활용하여 에지 플랫폼 전반에서 SOTA 성능을 제공합니다. 자세한 내용은 LiteRT를 사용한 GPU 가속을 참고하세요.
- NPU: AI 워크로드에 가장 높은 효율성과 성능을 제공합니다. LiteRT는 공급업체별 SDK 통합 없이 Google Tensor, Qualcomm, MediaTek을 비롯한 전문 NPU 칩셋에 액세스할 수 있는 통합 개발 흐름을 제공합니다. 자세한 내용은 LiteRT를 사용한 NPU 가속을 참고하세요.
이러한 가속기를 결합하여 특정 하드웨어에서 일부 복잡한 작업을 사용할 수 없는 경우 가능한 최고의 성능을 얻을 수 있습니다. 가속기가 작업을 두고 경쟁하는 경우 LiteRT는 우선순위: NPU, GPU, CPU를 사용합니다.