Google AI Edge Portal 소개: 대규모로 엣지 AI를 벤치마킹합니다. 비공개 미리보기 기간에 액세스 권한을 요청하려면 가입하세요.

LiteRT를 사용한 온디바이스 추론

LiteRT CompiledModel API는 기기 내 ML 추론의 최신 표준을 나타내며 Interpreter API보다 훨씬 뛰어난 간소화된 하드웨어 가속을 제공합니다. 이 인터페이스는 통합 개발자 환경과 최대 하드웨어 효율성을 위해 설계된 고급 기능을 제공하여 다양한 에지 플랫폼에 .tflite 모델을 간편하게 배포할 수 있도록 지원합니다.

`CompiledModel` API를 선택해야 하는 이유

Interpreter API는 하위 호환성을 위해 계속 사용할 수 있지만 CompiledModel API는 새로운 성능 및 액셀러레이터 기능이 우선 적용되는 곳입니다. 다음과 같은 이유로 권장됩니다.

최고 수준의 GPU 가속: 최첨단 GPU 가속 라이브러리인 ML Drift를 활용하여 모바일, 웹, 데스크톱, IoT 기기 전반에서 안정적인 GPU 추론을 제공합니다. LiteRT를 사용한 GPU 가속을 참고하세요.
통합 NPU 액세스: Google Tensor, Qualcomm, MediaTek과 같은 다양한 제공업체의 NPU에 액세스하는 단일하고 일관된 개발자 환경을 제공하여 공급업체별 컴파일러와 런타임 복잡성을 추상화합니다. LiteRT를 사용한 NPU 가속을 참고하세요.
자동 하드웨어 선택: 사용 가능한 하드웨어와 내부 우선순위 논리를 기반으로 CPU, GPU, NPU 중에서 최적의 백엔드를 자동으로 선택하므로 대리자를 수동으로 구성할 필요가 없습니다.
비동기 실행: 하드웨어 가속기가 CPU를 포함하지 않고 이전 작업 완료 시 직접 트리거되도록 OS 수준 메커니즘 (예: 동기화 펜스)을 활용합니다. 이렇게 하면 지연 시간이 최대 2배까지 줄어들고 더 부드럽고 상호작용적인 AI 환경을 보장할 수 있습니다.
효율적인 I/O 버퍼 관리: TensorBuffer API를 활용하여 액셀러레이터 간의 고성능 데이터 흐름을 관리합니다. 여기에는 AHardwareBuffer, OpenCL, OpenGL 간의 무사본 버퍼 상호 운용성이 포함되어 사전 처리, 추론, 후처리 단계 간의 비용이 많이 드는 데이터 복사가 필요하지 않습니다.

`CompiledModel` API 시작하기

클래식 ML 모델의 경우 다음 데모 앱을 참고하세요.
- 이미지 세분화 Kotlin 앱: CPU/GPU/NPU 추론
- 이미지 분할 C++ 앱: async 실행을 사용한 CPU/GPU/NPU 추론
생성형 AI 모델의 경우 다음 데모 앱을 참고하세요.
- EmbeddingGemma 시맨틱 유사성 C++ 앱: CPU/GPU/NPU 추론

지원되는 플랫폼

LiteRT CompiledModel API는 Android, iOS, 웹, IoT, 데스크톱 기기 전반에서 고성능 추론을 지원합니다. 플랫폼별 가이드를 참고하세요.

LiteRT를 사용한 온디바이스 추론

CompiledModel API를 선택해야 하는 이유

CompiledModel API 시작하기

지원되는 플랫폼

`CompiledModel` API를 선택해야 하는 이유

`CompiledModel` API 시작하기