Inferenca në pajisje me LiteRT

API-ja LiteRT CompiledModel përfaqëson standardin modern për inferencën ML në pajisje, duke ofruar përshpejtim të përmirësuar të harduerit që tejkalon ndjeshëm performancën e API-së Interpreter . Kjo ndërfaqe thjeshton vendosjen e modeleve .tflite në një gamë të gjerë platformash edge duke ofruar përvoja të unifikuara për zhvilluesit dhe veçori të përparuara të dizajnuara për efikasitet maksimal të harduerit.

Pse të zgjidhni API-n `CompiledModel` ?

Ndërsa API-ja Interpreter mbetet e disponueshme për pajtueshmëri prapa, API-ja CompiledModel është vendi ku përparësi i jepet veçorive të reja të performancës dhe përshpejtuesit. Është zgjedhja e rekomanduar për këto arsye:

Përshpejtimi më i mirë i GPU-së : Shfrytëzon ML Drift , bibliotekën më të fundit të përshpejtimit të GPU-së, për të ofruar përfundime të besueshme të GPU-së në të gjitha pajisjet mobile, uebi, desktop dhe IoT. Shihni përshpejtimin e GPU-së me LiteRT .
Qasje e unifikuar e NPU-së : Ofron një përvojë të vetme dhe të qëndrueshme të zhvilluesit për të aksesuar NPU-të nga ofrues të ndryshëm si Google Tensor, Qualcomm, MediaTek, duke abstraktuar kompilatorët specifikë të shitësit dhe kompleksitetet e kohës së ekzekutimit. Shihni përshpejtimin e NPU-së me LiteRT .
Përzgjedhja automatike e harduerit : Zgjedh automatikisht backend-in optimal midis CPU-së, GPU-së dhe NPU-së, bazuar në harduerin e disponueshëm dhe logjikën e përparësisë së brendshme, duke eliminuar nevojën për konfigurim manual të delegatëve.
Ekzekutim asinkron : Përdor mekanizmat në nivelin e sistemit operativ (si gardhet e sinkronizimit) për të lejuar përshpejtuesit e harduerit të aktivizohen direkt pas përfundimit të detyrave të mëparshme pa përfshirë CPU-në. Kjo mund të zvogëlojë vonesën deri në 2 herë dhe siguron një përvojë më të butë dhe më interaktive të IA-së.
Menaxhim efikas i buffer-it I/O : Shfrytëzon API- TensorBuffer për të menaxhuar rrjedhën e të dhënave me performancë të lartë midis përshpejtuesve. Kjo përfshin ndërveprimin e buffer-it me zero kopje midis AHardwareBuffer , OpenCL dhe OpenGL, duke eliminuar kopjet e kushtueshme të të dhënave midis fazave të para-përpunimit, inferencës dhe pas-përpunimit.

Filloni me API-në `CompiledModel`

Për modelet klasike të ML , shihni aplikacionet demo të mëposhtme.
- Segmentimi i imazhit në aplikacionin Kotlin : Përfundimi i CPU/GPU/NPU.
- Segmentimi i imazhit në aplikacionin C++ : Përfundimi i CPU/GPU/NPU me ekzekutim asinkron .
Për modelet GenAI , shihni aplikacionet demo të mëposhtme:
- Ngjashmëria semantike e Gemma-s në aplikacionin C++ : Përfundimi i CPU/GPU/NPU.

Platformat e mbështetura

API-ja LiteRT CompiledModel mbështet nxjerrjen e përfundimeve me performancë të lartë në pajisjet Android, iOS, Web, IoT dhe Desktop. Shihni udhëzuesin specifik të platformës .

Inferenca në pajisje me LiteRT

Pse të zgjidhni API-n CompiledModel ?

Filloni me API-në CompiledModel

Platformat e mbështetura

Pse të zgjidhni API-n `CompiledModel` ?

Filloni me API-në `CompiledModel`