Prezantimi i Portalit të Edge të Google AI : Benchmark Edge AI në shkallë. Regjistrohuni për të kërkuar qasje gjatë pamjes paraprake private.

Kjo faqe është përkthyer nga Cloud Translation API.

LiteRT për Android

LiteRT ju lejon të ekzekutoni modele TensorFlow, PyTorch dhe JAX në aplikacionet tuaja Android. Sistemi LiteRT ofron mjedise ekzekutimi të parapërgatitura dhe të personalizueshme për ekzekutimin e modeleve në Android shpejt dhe me efikasitet, duke përfshirë opsione për përshpejtimin e harduerit.

Për shembull, aplikacionet Android që përdorin LiteRT, shihni repozitorin e mostrave LiteRT .

Modelet e të mësuarit automatik

LiteRT përdor modele TensorFlow, PyTorch dhe JAX që konvertohen në një format modeli më të vogël, më të lëvizshëm dhe më efikas të të mësuarit automatik. Mund të përdorni modele të parapërgatitura me LiteRT në Android ose të ndërtoni modelet tuaja dhe t'i konvertoni ato në formatin LiteRT.

Kjo faqe diskuton përdorimin e modeleve të të mësuarit automatik të ndërtuara tashmë dhe nuk mbulon ndërtimin, trajnimin, testimin ose konvertimin e modeleve. Mësoni më shumë rreth zgjedhjes, modifikimit, ndërtimit dhe konvertimit të modeleve të të mësuarit automatik për LiteRT në faqen Modele .

Ekzekutoni modele në Android

Një model LiteRT që funksionon brenda një aplikacioni Android merr të dhëna, i përpunon të dhënat dhe gjeneron një parashikim bazuar në logjikën e modelit. Një model LiteRT kërkon një mjedis të veçantë ekzekutimi për t'u ekzekutuar dhe të dhënat që kalohen në model duhet të jenë në një format specifik të të dhënave, të quajtur tensor . Kur një model përpunon të dhënat, i njohur si ekzekutimi i një inference , ai gjeneron rezultate parashikimi si tensorë të rinj dhe i kalon ato në aplikacionin Android në mënyrë që të mund të ndërmarrë veprime, siç është shfaqja e rezultatit te një përdorues ose ekzekutimi i logjikës shtesë të biznesit.

Rrjedha e ekzekutimit funksional për modelet LiteRT në aplikacionet Android

Figura 1. Rrjedha e ekzekutimit funksional për modelet LiteRT në aplikacionet Android.

Në nivelin e dizajnit funksional, aplikacioni juaj Android ka nevojë për elementët e mëposhtëm për të ekzekutuar një model LiteRT:

Mjedisi i ekzekutimit LiteRT për ekzekutimin e modelit
Trajtuesi i hyrjes së modelit për të transformuar të dhënat në tenzorë
Modeli i trajtuesit të daljes për të marrë tenzorët e rezultateve të daljes dhe për t'i interpretuar ato si rezultate parashikimi.

Seksionet e mëposhtme përshkruajnë se si bibliotekat dhe mjetet LiteRT ofrojnë këto elementë funksionalë.

Ndërtoni aplikacione me LiteRT

Ky seksion përshkruan rrugën e rekomanduar dhe më të zakonshme për zbatimin e LiteRT në aplikacionin tuaj Android. Duhet t'i kushtoni vëmendjen më të madhe seksioneve të mjedisit të kohës së ekzekutimit dhe librarive të zhvillimit . Nëse keni zhvilluar një model të personalizuar, sigurohuni që të rishikoni seksionin Shtigjet e zhvillimit të avancuara .

Opsionet e mjedisit të ekzekutimit

Ka disa mënyra se si mund të aktivizoni një mjedis ekzekutimi për ekzekutimin e modeleve në aplikacionin tuaj Android. Këto janë opsionet e preferuara:

LiteRT në mjedisin e ekzekutimit të shërbimeve të Google Play (i rekomanduar)
Mjedis i pavarur i kohës së ekzekutimit LiteRT

Në përgjithësi, duhet të përdorni mjedisin e ekzekutimit të ofruar nga shërbimet e Google Play sepse është më efikas në hapësirë sesa mjedisi standard, pasi ngarkohet në mënyrë dinamike, duke e mbajtur madhësinë e aplikacionit tuaj më të vogël. Shërbimet e Google Play gjithashtu përdorin automatikisht versionin më të fundit dhe të qëndrueshëm të kohës së ekzekutimit LiteRT, duke ju dhënë veçori shtesë dhe performancë të përmirësuar me kalimin e kohës. Nëse e ofroni aplikacionin tuaj në pajisje që nuk përfshijnë shërbimet e Google Play ose duhet të menaxhoni nga afër mjedisin tuaj të ekzekutimit të ML, atëherë duhet të përdorni kohën standarde të ekzekutimit LiteRT. Ky opsion bashkon kod shtesë në aplikacionin tuaj, duke ju lejuar të keni më shumë kontroll mbi kohën e ekzekutimit të ML në aplikacionin tuaj me koston e rritjes së madhësisë së shkarkimit të aplikacionit tuaj.

Ju mund t'i qaseni këtyre mjediseve të kohës së ekzekutimit në aplikacionin tuaj Android duke shtuar bibliotekat e zhvillimit LiteRT në mjedisin tuaj të zhvillimit të aplikacionit. Për informacion se si të përdorni mjediset standarde të kohës së ekzekutimit në aplikacionin tuaj, shihni seksionin tjetër.

Bibliotekat

Mund të qaseni në API-në e Interpreter duke përdorur shërbimet e Google Play . Mund të përdorni bibliotekat kryesore dhe mbështetëse të LiteRT në aplikacionin tuaj Android. Për detaje programimi rreth përdorimit të bibliotekave dhe mjediseve të kohës së ekzekutimit të LiteRT, shihni Mjetet e zhvillimit për Android .

Merrni modele

Ekzekutimi i një modeli në një aplikacion Android kërkon një model në format LiteRT. Mund të përdorni modele të parapërgatitura ose të ndërtoni një dhe ta konvertoni atë në formatin Lite. Për më shumë informacion mbi marrjen e modeleve për aplikacionin tuaj Android, shihni faqen Modelet LiteRT.

Trajtoni të dhënat hyrëse

Çdo të dhënë që kaloni në një model ML duhet të jetë një tensor me një strukturë specifike të dhënash, e cila shpesh quhet forma e tensorit. Për të përpunuar të dhëna me një model, kodi i aplikacionit tuaj duhet të transformojë të dhënat nga formati i tyre origjinal, siç janë të dhënat e imazhit, tekstit ose audios, në një tensor në formën e kërkuar për modelin tuaj.

Ekzekutoni përfundimet

Përpunimi i të dhënave përmes një modeli për të gjeneruar një rezultat parashikimi njihet si ekzekutimi i një përfundimi . Ekzekutimi i një përfundimi në një aplikacion Android kërkon një mjedis ekzekutimi LiteRT, një model dhe të dhëna hyrëse .

Shpejtësia me të cilën një model mund të gjenerojë një përfundim në një pajisje të caktuar varet nga madhësia e të dhënave të përpunuara, kompleksiteti i modelit dhe burimet e disponueshme të llogaritjes, siç janë memoria dhe CPU-ja, ose procesorët e specializuar të quajtur përshpejtues . Modelet e të mësuarit automatik mund të funksionojnë më shpejt në këta procesorë të specializuar, siç janë njësitë e përpunimit grafik (GPU) dhe njësitë e përpunimit tensor (TPU), duke përdorur drajverë harduerësh LiteRT të quajtur delegatë . Për më shumë informacion rreth delegatëve dhe përshpejtimit harduerësh të përpunimit të modelit, shihni përmbledhjen e përshpejtimit harduerësh .

Trajto rezultatet e daljes

Modelet gjenerojnë rezultate parashikimi si tenzorë, të cilat duhet të trajtohen nga aplikacioni juaj Android duke ndërmarrë veprime ose duke ia shfaqur një rezultat përdoruesit. Rezultatet e daljes së modelit mund të jenë aq të thjeshta sa një numër që korrespondon me një rezultat të vetëm (0 = qen, 1 = mace, 2 = zog) për një klasifikim imazhi, deri në rezultate shumë më komplekse, siç janë kuti të shumëfishta kufizuese për disa objekte të klasifikuara në një imazh, me vlerësime besimi parashikimi midis 0 dhe 1.

Shtigje të avancuara zhvillimi

Kur përdorni modele LiteRT më të sofistikuara dhe të personalizuara, mund t'ju duhet të përdorni qasje më të avancuara zhvillimi sesa ato që përshkruhen më sipër. Seksionet e mëposhtme përshkruajnë teknikat e avancuara për ekzekutimin e modeleve dhe zhvillimin e tyre për LiteRT në aplikacionet Android.

Mjedise të përparuara të kohës së ekzekutimit

Përveç mjediseve standarde të kohës së ekzekutimit dhe mjediseve të ekzekutimit të shërbimeve Google Play për LiteRT, ekzistojnë mjedise shtesë të kohës së ekzekutimit që mund t'i përdorni me aplikacionin tuaj Android. Përdorimi më i mundshëm për këto mjedise është nëse keni një model të të mësuarit automatik që përdor operacione ML që nuk mbështeten nga mjedisi standard i kohës së ekzekutimit për LiteRT.

Kohëzgjatja fleksibile e ekzekutimit për LiteRT
Kohëzgjatja e ekzekutimit LiteRT e ndërtuar me porosi

Koha e ekzekutimit LiteRT Flex ju lejon të përfshini operatorë specifikë të kërkuar për modelin tuaj. Si një opsion i avancuar për ekzekutimin e modelit tuaj, mund të ndërtoni LiteRT për Android për të përfshirë operatorë dhe funksionalitete të tjera të kërkuara për ekzekutimin e modelit tuaj të të mësuarit automatik TensorFlow. Për më shumë informacion, shihni Ndërtoni LiteRT për Android .

API-të C dhe C++

LiteRT ofron gjithashtu një API për ekzekutimin e modeleve duke përdorur C dhe C++. Nëse aplikacioni juaj përdor Android NDK , duhet të merrni në konsideratë përdorimin e këtij API. Gjithashtu, mund të dëshironi të merrni në konsideratë përdorimin e këtij API nëse dëshironi të jeni në gjendje të ndani kodin midis platformave të shumëfishta. Për më shumë informacion rreth këtij opsioni zhvillimi, shihni faqen Mjetet e Zhvillimit .

Ekzekutimi i modelit të bazuar në server

Në përgjithësi, duhet të ekzekutoni modele në aplikacionin tuaj në një pajisje Android për të përfituar nga vonesa më e ulët dhe privatësia e përmirësuar e të dhënave për përdoruesit tuaj. Megjithatë, ka raste kur ekzekutimi i një modeli në një server cloud, jashtë pajisjes, është një zgjidhje më e mirë. Për shembull, nëse keni një model të madh i cili nuk kompresohet lehtësisht në një madhësi që përshtatet në pajisjet Android të përdoruesve tuaj, ose mund të ekzekutohet me performancë të arsyeshme në ato pajisje. Kjo qasje mund të jetë gjithashtu zgjidhja juaj e preferuar nëse performanca e qëndrueshme e modelit në një gamë të gjerë pajisjesh është përparësia kryesore.

Google Cloud ofron një gamë të plotë shërbimesh për ekzekutimin e modeleve të inteligjencës artificiale. Për më shumë informacion, shihni faqen e produkteve të inteligjencës artificiale dhe të të mësuarit automatik të Google Cloud.

Zhvillimi dhe optimizimi i modelit të personalizuar

Shtigjet më të avancuara të zhvillimit ka të ngjarë të përfshijnë zhvillimin e modeleve të personalizuara të të mësuarit automatik dhe optimizimin e këtyre modeleve për përdorim në pajisjet Android. Nëse planifikoni të ndërtoni modele të personalizuara, sigurohuni që të merrni në konsideratë aplikimin e teknikave të kuantizimit në modele për të zvogëluar kostot e kujtesës dhe përpunimit. Për më shumë informacion se si të ndërtoni modele me performancë të lartë për përdorim me LiteRT, shihni praktikat më të mira të performancës në seksionin Modele.

Versionet e mbështetura të Android-it

Versioni LiteRT	Statusi	Niveli Min SDK	Versioni Min NDK (nëse përdoret)	Data e publikimit
`v1.2.0` ⭐	⚠️ I papërdorur	`21` (Android 5 Lollipop)	`r26a`	2025-03-13
`v1.3.0` ⭐	⚠️ I papërdorur	`21` (Android 5 Lollipop)	`r26a`	2025-05-19
`v1.4.0` ⭐	⚠️ I papërdorur	`26` (Android 8 Oreo)	`r26a`	2025-06-25
`v1.4.1` ⭐	✅ Aktiv	`21` (Android 5 Lollipop)	`r26a`	2025-11-07
`v2.0.3` ⭐	✅ Aktiv	`26` (Android 8 Oreo)	`r26a`	2025-11-08
`v2.1.0` ⭐	Së shpejti	`23` (Android 6 Marshmallow)	`r26a`	Nuk është publikuar ende

E rëndësishme: Mbani varësitë tuaja të përditësuara për të siguruar përputhshmërinë me veçoritë dhe përditësimet më të fundit të sigurisë.

API i Modelit të Kompiluar kundrejt API-t të Interpretuesit

API i Modelit të Kompiluar – i pari me përshpejtues, ekzekutim i kompiluar AOT/JIT me ndërveprim të unifikuar të buffer-it dhe tubacione asinkrone.
API i interpretuesit – i pajtueshëm me kodin ekzistues të stilit TensorFlow Lite.

Mund të zgjidhni njërën nga API-të gjatë kohës së ekzekutimit; shumica e veçorive të reja të performancës dhe përshpejtuesit shfaqen në API-n e Modelit të Kompiluar.

Për shembuj të implementimeve, shihni:

E zakonshme dhe CPU

Funksioni i kohës së ekzekutimit	API-ja e interpretuesit	API-ja e Modelit të Kompiluar
Profilizimi	✅	✅
Raportuesi i gabimeve	✅	✅
Ndërveprimi i bufferit I/O (TensorBuffer/Environment)	--	✅
Përzgjedhja e përshpejtuesit me çelës në dorë	--	✅
Sinkronizimi i ekzekutuesit	✅	✅
Operacion i personalizuar	✅	✅
Konfigurimi i XNNPACK	✅	✅
Formë dinamike	✅	✅

GPU

Funksioni i kohës së ekzekutimit	API-ja e interpretuesit	API-ja e Modelit të Kompiluar
Sinkronizimi i ekzekutuesit	✅	✅
Ruajtja në memorje	✅	✅
Rezervimi i CPU-së	✅	✅
Ekzekutues asinkron	--	✅
Memorie me zero kopje (AHWB/GLBuffer/Teksturë)	--	✅
Stërvitja e MLD OpenCL	✅	✅
Stërvitja e MLD WebGPU (e re)	--	✅
Mbështetje MLD Metal (e re)	--	✅

NPU

Funksioni i kohës së ekzekutimit	API-ja e interpretuesit	API-ja e Modelit të Kompiluar
Sinkronizimi i ekzekutuesit	✅	✅
Ekzekutues asinkron (Pixel)	--	✅
Rezervimi i CPU-së	✅	✅
Rezervë GPU	--	✅
Kopje me zero-buffer (AHWB)	--	✅
QC/MTK AOT	--	✅
Pixel AOT	--	✅
QC/MTK/Pixel JIT	--	✅

Nisje e Shpejtë (API i Modelit të Kompiluar)

Ekzekutimi i inferencës me API-në e Modelit të Kompiluar përfshin hapat kryesorë të mëposhtëm:

Ngarko një model të pajtueshëm.
Ndani buferët tenzorë të hyrjes dhe daljes.
Thirrni modelin e kompajluar.
Lexoni përfundimet në një buffer dalës.

Fragmentet e mëposhtme të kodit tregojnë një implementim bazë të të gjithë procesit në Kotlin dhe C++.

C++

// Load model and initialize runtime
LITERT_ASSIGN_OR_RETURN(auto model, Model::CreateFromFile("mymodel.tflite"));
LITERT_ASSIGN_OR_RETURN(auto env, Environment::Create({}));
LITERT_ASSIGN_OR_RETURN(auto compiled_model,
    CompiledModel::Create(env, model, kLiteRtHwAcceleratorCpu));

// Preallocate input/output buffers
LITERT_ASSIGN_OR_RETURN(auto input_buffers, compiled_model.CreateInputBuffers());
LITERT_ASSIGN_OR_RETURN(auto output_buffers, compiled_model.CreateOutputBuffers());

// Fill the first input
float input_values[] = { /* your data */ };
input_buffers[0].Write<float>(absl::MakeConstSpan(input_values, /*size*/));

// Invoke
compiled_model.Run(input_buffers, output_buffers);

// Read the output
std::vector<float> data(output_data_size);
output_buffers[0].Read<float>(absl::MakeSpan(data));

Kotlin

// Load model and initialize runtime
val  model =
    CompiledModel.create(
        context.assets,
        "mymodel.tflite",
        CompiledModel.Options(Accelerator.CPU)
    )

// Preallocate input/output buffers
val inputBuffers = model.createInputBuffers()
val outputBuffers = model.createOutputBuffers()

// Fill the first input
inputBuffers[0].writeFloat(FloatArray(data_size) { data_value /* your data */ })

// Invoke
model.run(inputBuffers, outputBuffers)

// Read the output
val outputFloatArray = outputBuffers[0].readFloat()

Për më shumë informacion, shihni udhëzuesit " Filloni me Kotlin" dhe "Filloni me C++" .

Aftësitë kryesore (API i Modelit të Kompiluar)

Përzgjedhja e përshpejtuesit me çelës në dorë dhe asinkronizimi – zgjidhni CPU/GPU/NPU në kohën e krijimit dhe ekzekutoni asinkron pa ndërhyrjen e delegatëve.
Buferë të unifikuar zero-kopje – ndajnë buferë AHWB/GL/OpenCL/WebGPU/Metal përgjatë përpunimit para/pas dhe inferencës.
Rendiment i gatshëm për gjenerim – i optimizuar për modele të mëdha me ruajtje në memorje dhe rezerva GPU/NPU.

API-ja e Interpreter-it mbetet rruga e përputhshmërisë për bazat ekzistuese të kodit TensorFlow Lite; përdoreni atë kur keni nevojë për sjellje të qëndrueshme të delegimit ose mbështjellës të palëve të treta që presin interpretuesin klasik.

Përshpejtuesit

CPU (parazgjedhur): XNNPACK i optimizuar, format dinamike të mbështetura.
GPU: Backend-i OpenCL sot; backend-et WebGPU dhe Metal janë të disponueshme përmes Compiled Model API.
NPU: Qualcomm AI Engine Direct dhe MediaTek NeuroPilot mbështeten për AOT/JIT; Pixel AOT është i disponueshëm; është planifikuar mbështetja e NPU-së Apple/Intel.

Kur të zgjidhni një API

Përdorni API-n e Modelit të Kompiluar kur dëshironi rrugën më të shpejtë për në GPU/NPU, memorje me zero kopje ose ekzekutim asinkron.
Përdorni API-në e Interpreter kur keni nevojë për përputhshmëri maksimale me kodin, mjetet ose delegatët ekzistues të TensorFlow Lite.