Udhëzues ndërveprues i detyrave të segmentimit të imazhit

Imazhet krah për krah që tregojnë një fotografi të një karrige në një imazh dhe më pas të njëjtin imazh me karrigen e theksuar për të treguar se modeli e ka zbuluar karrigen

Detyra MediaPipe Interactive Image Segmenter ju lejon të ndani një imazh në dy rajone: një objekt të zgjedhur dhe gjithçka tjetër. Detyra merr një vendndodhje në një imazh, vlerëson kufijtë e një objekti në atë vendndodhje dhe kthen të dhënat e imazhit që përcaktojnë zonën e objektit. Ju mund ta përdorni këtë detyrë për të zgjedhur në mënyrë interaktive një objekt në një imazh dhe për të përdorur daljen për të aplikuar efekte në imazh, të tilla si mbivendosjet me ngjyra që theksojnë objektin ose mjegullojnë sfondin rreth tij. Kjo detyrë funksionon në të dhënat e imazhit me një model të mësimit të makinës (ML) dhe mund ta përdorni në imazhe të vetme, skedarë video ose një transmetim të vazhdueshëm video.

Provojeni!

Filloni

Filloni ta përdorni këtë detyrë duke ndjekur një nga këto udhëzues zbatimi për platformën tuaj të synuar. Këta udhëzues specifikë të platformës ju përcjellin një zbatim bazë të kësaj detyre, duke përfshirë një model të rekomanduar dhe shembull kodi me opsionet e rekomanduara të konfigurimit:

Detajet e detyrës

Ky seksion përshkruan aftësitë, hyrjet, daljet dhe opsionet e konfigurimit të kësaj detyre.

Veçoritë

  • Përpunimi i imazhit në hyrje - Përpunimi përfshin rrotullimin e imazhit, ndryshimin e madhësisë, normalizimin dhe konvertimin e hapësirës së ngjyrave.
Hyrjet e detyrave Rezultatet e detyrave
  • Koordinatat e pikës së interesit për një objekt në një imazh
  • Skedari i imazhit që do të përpunohet
Segmentuesi interaktiv i imazhit nxjerr të dhëna të segmentuara të imazhit, të cilat mund të përfshijnë një ose të dyja nga sa vijon, në varësi të opsioneve të konfigurimit që vendosni:
  • CATEGORY_MASK : një listë që përmban një maskë të segmentuar si imazh i formatit uint8. Çdo vlerë piksel tregon nëse është pjesë e objektit të vendosur në zonën e interesit.
  • CONFIDENCE_MASK : një listë kanalesh që përmbajnë një maskë të segmentuar me vlera pikselësh në formatin float32. Çdo vlerë piksel tregon nivelin e besimit që është pjesë e objektit të vendosur në zonën e interesit.

Opsionet e konfigurimeve

Kjo detyrë ka opsionet e mëposhtme të konfigurimit:

Emri i opsionit Përshkrimi Gama e vlerave Vlera e paracaktuar
output_category_mask Nëse vendoset në True , dalja përfshin një maskë segmentimi si një imazh uint8, ku çdo vlerë piksel tregon nëse piksel është pjesë e objektit të vendosur në zonën e interesit. { True, False } False
output_confidence_masks Nëse vendoset në True , dalja përfshin një maskë segmentimi si një imazh me vlerë notuese, ku çdo vlerë float përfaqëson besimin se piksel është pjesë e objektit të vendosur në zonën e interesit. { True, False } True
display_names_locale Vendos gjuhën e etiketave për t'u përdorur për emrat e shfaqur të dhëna në meta të dhënat e modelit të detyrës, nëse disponohet. Parazgjedhja është en për anglisht. Ju mund të shtoni etiketa të lokalizuara në meta të dhënat e një modeli të personalizuar duke përdorur API-në e shkrimtarit metadata TensorFlow Lite Kodi lokal sq

Modelet

Segmentuesi interaktiv i imazhit mund të përdoret me më shumë se një model ML. Filloni me modelin e paracaktuar, të rekomanduar për platformën tuaj të synuar kur të filloni të zhvilloni këtë detyrë. Modelet e tjera të disponueshme zakonisht bëjnë shkëmbime ndërmjet performancës, saktësisë, rezolucionit dhe kërkesave për burime, dhe në disa raste, përfshijnë veçori shtesë.

Ky model identifikon segmentet e dhëna koordinatat e imazhit për një zonë me interes. Modeli përdor një rrjet nervor konvolutional, të ngjashëm me një arkitekturë MobileNetV3 , me një dekoder të personalizuar.

Emri i modelit Forma e hyrjes Lloji i kuantizimit Kartë Model Versionet
MagicTouch 512 x 512 x 4 Asnjë (float32) informacion E fundit

Standardet e detyrave

Këtu janë standardet e detyrave për të gjithë tubacionin bazuar në modelet e mësipërme të para-trajnuara. Rezultati i vonesës është vonesa mesatare në Pixel 6 duke përdorur CPU / GPU.

Emri i modelit Vonesa e CPU-së Vonesa e GPU-së
MagicTouch 130.11 ms 67.25 ms