Udhëzues detyrash për klasifikimin e tekstit

Shembull UI që tregon një rishikim pozitiv të filmit si hyrje dhe dalje si pesë yje dhe një gisht i madh lart

Detyra MediaPipe Text Classifier ju lejon të klasifikoni tekstin në një grup kategorish të përcaktuara, të tilla si ndjenja pozitive ose negative. Kategoritë përcaktohen gjatë trajnimit të modelit. Kjo detyrë funksionon në të dhënat e tekstit me një model të mësimit të makinës (ML) si të dhëna statike dhe nxjerr një listë të kategorive dhe rezultatet e tyre të gjasave.

Provojeni!

Filloni

Filloni ta përdorni këtë detyrë duke ndjekur një nga këto udhëzues zbatimi për platformën në të cilën po punoni:

Këta udhëzues specifikë të platformës ju përcjellin një zbatim bazë të kësaj detyre, duke përfshirë një model të rekomanduar dhe shembull kodi me opsionet e rekomanduara të konfigurimit.

Detajet e detyrës

Ky seksion përshkruan aftësitë, hyrjet, daljet dhe opsionet e konfigurimit të kësaj detyre.

Veçoritë

Përpunimi i tekstit të hyrjes - Mbështet shënjonizimin jashtë grafikut për modelet pa tokenizimin në grafik
Koka të shumta klasifikimi - Çdo kokë mund të përdorë grupin e vet të kategorive
Vendndodhja e hartës së etiketës - Vendos gjuhën e përdorur për emrat e shfaqur
Pragu i rezultatit - Filtro rezultatet bazuar në rezultatet e parashikimit
Rezultatet e klasifikimit Top-k - Filtro numrin e rezultateve të zbulimit
Emërtoni listën e lejeve dhe listën e refuzimit - Specifikoni kategoritë e zbuluara

Hyrjet e detyrave	Rezultatet e detyrave
Klasifikuesi i tekstit pranon llojin e mëposhtëm të të dhënave hyrëse: Vargu	Klasifikuesi i tekstit nxjerr një listë kategorish që përmbajnë: Indeksi i kategorisë: indeksi i kategorisë në rezultatet e modelit Nota: rezultati i besimit për këtë kategori, i shprehur si një probabilitet ndërmjet zeros dhe një si vlerë me pikë lundruese. Emri i kategorisë (opsionale): emri i kategorisë siç specifikohet në Metadatat e modelit TensorFlow Lite, nëse disponohet. Emri i shfaqur i kategorisë (opsionale): një emër i shfaqur për kategorinë siç specifikohet në Metadatat e modelit TensorFlow Lite, në gjuhën e specifikuar përmes opsioneve të vendndodhjes së emrave të shfaqur, nëse ka.

Hyrjet e detyrave

Rezultatet e detyrave

Klasifikuesi i tekstit pranon llojin e mëposhtëm të të dhënave hyrëse:

Vargu

Klasifikuesi i tekstit nxjerr një listë kategorish që përmbajnë:

Indeksi i kategorisë: indeksi i kategorisë në rezultatet e modelit

Nota: rezultati i besimit për këtë kategori, i shprehur si një probabilitet ndërmjet zeros dhe një si vlerë me pikë lundruese.

Emri i kategorisë (opsionale): emri i kategorisë siç specifikohet në Metadatat e modelit TensorFlow Lite, nëse disponohet.

Emri i shfaqur i kategorisë (opsionale): një emër i shfaqur për kategorinë siç specifikohet në Metadatat e modelit TensorFlow Lite, në gjuhën e specifikuar përmes opsioneve të vendndodhjes së emrave të shfaqur, nëse ka.

Opsionet e konfigurimit

Kjo detyrë ka opsionet e mëposhtme të konfigurimit:

Emri i opsionit	Përshkrimi	Gama e vlerave	Vlera e paracaktuar
`displayNamesLocale`	Vendos gjuhën e etiketave për t'u përdorur për emrat e shfaqur të dhëna në meta të dhënat e modelit të detyrës, nëse disponohet. Parazgjedhja është `en` për anglisht. Ju mund të shtoni etiketa të lokalizuara në meta të dhënat e një modeli të personalizuar duke përdorur API-në e shkrimtarit metadata TensorFlow Lite	Kodi lokal	sq
`maxResults`	Vendos numrin maksimal opsional të rezultateve të klasifikimit me pikët më të mira për t'u kthyer. Nëse < 0, të gjitha rezultatet e disponueshme do të kthehen.	Çdo numër pozitiv	`-1`
`scoreThreshold`	Vendos pragun e rezultatit të parashikimit që tejkalon atë të dhënë në meta të dhënat e modelit (nëse ka). Rezultatet nën këtë vlerë refuzohen.	Çdo noton	Nuk është vendosur
`categoryAllowlist`	Vendos listën opsionale të emrave të kategorive të lejuara. Nëse nuk janë bosh, rezultatet e klasifikimit emri i kategorisë së të cilave nuk është në këtë grup do të filtrohen. Emrat e kopjuar ose të panjohur të kategorive shpërfillen. Ky opsion është reciprokisht ekskluziv me `categoryDenylist` dhe duke përdorur të dyja rezulton në një gabim.	Çdo varg	Nuk është vendosur
`categoryDenylist`	Vendos listën opsionale të emrave të kategorive që nuk lejohen. Nëse nuk janë bosh, rezultatet e klasifikimit emri i kategorisë së të cilave është në këtë grup do të filtrohen. Emrat e kopjuar ose të panjohur të kategorive shpërfillen. Ky opsion është reciprokisht ekskluziv me `categoryAllowlist` dhe duke përdorur të dyja rezultatet në një gabim.	Çdo varg	Nuk është vendosur

Modelet

Klasifikuesi i tekstit mund të përdoret me më shumë se një model ML. Filloni me modelin e paracaktuar, të rekomanduar për platformën tuaj të synuar kur të filloni të zhvilloni këtë detyrë. Modelet e tjera të disponueshme zakonisht bëjnë shkëmbime ndërmjet performancës, saktësisë, rezolucionit dhe kërkesave për burime, dhe në disa raste, përfshijnë veçori shtesë.

Modelet e paratrajnuara trajnohen për analizën e ndjenjave dhe parashikojnë nëse ndjenja e tekstit hyrës është pozitive apo negative. Modelet u trajnuan në grupin e të dhënave SST-2 (Stanford Sentiment Treebank), i cili përbëhet nga rishikime filmash të etiketuara si pozitive ose negative. Vini re se modelet mbështesin vetëm anglisht. Meqenëse ata janë trajnuar për një grup të dhënash të rishikimeve të filmave, mund të shihni cilësi të reduktuar për tekstin që mbulon fusha të tjera tematike.

Modeli i klasifikuesit BERT (rekomandohet)

Ky model përdor një arkitekturë të bazuar në BERT (veçanërisht, modeli MobileBERT ) dhe rekomandohet për shkak të saktësisë së tij të lartë. Ai përmban meta të dhëna që lejojnë detyrën të kryejë tokenizimin BERT jashtë grafikut.

Emri i modelit	Forma e hyrjes	Lloji i kuantizimit	Versionet
BERT-klasifikues	[1x128], [1x128], [1x128]	diapazoni dinamik	E fundit

Modeli mesatar i futjes së fjalëve

Ky model përdor një arkitekturë mesatare të futjes së fjalëve. Ky model ofron një madhësi më të vogël të modelit dhe vonesë më të ulët me koston e një saktësie më të ulët të parashikimit në krahasim me klasifikuesin BERT. Përshtatja e këtij modeli përmes trajnimeve shtesë është gjithashtu më i shpejtë se kryerja e trajnimit të klasifikuesit të bazuar në BERT. Ky model përmban meta të dhëna që i lejojnë detyrës të kryejë tokenizimin regex jashtë grafikut.

Emri i modelit	Forma e hyrjes	Lloji i kuantizimit	Versionet
Përfshirja mesatare e fjalëve	1 x 256	Asnjë (float32)	E fundit

Standardet e detyrave

Këtu janë standardet e detyrave për të gjithë tubacionin bazuar në modelet e mësipërme të para-trajnuara. Rezultati i vonesës është vonesa mesatare në Pixel 6 duke përdorur CPU / GPU.

Emri i modelit	Vonesa e CPU-së	Vonesa e GPU-së
Përfshirja mesatare e fjalëve	0.14 ms	-
BERT-klasifikues	57.68 ms	-

Modele me porosi

Ju mund të përdorni një model të personalizuar ML me këtë detyrë nëse dëshironi të përmirësoni ose ndryshoni aftësitë e modeleve të ofruara. Mund të përdorni Model Maker për të modifikuar modelet ekzistuese ose për të ndërtuar një model duke përdorur mjete si TensorFlow. Modelet e personalizuara të përdorura me MediaPipe duhet të jenë në formatin TensorFlow Lite dhe duhet të përfshijnë meta të dhëna specifike që përshkruajnë parametrat e funksionimit të modelit. Ju duhet të konsideroni përdorimin e Model Maker për të modifikuar modelet e ofruara për këtë detyrë përpara se të ndërtoni tuajin.