Udhëzues për klasifikimin e audios

Forma valore e një thirrjeje zogu të mbivendosur mbi një fotografi të zog thirrja e të cilit përputhet forma valore.

Detyra MediaPipe Audio Classifier ju lejon të klasifikoni klipet audio në një grup kategorish të përcaktuara, të tilla si muzika e kitarës, një bilbil treni ose kënga e një zogu. Kategoritë përcaktohen gjatë trajnimit të modelit. Kjo detyrë funksionon në të dhënat audio me një model të mësimit të makinës (ML) si klipe audio të pavarura ose një transmetim i vazhdueshëm dhe nxjerr një listë të kategorive të mundshme të renditura sipas rezultatit zbritës të probabilitetit.

Provojeni!

Filloni

Filloni ta përdorni këtë detyrë duke ndjekur një nga këto udhëzues zbatimi për platformën tuaj të synuar. Këta udhëzues specifikë të platformës ju përcjellin një zbatim bazë të kësaj detyre, duke përfshirë një model të rekomanduar dhe shembull kodi me opsionet e rekomanduara të konfigurimit:

Android - Shembull kodi - Udhëzues
Python - Udhëzuesi i shembullit të kodit
Web - Shembull Kodi - Udhëzues

Këta udhëzues specifikë të platformës ju përcjellin një zbatim bazë të kësaj detyre, duke përfshirë një model të rekomanduar dhe shembull kodi me opsionet e rekomanduara të konfigurimit.

Detajet e detyrës

Ky seksion përshkruan aftësitë, hyrjet, daljet dhe opsionet e konfigurimit të kësaj detyre.

Veçoritë

Përpunimi i audios në hyrje - Përpunimi përfshin rimostrimin e audios, buferimin, inkuadrimin dhe transformimin Fourier.
Vendndodhja e hartës së etiketës - Vendos gjuhën e përdorur për emrat e shfaqur
Pragu i rezultatit - Filtro rezultatet bazuar në rezultatet e parashikimit.
Zbulimi Top-k - Filtro rezultatet e zbulimit të numrave.
Emërtoni listën e lejeve dhe listën e refuzimit - Specifikoni kategoritë e zbuluara.

Hyrjet e detyrave	Rezultatet e detyrave
Hyrja mund të jetë një nga llojet e mëposhtme të të dhënave: Klipe audio Transmetimi i audios	Klasifikuesi i audios nxjerr një listë kategorish që përmbajnë: Indeksi i kategorisë: indeksi i kategorisë në rezultatet e modelit Rezultati: rezultati i besimit për këtë kategori, zakonisht një probabilitet në [0,1] Emri i kategorisë (opsionale): emri i kategorisë siç specifikohet në Metadatat e Modelit TFLite, nëse disponohet Emri i shfaqur i kategorisë (opsionale): një emër i shfaqur për kategorinë siç specifikohet në Metadatat e Modelit TFLite, në gjuhën e specifikuar përmes opsioneve të vendndodhjes së emrave të shfaqur, nëse disponohet

Hyrjet e detyrave

Rezultatet e detyrave

Hyrja mund të jetë një nga llojet e mëposhtme të të dhënave:

Klipe audio
Transmetimi i audios

Klasifikuesi i audios nxjerr një listë kategorish që përmbajnë:

Indeksi i kategorisë: indeksi i kategorisë në rezultatet e modelit
Rezultati: rezultati i besimit për këtë kategori, zakonisht një probabilitet në [0,1]
Emri i kategorisë (opsionale): emri i kategorisë siç specifikohet në Metadatat e Modelit TFLite, nëse disponohet
Emri i shfaqur i kategorisë (opsionale): një emër i shfaqur për kategorinë siç specifikohet në Metadatat e Modelit TFLite, në gjuhën e specifikuar përmes opsioneve të vendndodhjes së emrave të shfaqur, nëse disponohet

Opsionet e konfigurimeve

Kjo detyrë ka opsionet e mëposhtme të konfigurimit:

Emri i opsionit	Përshkrimi	Gama e vlerave	Vlera e paracaktuar
`running_mode`	Vendos modalitetin e ekzekutimit për detyrën. Klasifikuesi i audios ka dy mënyra: AUDIO_CLIPS: Mënyra për ekzekutimin e detyrës audio në klipe audio të pavarura. AUDIO_STREAM: Modaliteti për ekzekutimin e detyrës audio në një transmetim audio, si p.sh. nga mikrofoni. Në këtë modalitet, resultListener duhet të thirret për të vendosur një dëgjues për të marrë rezultatet e klasifikimit në mënyrë asinkrone.	{ `AUDIO_CLIPS, AUDIO_STREAM` }	`AUDIO_CLIPS`
`display_names_locale`	Vendos gjuhën e etiketave për t'u përdorur për emrat e shfaqur të dhëna në meta të dhënat e modelit të detyrës, nëse disponohet. Parazgjedhja është `en` për anglisht. Ju mund të shtoni etiketa të lokalizuara në meta të dhënat e një modeli të personalizuar duke përdorur API-në e shkrimtarit metadata TensorFlow Lite	Kodi lokal	sq
`max_results`	Vendos numrin maksimal opsional të rezultateve të klasifikimit me pikët më të mira për t'u kthyer. Nëse < 0, të gjitha rezultatet e disponueshme do të kthehen.	Çdo numër pozitiv	`-1`
`score_threshold`	Vendos pragun e rezultatit të parashikimit që tejkalon atë të dhënë në meta të dhënat e modelit (nëse ka). Rezultatet nën këtë vlerë refuzohen.	[0.0, 1.0]	Nuk është vendosur
`category_allowlist`	Vendos listën opsionale të emrave të kategorive të lejuara. Nëse nuk janë bosh, rezultatet e klasifikimit emri i kategorisë së të cilave nuk është në këtë grup do të filtrohen. Emrat e kopjuar ose të panjohur të kategorive shpërfillen. Ky opsion është reciprokisht ekskluziv me `category_denylist` dhe duke përdorur të dyja rezultatet në një gabim.	Çdo varg	Nuk është vendosur
`category_denylist`	Vendos listën opsionale të emrave të kategorive që nuk lejohen. Nëse nuk janë bosh, rezultatet e klasifikimit emri i kategorisë së të cilave është në këtë grup do të filtrohen. Emrat e kopjuar ose të panjohur të kategorive shpërfillen. Ky opsion është reciprokisht ekskluziv me `category_allowlist` dhe duke përdorur të dyja rezultatet në një gabim.	Çdo varg	Nuk është vendosur
`result_callback`	Vendos dëgjuesin e rezultateve që të marrë rezultatet e klasifikimit në mënyrë asinkrone kur Klasifikuesi i audios është në modalitetin e transmetimit audio. Mund të përdoret vetëm kur modaliteti i ekzekutimit është caktuar në `AUDIO_STREAM`	N/A	Nuk është vendosur

Modelet

Klasifikuesi i audios kërkon që një model klasifikimi audio të shkarkohet dhe të ruhet në drejtorinë e projektit tuaj. Filloni me modelin e paracaktuar, të rekomanduar për platformën tuaj të synuar kur të filloni të zhvilloni këtë detyrë. Modelet e tjera të disponueshme zakonisht bëjnë shkëmbime ndërmjet performancës, saktësisë, rezolucionit dhe kërkesave për burime, dhe në disa raste, përfshijnë veçori shtesë.

Modeli Yamnet (rekomandohet)

Modeli Yamnet është një klasifikues i ngjarjeve audio i trajnuar në grupin e të dhënave AudioSet për të parashikuar ngjarjet audio të përcaktuara në të dhënat AudioSet. Për informacion mbi ngjarjet audio të njohura nga ky model, shihni listën e etiketave të modeleve.

Emri i modelit	Forma e hyrjes	Lloji i kuantizimit	Versionet
YamNet	1 x 15600	Asnjë (float32)	E fundit

Standardet e detyrave

Këtu janë standardet e detyrave për të gjithë tubacionin bazuar në modelet e mësipërme të para-trajnuara. Rezultati i vonesës është vonesa mesatare në Pixel 6 duke përdorur CPU / GPU.

Emri i modelit	Vonesa e CPU-së	Vonesa e GPU-së
YamNet	12.29 ms	-