Udhëzues për klasifikimin e audios

Forma valore e një thirrjeje zogu të mbivendosur mbi një fotografi të zog thirrja e të cilit përputhet forma valore.

Detyra MediaPipe Audio Classifier ju lejon të klasifikoni klipet audio në një grup kategorish të përcaktuara, të tilla si muzika e kitarës, një bilbil treni ose kënga e një zogu. Kategoritë përcaktohen gjatë trajnimit të modelit. Kjo detyrë funksionon në të dhënat audio me një model të mësimit të makinës (ML) si klipe audio të pavarura ose një transmetim i vazhdueshëm dhe nxjerr një listë të kategorive të mundshme të renditura sipas rezultatit zbritës të probabilitetit.

Provojeni!

Filloni

Filloni ta përdorni këtë detyrë duke ndjekur një nga këto udhëzues zbatimi për platformën tuaj të synuar. Këta udhëzues specifikë të platformës ju përcjellin një zbatim bazë të kësaj detyre, duke përfshirë një model të rekomanduar dhe shembull kodi me opsionet e rekomanduara të konfigurimit:

Këta udhëzues specifikë të platformës ju përcjellin një zbatim bazë të kësaj detyre, duke përfshirë një model të rekomanduar dhe shembull kodi me opsionet e rekomanduara të konfigurimit.

Detajet e detyrës

Ky seksion përshkruan aftësitë, hyrjet, daljet dhe opsionet e konfigurimit të kësaj detyre.

Veçoritë

  • Përpunimi i audios në hyrje - Përpunimi përfshin rimostrimin e audios, buferimin, inkuadrimin dhe transformimin Fourier.
  • Vendndodhja e hartës së etiketës - Vendos gjuhën e përdorur për emrat e shfaqur
  • Pragu i rezultatit - Filtro rezultatet bazuar në rezultatet e parashikimit.
  • Zbulimi Top-k - Filtro rezultatet e zbulimit të numrave.
  • Emërtoni listën e lejeve dhe listën e refuzimit - Specifikoni kategoritë e zbuluara.
Hyrjet e detyrave Rezultatet e detyrave
Hyrja mund të jetë një nga llojet e mëposhtme të të dhënave:
  • Klipe audio
  • Transmetimi i audios
Klasifikuesi i audios nxjerr një listë kategorish që përmbajnë:
  • Indeksi i kategorisë: indeksi i kategorisë në rezultatet e modelit
  • Rezultati: rezultati i besimit për këtë kategori, zakonisht një probabilitet në [0,1]
  • Emri i kategorisë (opsionale): emri i kategorisë siç specifikohet në Metadatat e Modelit TFLite, nëse disponohet
  • Emri i shfaqur i kategorisë (opsionale): një emër i shfaqur për kategorinë siç specifikohet në Metadatat e Modelit TFLite, në gjuhën e specifikuar përmes opsioneve të vendndodhjes së emrave të shfaqur, nëse disponohet

Opsionet e konfigurimeve

Kjo detyrë ka opsionet e mëposhtme të konfigurimit:

Emri i opsionit Përshkrimi Gama e vlerave Vlera e paracaktuar
running_mode Vendos modalitetin e ekzekutimit për detyrën. Klasifikuesi i audios ka dy mënyra:

AUDIO_CLIPS: Mënyra për ekzekutimin e detyrës audio në klipe audio të pavarura.

AUDIO_STREAM: Modaliteti për ekzekutimin e detyrës audio në një transmetim audio, si p.sh. nga mikrofoni. Në këtë modalitet, resultListener duhet të thirret për të vendosur një dëgjues për të marrë rezultatet e klasifikimit në mënyrë asinkrone.
{ AUDIO_CLIPS, AUDIO_STREAM } AUDIO_CLIPS
display_names_locale Vendos gjuhën e etiketave për t'u përdorur për emrat e shfaqur të dhëna në meta të dhënat e modelit të detyrës, nëse disponohet. Parazgjedhja është en për anglisht. Ju mund të shtoni etiketa të lokalizuara në meta të dhënat e një modeli të personalizuar duke përdorur API-në e shkrimtarit metadata TensorFlow Lite Kodi lokal sq
max_results Vendos numrin maksimal opsional të rezultateve të klasifikimit me pikët më të mira për t'u kthyer. Nëse < 0, të gjitha rezultatet e disponueshme do të kthehen. Çdo numër pozitiv -1
score_threshold Vendos pragun e rezultatit të parashikimit që tejkalon atë të dhënë në meta të dhënat e modelit (nëse ka). Rezultatet nën këtë vlerë refuzohen. [0.0, 1.0] Nuk është vendosur
category_allowlist Vendos listën opsionale të emrave të kategorive të lejuara. Nëse nuk janë bosh, rezultatet e klasifikimit emri i kategorisë së të cilave nuk është në këtë grup do të filtrohen. Emrat e kopjuar ose të panjohur të kategorive shpërfillen. Ky opsion është reciprokisht ekskluziv me category_denylist dhe duke përdorur të dyja rezultatet në një gabim. Çdo varg Nuk është vendosur
category_denylist Vendos listën opsionale të emrave të kategorive që nuk lejohen. Nëse nuk janë bosh, rezultatet e klasifikimit emri i kategorisë së të cilave është në këtë grup do të filtrohen. Emrat e kopjuar ose të panjohur të kategorive shpërfillen. Ky opsion është reciprokisht ekskluziv me category_allowlist dhe duke përdorur të dyja rezultatet në një gabim. Çdo varg Nuk është vendosur
result_callback Vendos dëgjuesin e rezultateve që të marrë rezultatet e klasifikimit në mënyrë asinkrone kur Klasifikuesi i audios është në modalitetin e transmetimit audio. Mund të përdoret vetëm kur modaliteti i ekzekutimit është caktuar në AUDIO_STREAM N/A Nuk është vendosur

Modelet

Klasifikuesi i audios kërkon që një model klasifikimi audio të shkarkohet dhe të ruhet në drejtorinë e projektit tuaj. Filloni me modelin e paracaktuar, të rekomanduar për platformën tuaj të synuar kur të filloni të zhvilloni këtë detyrë. Modelet e tjera të disponueshme zakonisht bëjnë shkëmbime ndërmjet performancës, saktësisë, rezolucionit dhe kërkesave për burime, dhe në disa raste, përfshijnë veçori shtesë.

Modeli Yamnet është një klasifikues i ngjarjeve audio i trajnuar në grupin e të dhënave AudioSet për të parashikuar ngjarjet audio të përcaktuara në të dhënat AudioSet. Për informacion mbi ngjarjet audio të njohura nga ky model, shihni listën e etiketave të modeleve.

Emri i modelit Forma e hyrjes Lloji i kuantizimit Versionet
YamNet 1 x 15600 Asnjë (float32) E fundit

Standardet e detyrave

Këtu janë standardet e detyrave për të gjithë tubacionin bazuar në modelet e mësipërme të para-trajnuara. Rezultati i vonesës është vonesa mesatare në Pixel 6 duke përdorur CPU / GPU.

Emri i modelit Vonesa e CPU-së Vonesa e GPU-së
YamNet 12.29 ms -