Detyra MediaPipe Audio Classifier ju lejon të klasifikoni klipet audio në një grup kategorish të përcaktuara, të tilla si muzika e kitarës, një bilbil treni ose kënga e një zogu. Kategoritë përcaktohen gjatë trajnimit të modelit. Kjo detyrë funksionon në të dhënat audio me një model të mësimit të makinës (ML) si klipe audio të pavarura ose një transmetim i vazhdueshëm dhe nxjerr një listë të kategorive të mundshme të renditura sipas rezultatit zbritës të probabilitetit.
Filloni
Filloni ta përdorni këtë detyrë duke ndjekur një nga këto udhëzues zbatimi për platformën tuaj të synuar. Këta udhëzues specifikë të platformës ju përcjellin një zbatim bazë të kësaj detyre, duke përfshirë një model të rekomanduar dhe shembull kodi me opsionet e rekomanduara të konfigurimit:
- Android - Shembull kodi - Udhëzues
- Python - Udhëzuesi i shembullit të kodit
- Web - Shembull Kodi - Udhëzues
Këta udhëzues specifikë të platformës ju përcjellin një zbatim bazë të kësaj detyre, duke përfshirë një model të rekomanduar dhe shembull kodi me opsionet e rekomanduara të konfigurimit.
Detajet e detyrës
Ky seksion përshkruan aftësitë, hyrjet, daljet dhe opsionet e konfigurimit të kësaj detyre.
Veçoritë
- Përpunimi i audios në hyrje - Përpunimi përfshin rimostrimin e audios, buferimin, inkuadrimin dhe transformimin Fourier.
- Vendndodhja e hartës së etiketës - Vendos gjuhën e përdorur për emrat e shfaqur
- Pragu i rezultatit - Filtro rezultatet bazuar në rezultatet e parashikimit.
- Zbulimi Top-k - Filtro rezultatet e zbulimit të numrave.
- Emërtoni listën e lejeve dhe listën e refuzimit - Specifikoni kategoritë e zbuluara.
Hyrjet e detyrave | Rezultatet e detyrave |
---|---|
Hyrja mund të jetë një nga llojet e mëposhtme të të dhënave:
| Klasifikuesi i audios nxjerr një listë kategorish që përmbajnë:
|
Opsionet e konfigurimeve
Kjo detyrë ka opsionet e mëposhtme të konfigurimit:
Emri i opsionit | Përshkrimi | Gama e vlerave | Vlera e paracaktuar |
---|---|---|---|
running_mode | Vendos modalitetin e ekzekutimit për detyrën. Klasifikuesi i audios ka dy mënyra: AUDIO_CLIPS: Mënyra për ekzekutimin e detyrës audio në klipe audio të pavarura. AUDIO_STREAM: Modaliteti për ekzekutimin e detyrës audio në një transmetim audio, si p.sh. nga mikrofoni. Në këtë modalitet, resultListener duhet të thirret për të vendosur një dëgjues për të marrë rezultatet e klasifikimit në mënyrë asinkrone. | { AUDIO_CLIPS, AUDIO_STREAM } | AUDIO_CLIPS |
display_names_locale | Vendos gjuhën e etiketave për t'u përdorur për emrat e shfaqur të dhëna në meta të dhënat e modelit të detyrës, nëse disponohet. Parazgjedhja është en për anglisht. Ju mund të shtoni etiketa të lokalizuara në meta të dhënat e një modeli të personalizuar duke përdorur API-në e shkrimtarit metadata TensorFlow Lite | Kodi lokal | sq |
max_results | Vendos numrin maksimal opsional të rezultateve të klasifikimit me pikët më të mira për t'u kthyer. Nëse < 0, të gjitha rezultatet e disponueshme do të kthehen. | Çdo numër pozitiv | -1 |
score_threshold | Vendos pragun e rezultatit të parashikimit që tejkalon atë të dhënë në meta të dhënat e modelit (nëse ka). Rezultatet nën këtë vlerë refuzohen. | [0.0, 1.0] | Nuk është vendosur |
category_allowlist | Vendos listën opsionale të emrave të kategorive të lejuara. Nëse nuk janë bosh, rezultatet e klasifikimit emri i kategorisë së të cilave nuk është në këtë grup do të filtrohen. Emrat e kopjuar ose të panjohur të kategorive shpërfillen. Ky opsion është reciprokisht ekskluziv me category_denylist dhe duke përdorur të dyja rezultatet në një gabim. | Çdo varg | Nuk është vendosur |
category_denylist | Vendos listën opsionale të emrave të kategorive që nuk lejohen. Nëse nuk janë bosh, rezultatet e klasifikimit emri i kategorisë së të cilave është në këtë grup do të filtrohen. Emrat e kopjuar ose të panjohur të kategorive shpërfillen. Ky opsion është reciprokisht ekskluziv me category_allowlist dhe duke përdorur të dyja rezultatet në një gabim. | Çdo varg | Nuk është vendosur |
result_callback | Vendos dëgjuesin e rezultateve që të marrë rezultatet e klasifikimit në mënyrë asinkrone kur Klasifikuesi i audios është në modalitetin e transmetimit audio. Mund të përdoret vetëm kur modaliteti i ekzekutimit është caktuar në AUDIO_STREAM | N/A | Nuk është vendosur |
Modelet
Klasifikuesi i audios kërkon që një model klasifikimi audio të shkarkohet dhe të ruhet në drejtorinë e projektit tuaj. Filloni me modelin e paracaktuar, të rekomanduar për platformën tuaj të synuar kur të filloni të zhvilloni këtë detyrë. Modelet e tjera të disponueshme zakonisht bëjnë shkëmbime ndërmjet performancës, saktësisë, rezolucionit dhe kërkesave për burime, dhe në disa raste, përfshijnë veçori shtesë.
Modeli Yamnet (rekomandohet)
Modeli Yamnet është një klasifikues i ngjarjeve audio i trajnuar në grupin e të dhënave AudioSet për të parashikuar ngjarjet audio të përcaktuara në të dhënat AudioSet. Për informacion mbi ngjarjet audio të njohura nga ky model, shihni listën e etiketave të modeleve.
Emri i modelit | Forma e hyrjes | Lloji i kuantizimit | Versionet |
---|---|---|---|
YamNet | 1 x 15600 | Asnjë (float32) | E fundit |
Standardet e detyrave
Këtu janë standardet e detyrave për të gjithë tubacionin bazuar në modelet e mësipërme të para-trajnuara. Rezultati i vonesës është vonesa mesatare në Pixel 6 duke përdorur CPU / GPU.
Emri i modelit | Vonesa e CPU-së | Vonesa e GPU-së |
---|---|---|
YamNet | 12.29 ms | - |