وظیفه MediaPipe Audio Classifier به شما امکان می دهد کلیپ های صوتی را در مجموعه ای از دسته بندی های تعریف شده طبقه بندی کنید، مانند موسیقی گیتار، سوت قطار، یا آواز پرنده. دسته ها در طول آموزش مدل تعریف می شوند. این وظیفه بر روی داده های صوتی با مدل یادگیری ماشینی (ML) به عنوان کلیپ های صوتی مستقل یا یک جریان پیوسته عمل می کند و فهرستی از دسته های بالقوه را که بر اساس امتیاز احتمال نزولی رتبه بندی شده اند، خروجی می دهد.
شروع کنید
استفاده از این کار را با دنبال کردن یکی از این راهنماهای پیاده سازی برای پلتفرم هدف خود شروع کنید. این راهنماهای مخصوص پلتفرم شما را از طریق اجرای اساسی این کار، از جمله یک مدل توصیه شده، و نمونه کد با گزینه های پیکربندی توصیه شده، راهنمایی می کنند:
این راهنماهای مخصوص پلتفرم شما را از طریق اجرای اساسی این کار، از جمله یک مدل توصیه شده و نمونه کد با گزینه های پیکربندی توصیه شده، راهنمایی می کنند.
جزئیات کار
این بخش قابلیت ها، ورودی ها، خروجی ها و گزینه های پیکربندی این کار را شرح می دهد.
امکانات
- پردازش صوتی ورودی - پردازش شامل نمونهبرداری مجدد صدا، بافر کردن، کادربندی و تبدیل فوریه است.
- برچسب محلی نقشه - زبان مورد استفاده برای نام های نمایشی را تنظیم کنید
- آستانه امتیاز - نتایج را بر اساس نمرات پیش بینی فیلتر کنید.
- تشخیص Top-k - نتایج تشخیص عدد را فیلتر کنید.
- برچسب لیست مجاز و رد لیست - دسته های شناسایی شده را مشخص کنید.
ورودی های وظیفه | خروجی های وظیفه |
---|---|
ورودی می تواند یکی از انواع داده های زیر باشد:
| Audio Classifier لیستی از دسته ها را خروجی می دهد که شامل:
|
گزینه های پیکربندی
این کار دارای گزینه های پیکربندی زیر است:
نام گزینه | شرح | محدوده ارزش | مقدار پیش فرض |
---|---|---|---|
running_mode | حالت اجرا را برای کار تنظیم می کند. طبقه بندی کننده صدا دو حالت دارد: AUDIO_CLIPS: حالت اجرای کار صوتی روی کلیپ های صوتی مستقل. AUDIO_STREAM: حالت اجرای کار صوتی در یک جریان صوتی، مانند میکروفون. در این حالت، resultListener باید فراخوانی شود تا شنونده ای را تنظیم کند تا نتایج طبقه بندی را به صورت ناهمزمان دریافت کند. | { AUDIO_CLIPS, AUDIO_STREAM } | AUDIO_CLIPS |
display_names_locale | زبان برچسبها را برای استفاده برای نامهای نمایشی ارائه شده در فراداده مدل کار، در صورت وجود، تنظیم میکند. پیش فرض برای انگلیسی en است. با استفاده از TensorFlow Lite Metadata Writer API میتوانید برچسبهای محلی را به ابرداده یک مدل سفارشی اضافه کنید. | کد محلی | en |
max_results | حداکثر تعداد اختیاری نتایج طبقه بندی با امتیاز بالا را برای بازگشت تنظیم می کند. اگر < 0 باشد، تمام نتایج موجود برگردانده خواهند شد. | هر عدد مثبت | -1 |
score_threshold | آستانه امتیاز پیشبینی را تنظیم میکند که بر آستانه ارائهشده در فراداده مدل (در صورت وجود) لغو میشود. نتایج زیر این مقدار رد می شوند. | [0.0، 1.0] | تنظیم نشده |
category_allowlist | فهرست اختیاری نامهای دستهبندی مجاز را تنظیم میکند. در صورت خالی نبودن، نتایج طبقه بندی که نام دسته آنها در این مجموعه نیست فیلتر می شود. نامهای دستهبندی تکراری یا ناشناخته نادیده گرفته میشوند. این گزینه با category_denylist منحصر به فرد است و از هر دو نتیجه در یک خطا استفاده می کند. | هر رشته | تنظیم نشده |
category_denylist | فهرست اختیاری نامهای دستههایی را که مجاز نیستند را تنظیم میکند. در صورت خالی نبودن، نتایج طبقه بندی که نام دسته آنها در این مجموعه است فیلتر می شود. نامهای دستهبندی تکراری یا ناشناخته نادیده گرفته میشوند. این گزینه با category_allowlist منحصر به فرد است و از هر دو نتیجه در یک خطا استفاده می کند. | هر رشته | تنظیم نشده |
result_callback | شنونده نتیجه را طوری تنظیم میکند که وقتی طبقهبندی کننده صوتی در حالت پخش صدا است، نتایج طبقهبندی را به صورت ناهمزمان دریافت کند. فقط زمانی می توان از آن استفاده کرد که حالت اجرا روی AUDIO_STREAM تنظیم شده باشد | N/A | تنظیم نشده |
مدل ها
Audio Classifier به یک مدل طبقه بندی صدا نیاز دارد که دانلود و در فهرست پروژه شما ذخیره شود. هنگامی که شروع به توسعه با این کار می کنید، با مدل پیش فرض و توصیه شده برای پلتفرم هدف خود شروع کنید. سایر مدلهای موجود معمولاً بین عملکرد، دقت، وضوح و نیازهای منابع، معاوضه ایجاد میکنند و در برخی موارد، ویژگیهای اضافی را نیز شامل میشوند.
مدل Yamnet (توصیه می شود)
مدل Yamnet یک طبقهبندی کننده رویداد صوتی است که روی مجموعه داده AudioSet برای پیشبینی رویدادهای صوتی تعریفشده در دادههای AudioSet آموزش دیده است. برای اطلاعات در مورد رویدادهای صوتی شناسایی شده توسط این مدل، به لیست برچسب های مدل مراجعه کنید.
نام مدل | شکل ورودی | نوع کوانتیزاسیون | نسخه ها |
---|---|---|---|
یام نت | 1 × 15600 | هیچکدام (float32) | آخرین |
معیارهای وظیفه
در اینجا معیارهای کار برای کل خط لوله بر اساس مدل های از پیش آموزش دیده بالا آمده است. نتیجه تأخیر، متوسط تأخیر پیکسل 6 با استفاده از CPU / GPU است.
نام مدل | تاخیر CPU | تاخیر GPU |
---|---|---|
یام نت | 12.29 میلیثانیه | - |
وظیفه MediaPipe Audio Classifier به شما امکان می دهد کلیپ های صوتی را در مجموعه ای از دسته بندی های تعریف شده طبقه بندی کنید، مانند موسیقی گیتار، سوت قطار، یا آواز پرنده. دسته ها در طول آموزش مدل تعریف می شوند. این وظیفه بر روی داده های صوتی با مدل یادگیری ماشینی (ML) به عنوان کلیپ های صوتی مستقل یا یک جریان پیوسته عمل می کند و فهرستی از دسته های بالقوه را که بر اساس امتیاز احتمال نزولی رتبه بندی شده اند، خروجی می دهد.
شروع کنید
استفاده از این کار را با دنبال کردن یکی از این راهنماهای پیاده سازی برای پلتفرم هدف خود شروع کنید. این راهنماهای مخصوص پلتفرم شما را از طریق اجرای اساسی این کار، از جمله یک مدل توصیه شده، و نمونه کد با گزینه های پیکربندی توصیه شده، راهنمایی می کنند:
این راهنماهای مخصوص پلتفرم شما را از طریق اجرای اساسی این کار، از جمله یک مدل توصیه شده و نمونه کد با گزینه های پیکربندی توصیه شده، راهنمایی می کنند.
جزئیات کار
این بخش قابلیت ها، ورودی ها، خروجی ها و گزینه های پیکربندی این کار را شرح می دهد.
امکانات
- پردازش صوتی ورودی - پردازش شامل نمونهبرداری مجدد صدا، بافر کردن، کادربندی و تبدیل فوریه است.
- برچسب محلی نقشه - زبان مورد استفاده برای نام های نمایشی را تنظیم کنید
- آستانه امتیاز - نتایج را بر اساس نمرات پیش بینی فیلتر کنید.
- تشخیص Top-k - نتایج تشخیص عدد را فیلتر کنید.
- برچسب لیست مجاز و رد لیست - دسته های شناسایی شده را مشخص کنید.
ورودی های وظیفه | خروجی های وظیفه |
---|---|
ورودی می تواند یکی از انواع داده های زیر باشد:
| Audio Classifier لیستی از دسته ها را خروجی می دهد که شامل:
|
گزینه های پیکربندی
این کار دارای گزینه های پیکربندی زیر است:
نام گزینه | شرح | محدوده ارزش | مقدار پیش فرض |
---|---|---|---|
running_mode | حالت اجرا را برای کار تنظیم می کند. طبقه بندی کننده صدا دو حالت دارد: AUDIO_CLIPS: حالت اجرای کار صوتی روی کلیپ های صوتی مستقل. AUDIO_STREAM: حالت اجرای کار صوتی در یک جریان صوتی، مانند میکروفون. در این حالت، resultListener باید فراخوانی شود تا شنونده ای را تنظیم کند تا نتایج طبقه بندی را به صورت ناهمزمان دریافت کند. | { AUDIO_CLIPS, AUDIO_STREAM } | AUDIO_CLIPS |
display_names_locale | زبان برچسبها را برای استفاده برای نامهای نمایشی ارائه شده در فراداده مدل کار، در صورت وجود، تنظیم میکند. پیش فرض برای انگلیسی en است. با استفاده از TensorFlow Lite Metadata Writer API میتوانید برچسبهای محلی را به ابرداده یک مدل سفارشی اضافه کنید. | کد محلی | en |
max_results | حداکثر تعداد اختیاری نتایج طبقه بندی با امتیاز بالا را برای بازگشت تنظیم می کند. اگر < 0 باشد، تمام نتایج موجود برگردانده خواهند شد. | هر عدد مثبت | -1 |
score_threshold | آستانه امتیاز پیشبینی را تنظیم میکند که بر آستانه ارائهشده در فراداده مدل (در صورت وجود) لغو میشود. نتایج زیر این مقدار رد می شوند. | [0.0، 1.0] | تنظیم نشده |
category_allowlist | فهرست اختیاری نامهای دستهبندی مجاز را تنظیم میکند. در صورت خالی نبودن، نتایج طبقه بندی که نام دسته آنها در این مجموعه نیست فیلتر می شود. نامهای دستهبندی تکراری یا ناشناخته نادیده گرفته میشوند. این گزینه با category_denylist منحصر به فرد است و از هر دو نتیجه در یک خطا استفاده می کند. | هر رشته | تنظیم نشده |
category_denylist | فهرست اختیاری نامهای دستههایی را که مجاز نیستند را تنظیم میکند. در صورت خالی نبودن، نتایج طبقه بندی که نام دسته آنها در این مجموعه است فیلتر می شود. نامهای دستهبندی تکراری یا ناشناخته نادیده گرفته میشوند. این گزینه با category_allowlist منحصر به فرد است و از هر دو نتیجه در یک خطا استفاده می کند. | هر رشته | تنظیم نشده |
result_callback | شنونده نتیجه را طوری تنظیم میکند که وقتی طبقهبندی کننده صوتی در حالت پخش صدا است، نتایج طبقهبندی را به صورت ناهمزمان دریافت کند. فقط زمانی می توان از آن استفاده کرد که حالت اجرا روی AUDIO_STREAM تنظیم شده باشد | N/A | تنظیم نشده |
مدل ها
Audio Classifier به یک مدل طبقه بندی صدا نیاز دارد که دانلود و در فهرست پروژه شما ذخیره شود. هنگامی که شروع به توسعه با این کار می کنید، با مدل پیش فرض و توصیه شده برای پلتفرم هدف خود شروع کنید. سایر مدلهای موجود معمولاً بین عملکرد، دقت، وضوح و نیازهای منابع، معاوضه ایجاد میکنند و در برخی موارد، ویژگیهای اضافی را نیز شامل میشوند.
مدل Yamnet (توصیه می شود)
مدل Yamnet یک طبقهبندی کننده رویداد صوتی است که روی مجموعه داده AudioSet برای پیشبینی رویدادهای صوتی تعریفشده در دادههای AudioSet آموزش دیده است. برای اطلاعات در مورد رویدادهای صوتی شناسایی شده توسط این مدل، به لیست برچسب های مدل مراجعه کنید.
نام مدل | شکل ورودی | نوع کوانتیزاسیون | نسخه ها |
---|---|---|---|
یام نت | 1 × 15600 | هیچکدام (float32) | آخرین |
معیارهای وظیفه
در اینجا معیارهای کار برای کل خط لوله بر اساس مدل های از پیش آموزش دیده بالا آمده است. نتیجه تأخیر، متوسط تأخیر پیکسل 6 با استفاده از CPU / GPU است.
نام مدل | تاخیر CPU | تاخیر GPU |
---|---|---|
یام نت | 12.29 میلیثانیه | - |