راهنمای طبقه بندی صوتی، راهنمای طبقه بندی صوتی

وظیفه MediaPipe Audio Classifier به شما امکان می دهد کلیپ های صوتی را در مجموعه ای از دسته بندی های تعریف شده طبقه بندی کنید، مانند موسیقی گیتار، سوت قطار، یا آواز پرنده. دسته ها در طول آموزش مدل تعریف می شوند. این وظیفه بر روی داده های صوتی با مدل یادگیری ماشینی (ML) به عنوان کلیپ های صوتی مستقل یا یک جریان پیوسته عمل می کند و فهرستی از دسته های بالقوه را که بر اساس امتیاز احتمال نزولی رتبه بندی شده اند، خروجی می دهد.

آن را امتحان کنید!

شروع کنید

استفاده از این کار را با دنبال کردن یکی از این راهنماهای پیاده سازی برای پلتفرم هدف خود شروع کنید. این راهنماهای مخصوص پلتفرم شما را از طریق اجرای اساسی این کار، از جمله یک مدل توصیه شده، و نمونه کد با گزینه های پیکربندی توصیه شده، راهنمایی می کنند:

این راهنماهای مخصوص پلتفرم شما را از طریق اجرای اساسی این کار، از جمله یک مدل توصیه شده و نمونه کد با گزینه های پیکربندی توصیه شده، راهنمایی می کنند.

جزئیات کار

این بخش قابلیت ها، ورودی ها، خروجی ها و گزینه های پیکربندی این کار را شرح می دهد.

امکانات

  • پردازش صوتی ورودی - پردازش شامل نمونه‌برداری مجدد صدا، بافر کردن، کادربندی و تبدیل فوریه است.
  • برچسب محلی نقشه - زبان مورد استفاده برای نام های نمایشی را تنظیم کنید
  • آستانه امتیاز - نتایج را بر اساس نمرات پیش بینی فیلتر کنید.
  • تشخیص Top-k - نتایج تشخیص عدد را فیلتر کنید.
  • برچسب لیست مجاز و رد لیست - دسته های شناسایی شده را مشخص کنید.
ورودی های وظیفه خروجی های وظیفه
ورودی می تواند یکی از انواع داده های زیر باشد:
  • کلیپ های صوتی
  • جریان صوتی
Audio Classifier لیستی از دسته ها را خروجی می دهد که شامل:
  • شاخص دسته: شاخص دسته در خروجی های مدل
  • امتیاز: امتیاز اطمینان برای این دسته، معمولاً به احتمال [0,1]
  • نام دسته (اختیاری): نام دسته که در فراداده مدل TFLite مشخص شده است، در صورت موجود بودن
  • نام نمایشی دسته (اختیاری): یک نام نمایشی برای دسته که در فراداده مدل TFLite مشخص شده است، به زبانی که از طریق گزینه های محلی نام های نمایشی مشخص شده است، در صورت موجود بودن

گزینه های پیکربندی

این کار دارای گزینه های پیکربندی زیر است:

نام گزینه شرح محدوده ارزش مقدار پیش فرض
running_mode حالت اجرا را برای کار تنظیم می کند. طبقه بندی کننده صدا دو حالت دارد:

AUDIO_CLIPS: حالت اجرای کار صوتی روی کلیپ های صوتی مستقل.

AUDIO_STREAM: حالت اجرای کار صوتی در یک جریان صوتی، مانند میکروفون. در این حالت، resultListener باید فراخوانی شود تا شنونده ای را تنظیم کند تا نتایج طبقه بندی را به صورت ناهمزمان دریافت کند.
{ AUDIO_CLIPS, AUDIO_STREAM } AUDIO_CLIPS
display_names_locale زبان برچسب‌ها را برای استفاده برای نام‌های نمایشی ارائه شده در فراداده مدل کار، در صورت وجود، تنظیم می‌کند. پیش فرض برای انگلیسی en است. با استفاده از TensorFlow Lite Metadata Writer API می‌توانید برچسب‌های محلی را به ابرداده یک مدل سفارشی اضافه کنید. کد محلی en
max_results حداکثر تعداد اختیاری نتایج طبقه بندی با امتیاز بالا را برای بازگشت تنظیم می کند. اگر < 0 باشد، تمام نتایج موجود برگردانده خواهند شد. هر عدد مثبت -1
score_threshold آستانه امتیاز پیش‌بینی را تنظیم می‌کند که بر آستانه ارائه‌شده در فراداده مدل (در صورت وجود) لغو می‌شود. نتایج زیر این مقدار رد می شوند. [0.0، 1.0] تنظیم نشده
category_allowlist فهرست اختیاری نام‌های دسته‌بندی مجاز را تنظیم می‌کند. در صورت خالی نبودن، نتایج طبقه بندی که نام دسته آنها در این مجموعه نیست فیلتر می شود. نام‌های دسته‌بندی تکراری یا ناشناخته نادیده گرفته می‌شوند. این گزینه با category_denylist منحصر به فرد است و از هر دو نتیجه در یک خطا استفاده می کند. هر رشته تنظیم نشده
category_denylist فهرست اختیاری نام‌های دسته‌هایی را که مجاز نیستند را تنظیم می‌کند. در صورت خالی نبودن، نتایج طبقه بندی که نام دسته آنها در این مجموعه است فیلتر می شود. نام‌های دسته‌بندی تکراری یا ناشناخته نادیده گرفته می‌شوند. این گزینه با category_allowlist منحصر به فرد است و از هر دو نتیجه در یک خطا استفاده می کند. هر رشته تنظیم نشده
result_callback شنونده نتیجه را طوری تنظیم می‌کند که وقتی طبقه‌بندی کننده صوتی در حالت پخش صدا است، نتایج طبقه‌بندی را به صورت ناهمزمان دریافت کند. فقط زمانی می توان از آن استفاده کرد که حالت اجرا روی AUDIO_STREAM تنظیم شده باشد N/A تنظیم نشده

مدل ها

Audio Classifier به یک مدل طبقه بندی صدا نیاز دارد که دانلود و در فهرست پروژه شما ذخیره شود. هنگامی که شروع به توسعه با این کار می کنید، با مدل پیش فرض و توصیه شده برای پلتفرم هدف خود شروع کنید. سایر مدل‌های موجود معمولاً بین عملکرد، دقت، وضوح و نیازهای منابع، معاوضه ایجاد می‌کنند و در برخی موارد، ویژگی‌های اضافی را نیز شامل می‌شوند.

مدل Yamnet یک طبقه‌بندی کننده رویداد صوتی است که روی مجموعه داده AudioSet برای پیش‌بینی رویدادهای صوتی تعریف‌شده در داده‌های AudioSet آموزش دیده است. برای اطلاعات در مورد رویدادهای صوتی شناسایی شده توسط این مدل، به لیست برچسب های مدل مراجعه کنید.

نام مدل شکل ورودی نوع کوانتیزاسیون نسخه ها
یام نت 1 × 15600 هیچکدام (float32) آخرین

معیارهای وظیفه

در اینجا معیارهای کار برای کل خط لوله بر اساس مدل های از پیش آموزش دیده بالا آمده است. نتیجه تأخیر، متوسط ​​تأخیر پیکسل 6 با استفاده از CPU / GPU است.

نام مدل تاخیر CPU تاخیر GPU
یام نت 12.29 میلی‌ثانیه -
،

وظیفه MediaPipe Audio Classifier به شما امکان می دهد کلیپ های صوتی را در مجموعه ای از دسته بندی های تعریف شده طبقه بندی کنید، مانند موسیقی گیتار، سوت قطار، یا آواز پرنده. دسته ها در طول آموزش مدل تعریف می شوند. این وظیفه بر روی داده های صوتی با مدل یادگیری ماشینی (ML) به عنوان کلیپ های صوتی مستقل یا یک جریان پیوسته عمل می کند و فهرستی از دسته های بالقوه را که بر اساس امتیاز احتمال نزولی رتبه بندی شده اند، خروجی می دهد.

آن را امتحان کنید!

شروع کنید

استفاده از این کار را با دنبال کردن یکی از این راهنماهای پیاده سازی برای پلتفرم هدف خود شروع کنید. این راهنماهای مخصوص پلتفرم شما را از طریق اجرای اساسی این کار، از جمله یک مدل توصیه شده، و نمونه کد با گزینه های پیکربندی توصیه شده، راهنمایی می کنند:

این راهنماهای مخصوص پلتفرم شما را از طریق اجرای اساسی این کار، از جمله یک مدل توصیه شده و نمونه کد با گزینه های پیکربندی توصیه شده، راهنمایی می کنند.

جزئیات کار

این بخش قابلیت ها، ورودی ها، خروجی ها و گزینه های پیکربندی این کار را شرح می دهد.

امکانات

  • پردازش صوتی ورودی - پردازش شامل نمونه‌برداری مجدد صدا، بافر کردن، کادربندی و تبدیل فوریه است.
  • برچسب محلی نقشه - زبان مورد استفاده برای نام های نمایشی را تنظیم کنید
  • آستانه امتیاز - نتایج را بر اساس نمرات پیش بینی فیلتر کنید.
  • تشخیص Top-k - نتایج تشخیص عدد را فیلتر کنید.
  • برچسب لیست مجاز و رد لیست - دسته های شناسایی شده را مشخص کنید.
ورودی های وظیفه خروجی های وظیفه
ورودی می تواند یکی از انواع داده های زیر باشد:
  • کلیپ های صوتی
  • جریان صوتی
Audio Classifier لیستی از دسته ها را خروجی می دهد که شامل:
  • شاخص دسته: شاخص دسته در خروجی های مدل
  • امتیاز: امتیاز اطمینان برای این دسته، معمولاً به احتمال [0,1]
  • نام دسته (اختیاری): نام دسته که در فراداده مدل TFLite مشخص شده است، در صورت موجود بودن
  • نام نمایشی دسته (اختیاری): یک نام نمایشی برای دسته که در فراداده مدل TFLite مشخص شده است، به زبانی که از طریق گزینه های محلی نام های نمایشی مشخص شده است، در صورت موجود بودن

گزینه های پیکربندی

این کار دارای گزینه های پیکربندی زیر است:

نام گزینه شرح محدوده ارزش مقدار پیش فرض
running_mode حالت اجرا را برای کار تنظیم می کند. طبقه بندی کننده صدا دو حالت دارد:

AUDIO_CLIPS: حالت اجرای کار صوتی روی کلیپ های صوتی مستقل.

AUDIO_STREAM: حالت اجرای کار صوتی در یک جریان صوتی، مانند میکروفون. در این حالت، resultListener باید فراخوانی شود تا شنونده ای را تنظیم کند تا نتایج طبقه بندی را به صورت ناهمزمان دریافت کند.
{ AUDIO_CLIPS, AUDIO_STREAM } AUDIO_CLIPS
display_names_locale زبان برچسب‌ها را برای استفاده برای نام‌های نمایشی ارائه شده در فراداده مدل کار، در صورت وجود، تنظیم می‌کند. پیش فرض برای انگلیسی en است. با استفاده از TensorFlow Lite Metadata Writer API می‌توانید برچسب‌های محلی را به ابرداده یک مدل سفارشی اضافه کنید. کد محلی en
max_results حداکثر تعداد اختیاری نتایج طبقه بندی با امتیاز بالا را برای بازگشت تنظیم می کند. اگر < 0 باشد، تمام نتایج موجود برگردانده خواهند شد. هر عدد مثبت -1
score_threshold آستانه امتیاز پیش‌بینی را تنظیم می‌کند که بر آستانه ارائه‌شده در فراداده مدل (در صورت وجود) لغو می‌شود. نتایج زیر این مقدار رد می شوند. [0.0، 1.0] تنظیم نشده
category_allowlist فهرست اختیاری نام‌های دسته‌بندی مجاز را تنظیم می‌کند. در صورت خالی نبودن، نتایج طبقه بندی که نام دسته آنها در این مجموعه نیست فیلتر می شود. نام‌های دسته‌بندی تکراری یا ناشناخته نادیده گرفته می‌شوند. این گزینه با category_denylist منحصر به فرد است و از هر دو نتیجه در یک خطا استفاده می کند. هر رشته تنظیم نشده
category_denylist فهرست اختیاری نام‌های دسته‌هایی را که مجاز نیستند را تنظیم می‌کند. در صورت خالی نبودن، نتایج طبقه بندی که نام دسته آنها در این مجموعه است فیلتر می شود. نام‌های دسته‌بندی تکراری یا ناشناخته نادیده گرفته می‌شوند. این گزینه با category_allowlist منحصر به فرد است و از هر دو نتیجه در یک خطا استفاده می کند. هر رشته تنظیم نشده
result_callback شنونده نتیجه را طوری تنظیم می‌کند که وقتی طبقه‌بندی کننده صوتی در حالت پخش صدا است، نتایج طبقه‌بندی را به صورت ناهمزمان دریافت کند. فقط زمانی می توان از آن استفاده کرد که حالت اجرا روی AUDIO_STREAM تنظیم شده باشد N/A تنظیم نشده

مدل ها

Audio Classifier به یک مدل طبقه بندی صدا نیاز دارد که دانلود و در فهرست پروژه شما ذخیره شود. هنگامی که شروع به توسعه با این کار می کنید، با مدل پیش فرض و توصیه شده برای پلتفرم هدف خود شروع کنید. سایر مدل‌های موجود معمولاً بین عملکرد، دقت، وضوح و نیازهای منابع، معاوضه ایجاد می‌کنند و در برخی موارد، ویژگی‌های اضافی را نیز شامل می‌شوند.

مدل Yamnet یک طبقه‌بندی کننده رویداد صوتی است که روی مجموعه داده AudioSet برای پیش‌بینی رویدادهای صوتی تعریف‌شده در داده‌های AudioSet آموزش دیده است. برای اطلاعات در مورد رویدادهای صوتی شناسایی شده توسط این مدل، به لیست برچسب های مدل مراجعه کنید.

نام مدل شکل ورودی نوع کوانتیزاسیون نسخه ها
یام نت 1 × 15600 هیچکدام (float32) آخرین

معیارهای وظیفه

در اینجا معیارهای کار برای کل خط لوله بر اساس مدل های از پیش آموزش دیده بالا آمده است. نتیجه تأخیر، متوسط ​​تأخیر پیکسل 6 با استفاده از CPU / GPU است.

نام مدل تاخیر CPU تاخیر GPU
یام نت 12.29 میلی‌ثانیه -