دليل تصنيف الصوت

تتيح لك مهمة MediaPipe Audio Classife تصنيف المقاطع الصوتية إلى مجموعة من الفئات المحدّدة، مثل موسيقى الغيتار أو صافرة القطار أو أغنية طائر. يتم تحديد الفئات أثناء تطبيق النموذج. تعمل هذه المهمّة على البيانات الصوتية باستخدام نموذج تعلُّم الآلة كمقاطع صوتية مستقلة أو بث مستمر، وتُخرج قائمة بالفئات المحتملة مرتّبة حسب درجة الاحتمالية تنازليًا.

تجربة الميزة

البدء

ابدأ في استخدام هذه المهمة باتباع أحد أدلة التنفيذ هذه للنظام الأساسي المستهدف. ترشدك هذه الأدلة الخاصة بالنظام الأساسي إلى التنفيذ الأساسي لهذه المهمة، بما في ذلك النموذج المقترح ومثال الرمز البرمجي مع خيارات التهيئة المقترحة:

ترشدك هذه الأدلة الخاصة بنظام التشغيل خلال التنفيذ الأساسي لهذه المهمة، بما في ذلك النموذج المُقترح ومثال الرمز البرمجي مع خيارات الضبط المُقترَحة.

تفاصيل المهمة

يصف هذا القسم الإمكانات والمدخلات والمخرجات وخيارات الضبط لهذه المهمة.

الميزات

  • معالجة الإدخال الصوتي - تشمل المعالجة إعادة تشكيل الصوت والتخزين المؤقت وضبط الإطارات والتحويل الفوري.
  • لغة خريطة التصنيف - ضبط اللغة المستخدمة للأسماء المعروضة
  • الحد الأدنى للنتيجة - فلترة النتائج استنادًا إلى نتائج التوقعات.
  • رصد أهم الرسائل: يمكنك فلترة نتائج رصد الرقم.
  • قائمة التصنيفات المسموح بها وقائمة الحظر: حدِّد الفئات التي تم رصدها.
إدخالات المهام نتائج المهام
يمكن أن يكون الإدخال أحد أنواع البيانات التالية:
  • مقاطع صوتية
  • بث صوتي
يخرج "مصنِّف الصوت" قائمة من الفئات تحتوي على:
  • مؤشر الفئة: فهرس الفئة في مخرجات النموذج
  • النتيجة: درجة الثقة لهذه الفئة، وعادةً ما تكون احتمالية في [0,1]
  • اسم الفئة (اختياري): اسم الفئة كما هو محدّد في البيانات الوصفية لنموذج TFLite، إن توفّرت
  • الاسم المعروض للفئة (اختياري): الاسم المعروض للفئة على النحو المحدّد في البيانات الوصفية لنموذج TFLite، باللغة المحدَّدة من خلال خيارات اللغة الخاصة بالأسماء المعروضة، في حال توفّرها

خيارات الإعدادات

تتضمن هذه المهمة خيارات الإعداد التالية:

اسم الخيار الوصف نطاق القيمة القيمة التلقائية
running_mode تحدِّد هذه السياسة وضع التشغيل للمهمة. هناك وضعان لأداة "تصنيف الصوت":

AUDIO_CLIPS: وضع تشغيل المهام الصوتية على المقاطع الصوتية المستقلة

AUDIO_Stream: وضع تشغيل المهمة الصوتية في بث صوتي، من الميكروفون مثلاً. في هذا الوضع، يجب استدعاء resultListener لإعداد أداة معالجة لاستقبال نتائج التصنيف بشكل غير متزامن.
{AUDIO_CLIPS, AUDIO_STREAM} AUDIO_CLIPS
display_names_locale تحدِّد هذه السياسة لغة التصنيفات التي سيتم استخدامها للأسماء المعروضة في البيانات الوصفية لنموذج المهمة، إذا كان ذلك متاحًا. الإعداد التلقائي هو en للغة الإنجليزية. يمكنك إضافة تصنيفات مترجَمة إلى البيانات الوصفية لنموذج مخصّص باستخدام TensorFlow Lite Metadata Scriptr API. رمز اللغة en
max_results يضبط الحد الأقصى الاختياري لعدد نتائج التصنيف ذات أعلى الدرجات التي تريد عرضها. وإذا كانت القيمة أقل من 0، سيتم عرض جميع النتائج المتاحة. أي أرقام موجبة -1
score_threshold لتعيين الحد الأدنى لدرجة التنبؤ الذي يتجاوز الحد المقدم في البيانات الوصفية للنموذج (إن يتوفر). يتم رفض النتائج التي تقلّ عن هذه القيمة. [0.0، 1.0] لم يتم الضبط.
category_allowlist تُحدِّد القائمة الاختيارية لأسماء الفئات المسموح بها. وإذا لم يكن هذا الحقل فارغًا، ستتم فلترة نتائج التصنيف التي لا يكون اسم فئتها ضمن هذه المجموعة. ويتم تجاهل أسماء الفئات المكررة أو غير المعروفة. لا يمكن استخدام هذا الخيار مع category_denylist، ويؤدي استخدام كلاهما إلى حدوث خطأ. أي سلاسل لم يتم الضبط.
category_denylist تُحدِّد القائمة الاختيارية لأسماء الفئات غير المسموح بها. وإذا لم تكن نتائج التصنيف فارغة، فستتم تصفية نتائج التصنيف التي يوجد اسم فئتها في هذه المجموعة. ويتم تجاهل أسماء الفئات المكررة أو غير المعروفة. لا يمكن استخدام هذا الخيار إلّا مع category_allowlist، ويؤدي استخدام كلا الخيارين إلى حدوث خطأ. أي سلاسل لم يتم الضبط.
result_callback يضبط أداة معالجة النتائج لتلقّي نتائج التصنيف بشكل غير متزامن عندما يكون "مصنِّف الصوت" في وضع البث الصوتي. لا يمكن استخدام هذا الخيار إلا عند ضبط وضع التشغيل على AUDIO_STREAM. لا ينطبق لم يتم الضبط.

النماذج

يتطلب "مصنِّف الصوت" تنزيل نموذج لتصنيف الصوت وتخزينه في دليل مشروعك. ابدأ بالنموذج الافتراضي الموصى به للنظام الأساسي المستهدف عند بدء التطوير باستخدام هذه المهمة. تُجري النماذج الأخرى المتاحة عادةً مقايضة بين الأداء والدقة والدقة ومتطلبات الموارد، وفي بعض الحالات، تتضمن ميزات إضافية.

نموذج Yamnet هو مصنِّف للأحداث الصوتية تم تدريبه على مجموعة بيانات AudioSet من أجل توقُّع الأحداث الصوتية المحدّدة في بيانات AudioSet. للحصول على معلومات عن الأحداث الصوتية التي يتعرّف عليها هذا النموذج، راجِع قائمة تصنيفات النماذج.

اسم النموذج إدخال الشكل نوع الكمية الإصدارات
YamNet 1 x 15600 لا شيء (float32) الأحدث

مقاييس أداء المهام

إليك مقاييس أداء المهمة لمسار العملية بأكمله بناءً على النماذج المدربة مسبقًا أعلاه. وتكون نتيجة وقت الاستجابة هي متوسط وقت الاستجابة على هاتف Pixel 6 باستخدام وحدة المعالجة المركزية (CPU)/وحدة معالجة الرسومات.

اسم النموذج وقت استجابة وحدة المعالجة المركزية (CPU) وقت استجابة وحدة معالجة الرسومات
YamNet 12.29 ملي ثانية -