دليل التعرّف على الوجوه

تتيح لك مهمة MediaPipe اكتشاف الوجوه في صورة أو فيديو. يمكنك استخدام هذه المهمة لتحديد موقع الوجوه وملامح الوجه داخل الإطار. تستخدم هذه المهمة نموذج التعلم الآلي (ML) الذي يعمل مع الصور الفردية أو التدفق المستمر للصور. وتؤدي المهمة إلى إخراج مواقع الوجه، بالإضافة إلى النقاط الرئيسية للوجه التالية: العين اليسرى، والعين اليمنى، وطرف الأنف، والفم، وإراحة العين اليسرى، وجرح العين اليمنى.

تجربة الميزة

البدء

ابدأ في استخدام هذه المهمة باتباع أحد أدلة التنفيذ هذه للنظام الأساسي المستهدف. ترشدك هذه الأدلة الخاصة بالنظام الأساسي إلى التنفيذ الأساسي لهذه المهمة، بما في ذلك النموذج المقترح ومثال الرمز البرمجي مع خيارات التهيئة المقترحة:

تفاصيل المهمة

يصف هذا القسم الإمكانات والمدخلات والمخرجات وخيارات الضبط لهذه المهمة.

الميزات

  • معالجة إدخال الصور: تشمل المعالجة تدوير الصور وتغيير حجمها وتسويتها وتحويل مساحة اللون.
  • الحد الأدنى للنتيجة - فلترة النتائج استنادًا إلى نتائج التوقعات.
إدخالات المهام نتائج المهام
تقبل ميزة "التعرّف على الوجه" إدخالاً من أحد أنواع البيانات التالية:
  • الصور الثابتة
  • إطارات الفيديو التي تم فك ترميزها
  • خلاصة الفيديو المباشر
تعطي ميزة "التعرّف على الوجوه" النتائج التالية:
  • مربعات الربط للوجوه التي تم اكتشافها في إطار الصورة.
  • إحداثيات 6 معالم وجه لكل وجه تم اكتشافه.

خيارات الإعدادات

تتضمن هذه المهمة خيارات الإعداد التالية:

اسم الخيار الوصف نطاق القيمة القيمة التلقائية
running_mode تحدِّد هذه السياسة وضع التشغيل للمهمة. هناك ثلاثة أوضاع:

IMAGE: وضع إدخالات الصورة الفردية.

فيديو: وضع لقطات الفيديو التي تم فك ترميزها

البث المباشر: وضع بث مباشر لبيانات الإدخال، مثل الكاميرا. في هذا الوضع، يجب استدعاء resultsListener لإعداد أداة معالجة الصوت لكي تتلقى النتائج بشكل غير متزامن.
{IMAGE, VIDEO, LIVE_STREAM} IMAGE
min_detection_confidence الحد الأدنى لدرجة الثقة ليتم اعتبار ميزة "التعرّف على الوجه" ناجحة. Float [0,1] 0.5
min_suppression_threshold الحد الأدنى غير الأقصى للمنع الذي يتم اعتباره ميزة "التعرّف على الوجه" متداخلاً. Float [0,1] 0.3
result_callback يعمل هذا الإعداد على ضبط أداة معالجة النتائج لتلقّي نتائج الرصد بشكل غير متزامن عندما تكون أداة التعرّف على الوجوه في وضع البث المباشر. لا يمكن استخدام هذا العمود إلّا عند ضبط وضع التشغيل على LIVE_STREAM. N/A Not set

النماذج

قد تختلف نماذج اكتشاف الوجوه بناءً على حالات الاستخدام المقصودة من بينها، مثل الرصد القصير المدى والبعيد. تُجري النماذج أيضًا مقايضة بين الأداء والدقة والدقة ومتطلبات الموارد، وفي بعض الحالات، تتضمّن ميزات إضافية.

إن النماذج الواردة في هذا القسم هي متغيرات من BlazeFace، وهي أداة اكتشاف وجه خفيفة ودقيقة ومحسّنة للاستنتاج من وحدة معالجة الرسومات على الأجهزة المحمولة. وتُعدّ نماذج BlazeFace مناسبة لتطبيقات مثل تقدير النقاط الرئيسية للوجه ثلاثي الأبعاد وتصنيف التعبير وتقسيم مناطق الوجه. تستخدم BlazeFace شبكة استخراج ميزات خفيفة مثل MobileNetV1/V2.

BlazeFace (قصير المدى)

نموذج خفيف لاكتشاف الوجوه الفردية أو المتعددة ضمن الصور الشبيهة بالصور الذاتية من كاميرا الهاتف الذكي أو كاميرا الويب. تم تحسين النموذج ليناسب صور كاميرا الهاتف الواجهة الأمامية في نطاق قصير. تستخدم بنية النموذج تقنية الشبكة الالتفافية الخاصة بأداة كشف اللقطات الأحادية (SSD) مع برنامج ترميز مخصّص. للاطّلاع على مزيد من المعلومات، يُرجى الاطّلاع على ورقة البحث حول أداة اكتشاف المربع المتعدد لقطات واحدة.

اسم النموذج إدخال الشكل نوع الكمية بطاقة النموذج الإصدارات
BlazeFace (قصير المدى) 128 × 128 العدد العائم 16 معلومات الأحدث

BlazeFace (نطاق كامل)

نموذج خفيف نسبيًا للكشف عن الوجوه الفردية أو المتعددة داخل الصور الواردة من كاميرا الهاتف الذكي أو كاميرا الويب. تم تحسين النموذج ليناسب الصور ذات النطاق الكامل، مثل تلك التي يتم التقاطها باستخدام صور كاميرا الهاتف الخلفية. تستخدم بنية النموذج تقنية مشابهة لشبكة CenterNet الالتفافية مع برنامج ترميز مخصّص.

اسم النموذج إدخال الشكل نوع الكمية بطاقة النموذج الإصدارات
BlazeFace (نطاق كامل) 128 × 128 العدد العائم 16 معلومات يتوفر قريبًا

ممتلئ الوجه المتقطع (نطاق كامل)

هو نسخة أخف من النموذج العادي للنطاق الكامل BlezeFace، بحجم أصغر بنسبة 60% تقريبًا. تم تحسين النموذج ليناسب الصور ذات النطاق الكامل، مثل الصور التي يتم التقاطها باستخدام صور كاميرا الهاتف الخلفية. تستخدم بنية النموذج أسلوبًا مشابهًا لشبكة CenterNet الالتفافية مع برنامج ترميز مخصّص.

اسم النموذج إدخال الشكل نوع الكمية بطاقة النموذج الإصدارات
ممتلئ الوجه المتقطع (نطاق كامل) 128 × 128 العدد العائم 16 معلومات يتوفر قريبًا

مقاييس أداء المهام

إليك مقاييس أداء المهمة لمسار العملية بأكمله بناءً على النماذج المدربة مسبقًا أعلاه. وتكون نتيجة وقت الاستجابة هي متوسط وقت الاستجابة على هاتف Pixel 6 باستخدام وحدة المعالجة المركزية (CPU)/وحدة معالجة الرسومات.

اسم النموذج وقت استجابة وحدة المعالجة المركزية (CPU) وقت استجابة وحدة معالجة الرسومات
BlazeFace (قصير المدى) 2.94 ملي ثانية 7.41 ملي ثانية