نشر دليل رصد المعالم

تتيح لك مَهمّة MediaPipe Pose تجاهّرل رصد معالم الأجسام البشرية في صورة أو فيديو. يمكنك استخدام هذه المهمة لتحديد الأماكن الرئيسية للجسم وتحليل وضعية الجسم وتصنيف الحركات. تستعين هذه المهمة بنماذج تعلُّم الآلة التي تعمل مع الصور أو الفيديوهات الفردية. تُخرج المهمة معالم وضعية الجسم في إحداثيات الصور وفي إحداثيات العالم ثلاثية الأبعاد.

تجربة الميزة

البدء

ابدأ في استخدام هذه المهمة باتّباع دليل التنفيذ للمنصّة المستهدَفة. ترشدك هذه الأدلة الخاصة بالنظام الأساسي إلى التنفيذ الأساسي لهذه المهمة، بما في ذلك النموذج المقترح ومثال الرمز البرمجي مع خيارات التهيئة المقترحة:

تفاصيل المهمة

يصف هذا القسم الإمكانات والمدخلات والمخرجات وخيارات الضبط لهذه المهمة.

الميزات

  • معالجة إدخال الصور: تشمل المعالجة تدوير الصور وتغيير حجمها وتسويتها وتحويل مساحة اللون.
  • الحد الأدنى للنتيجة - فلترة النتائج استنادًا إلى نتائج التوقعات.
إدخالات المهام نتائج المهام
تقبل أداة Pose Brander إدخالاً من أحد أنواع البيانات التالية:
  • الصور الثابتة
  • إطارات الفيديو التي تم فك ترميزها
  • خلاصة الفيديو المباشر
تعطي أداة Pose Brander النتائج التالية:
  • وضع المعالم في إحداثيات الصور التي تمت تسويتها
  • التقاط معالم بالإحداثيات العالمية
  • اختياري: قناع تجزئة للوضع.

خيارات الإعدادات

تتضمن هذه المهمة خيارات الإعداد التالية:

اسم الخيار الوصف نطاق القيمة القيمة التلقائية
running_mode تحدِّد هذه السياسة وضع التشغيل للمهمة. هناك ثلاثة أوضاع:

IMAGE: وضع إدخالات الصورة الفردية.

فيديو: وضع لقطات الفيديو التي تم فك ترميزها

البث المباشر: وضع بث مباشر لبيانات الإدخال، مثل الكاميرا. في هذا الوضع، يجب استدعاء resultsListener لإعداد أداة معالجة الصوت لكي تتلقى النتائج بشكل غير متزامن.
{IMAGE, VIDEO, LIVE_STREAM} IMAGE
num_poses تمثّل هذه السمة الحد الأقصى لعدد الأوضاع التي يمكن رصدها من خلال أداة Pose Builders. Integer > 0 1
min_pose_detection_confidence تمثّل هذه السمة الحد الأدنى لدرجة الثقة ليتم اعتبار ميزة اكتشاف الوضعية ناجحة. Float [0.0,1.0] 0.5
min_pose_presence_confidence الحد الأدنى لدرجة الثقة لنتيجة التواجد في الوضعية في رصد المَعلمات التي يتم رصدها. Float [0.0,1.0] 0.5
min_tracking_confidence تمثّل هذه السمة الحد الأدنى لدرجة الثقة ليتم اعتبار تتبُّع الوضعية ناجحًا. Float [0.0,1.0] 0.5
output_segmentation_masks ما إذا كانت أداة Pose تجاهُل تُظهر قناع تصنيف للوضع الذي تم رصده. Boolean False
result_callback تعمل هذه السياسة على ضبط أداة معالجة النتائج لكي تتلقّى نتائج المؤشر بشكل غير متزامن عندما تكون أداة Pose Builderer في وضع البث المباشر. لا يمكن استخدام هذا الخيار إلا عند ضبط وضع التشغيل على LIVE_STREAM. ResultListener N/A

النماذج

يستخدم Pose Historyer سلسلة من النماذج للتنبؤ بوضع المعالم. يرصد النموذج الأول وجود أجسام بشرية داخل إطار صورة، ويحدّد النموذج الثاني المعالم على هذه الجثث.

يتم تجميع النماذج التالية معًا في حزمة نماذج قابلة للتنزيل:

  • نموذج رصد الوضعية: يرصد وجود جثث ذات بعض المعالم الرئيسية.
  • نموذج معلمي الوضع: يضيف هذا النموذج وضعًا كاملًا للوضع. يقدم النموذج تقديرًا لعدد 33 معلمًا ثلاثي الأبعاد.

وتستخدم هذه الحزمة شبكة عصبية التفافية تشبه MobileNetV2، كما يتم تحسينها لتطبيقات اللياقة البدنية في الوقت الفعلي على الجهاز فقط. يستخدم هذا النوع من نموذج BlazePose GHUM، وهو مسار نموذجي ثلاثي الأبعاد لنماذج لأشكال بشرية، وذلك لتقدير وضع الجسم الثلاثي الأبعاد الكامل لفرد في الصور أو الفيديوهات.

حزمة النماذج إدخال الشكل نوع البيانات بطاقات النماذج الإصدارات
معلَم مصوّر (وضع مبسّط) أداة رصد الوضع: 224 × 224 × 3
معلَم الموضع: 256 × 256 × 3
العدد العائم 16 معلومات الأحدث
تحديد موضع الإعلان (كامل) أداة رصد الوضع: 224 × 224 × 3
معلَم الموضع: 256 × 256 × 3
العدد العائم 16 معلومات الأحدث
وضع معلَم (ثقيل) أداة رصد الوضع: 224 × 224 × 3
معلَم الموضع: 256 × 256 × 3
العدد العائم 16 معلومات الأحدث

وضع نموذج للمعلَم

يتتبع نموذج معلَم وضعية 33 موقعًا من مواقع المعالم الجسمية، وهو ما يمثل الموقع التقريبي لأجزاء الجسم التالية:

0 - nose
1 - left eye (inner)
2 - left eye
3 - left eye (outer)
4 - right eye (inner)
5 - right eye
6 - right eye (outer)
7 - left ear
8 - right ear
9 - mouth (left)
10 - mouth (right)
11 - left shoulder
12 - right shoulder
13 - left elbow
14 - right elbow
15 - left wrist
16 - right wrist
17 - left pinky
18 - right pinky
19 - left index
20 - right index
21 - left thumb
22 - right thumb
23 - left hip
24 - right hip
25 - left knee
26 - right knee
27 - left ankle
28 - right ankle
29 - left heel
30 - right heel
31 - left foot index
32 - right foot index

يحتوي ناتج النموذج على كل من الإحداثيات التي تمت تسويتها (Landmarks) والإحداثيات العالمية (WorldLandmarks) لكل مَعلم.