نشر دليل رصد المعالم

تتيح لك مهمة MediaPipe Pose Insightser اكتشاف معالم أجسام بشرية في صورة الفيديو القادم. يمكنك استخدام هذه المهمة لتحديد المواقع الرئيسية للجسم وتحليل الوضعية ونصنِّف الحركات. تستخدِم هذه المَهمّة نماذج تعلُّم الآلة (ML) التي تعمل مع صور فردية أو مقطع فيديو. تتيح لك المهمة إخراج معالم وضعية الجسم في الصورة. وإحداثيات العالم ثلاثية الأبعاد.

جرِّبها.

البدء

يمكنك بدء استخدام هذه المهمة باتّباع دليل التنفيذ المنصة المستهدفة. ترشدك هذه الأدلة الخاصة بنظام التشغيل خلال لتنفيذ هذه المهمة، بما في ذلك النموذج المقترح ومثال على الرمز البرمجي مع خيارات الضبط المقترَحة:

تفاصيل المهمة

يصف هذا القسم الإمكانات والمدخلات والمخرجات والإعدادات. الخيارات لهذه المهمة.

الميزات

  • معالجة إدخال الصور - تشمل المعالجة تدوير الصور وتغيير حجمها وتسويتها وتحويل مساحة الألوان.
  • الحد الأدنى للنتيجة: فلترة النتائج استنادًا إلى نتائج التوقّع.
إدخالات المهام نتائج المهام
يمكن استخدام أحد أنواع البيانات التالية في أداة Pose Insightser:
  • صور ثابتة
  • إطارات الفيديو التي تم فك ترميزها
  • خلاصة فيديو مباشر
تُنتج أداة Pose Markdown النتائج التالية:
  • وضع المعالم في إحداثيات الصور التي تمت تسويتها
  • ضَع المعالم في الإحداثيات العالمية
  • اختياري: قناع تجزئة للوضع.

خيارات الإعدادات

تتضمّن هذه المهمة خيارات الضبط التالية:

اسم الخيار الوصف نطاق القيمة القيمة الافتراضية
running_mode لضبط وضع التشغيل للمهمة. هناك ثلاثة وسائل النقل:

IMAGE: وضع إدخالات الصورة الفردية

فيديو: وضع الإطارات التي تم فك ترميزها لفيديو معيّن

LIVE_STREAM: وضع البث المباشر للإدخال البيانات، مثل تلك الواردة من الكاميرا. في هذا الوضع، يجب أن يكون resultListener يتم استدعاءها لإعداد مستمع للحصول على النتائج بشكل غير متزامن.
{IMAGE, VIDEO, LIVE_STREAM} IMAGE
num_poses الحد الأقصى لعدد الوضعيات التي يمكن رصدها بواسطة أداة جذب الصور Integer > 0 1
min_pose_detection_confidence الحد الأدنى لنتيجة الثقة لرصد الوضعية تُعد ناجحة. Float [0.0,1.0] 0.5
min_pose_presence_confidence الحد الأدنى لدرجة الثقة للتواجد في الوضعية الجودة في اكتشاف المعالم في الوضع. Float [0.0,1.0] 0.5
min_tracking_confidence الحد الأدنى لنتيجة الثقة لتتبُّع الوضعية حتى يتم اعتباره ناجحًا. Float [0.0,1.0] 0.5
output_segmentation_masks ما إذا كان Pose Markdown يُخرج قناع تجزئة للجهاز الذي تم رصده وضعية. Boolean False
result_callback تعيين أداة معالجة النتيجة لتلقي نتائج المعلم بشكل غير متزامن عندما يكون Pose Insights في وضع البث المباشر لا يمكن استخدام الإذن إلا عند ضبط "وضع التشغيل" على LIVE_STREAM ResultListener N/A

النماذج

يستخدم Pose Markdown سلسلة من النماذج للتنبؤ بوضع المعالم. الأول كاشف الثاني وجود أجسام بشرية داخل إطار صورة، نموذج يحدد موقع المعالم على الجثث.

يتم تجميع النماذج التالية معًا في حزمة نموذج قابلة للتنزيل:

  • نموذج رصد الوضعية: يرصد وجود أجسام ذات أوضاع رئيسية قليلة. المعالم.
  • وضع نموذج تحديد المعالم: يتيح لك هذا الخيار إضافة صورة كاملة للوضع. النموذج تقديرًا لـ 33 معلمًا بوضعية ثلاثية الأبعاد.

تستخدم هذه الحزمة شبكة عصبية التفافية تشبه MobileNetV2 ويتم تحسينها لتطبيقات اللياقة البدنية في الوقت الفعلي على الجهاز. يمثل هذا النوع من يستخدم نموذج BlazePose GHUM، نموذج ثلاثي الأبعاد لشكل بشري من أجل تقدير وضع الجسم ثلاثي الأبعاد بشكل فردي في الصور أو مقاطع الفيديو.

حزمة النماذج شكل الإدخال نوع البيانات بطاقات النماذج الإصدارات
تحديد موضع بارز (مبسّط) أداة رصد الوضعية: 224 × 224 × 3
علامة تحديد الوضع: 256 × 256 × 3
العدد العائم 16 المعلومات الأحدث
تحديد موضع بارز (كامل) أداة رصد الوضعية: 224 × 224 × 3
علامة تحديد الوضع: 256 × 256 × 3
العدد العائم 16 المعلومات الأحدث
التقاط صورة مميّزة (وضع ثقيل) أداة رصد الوضعية: 224 × 224 × 3
علامة تحديد الوضع: 256 × 256 × 3
العدد العائم 16 المعلومات الأحدث

وضع نموذج تحديد المعالم

يتتبع نموذج تحديد الوضعية 33 موقعًا من مواقع معالم الجسم، والتي تمثل الموقع التقريبي لأجزاء الجسم التالية:

0 - nose
1 - left eye (inner)
2 - left eye
3 - left eye (outer)
4 - right eye (inner)
5 - right eye
6 - right eye (outer)
7 - left ear
8 - right ear
9 - mouth (left)
10 - mouth (right)
11 - left shoulder
12 - right shoulder
13 - left elbow
14 - right elbow
15 - left wrist
16 - right wrist
17 - left pinky
18 - right pinky
19 - left index
20 - right index
21 - left thumb
22 - right thumb
23 - left hip
24 - right hip
25 - left knee
26 - right knee
27 - left ankle
28 - right ankle
29 - left heel
30 - right heel
31 - left foot index
32 - right foot index

يحتوي ناتج النموذج على كل من الإحداثيات التي تمت تسويتها (Landmarks) والعالم. الإحداثيات (WorldLandmarks) لكل مَعلم.