تتيح لك مهمة MediaPipe Pose Insightser اكتشاف معالم أجسام بشرية في صورة الفيديو القادم. يمكنك استخدام هذه المهمة لتحديد المواقع الرئيسية للجسم وتحليل الوضعية ونصنِّف الحركات. تستخدِم هذه المَهمّة نماذج تعلُّم الآلة (ML) التي تعمل مع صور فردية أو مقطع فيديو. تتيح لك المهمة إخراج معالم وضعية الجسم في الصورة. وإحداثيات العالم ثلاثية الأبعاد.
البدء
يمكنك بدء استخدام هذه المهمة باتّباع دليل التنفيذ المنصة المستهدفة. ترشدك هذه الأدلة الخاصة بنظام التشغيل خلال لتنفيذ هذه المهمة، بما في ذلك النموذج المقترح ومثال على الرمز البرمجي مع خيارات الضبط المقترَحة:
- Android - مثال على الرمز - الدليل
- Python - مثال على الرمز - الدليل
- الويب - مثال على الرمز - الدليل
تفاصيل المهمة
يصف هذا القسم الإمكانات والمدخلات والمخرجات والإعدادات. الخيارات لهذه المهمة.
الميزات
- معالجة إدخال الصور - تشمل المعالجة تدوير الصور وتغيير حجمها وتسويتها وتحويل مساحة الألوان.
- الحد الأدنى للنتيجة: فلترة النتائج استنادًا إلى نتائج التوقّع.
إدخالات المهام | نتائج المهام |
---|---|
يمكن استخدام أحد أنواع البيانات التالية في أداة Pose Insightser:
|
تُنتج أداة Pose Markdown النتائج التالية:
|
خيارات الإعدادات
تتضمّن هذه المهمة خيارات الضبط التالية:
اسم الخيار | الوصف | نطاق القيمة | القيمة الافتراضية |
---|---|---|---|
running_mode |
لضبط وضع التشغيل للمهمة. هناك ثلاثة
وسائل النقل: IMAGE: وضع إدخالات الصورة الفردية فيديو: وضع الإطارات التي تم فك ترميزها لفيديو معيّن LIVE_STREAM: وضع البث المباشر للإدخال البيانات، مثل تلك الواردة من الكاميرا. في هذا الوضع، يجب أن يكون resultListener يتم استدعاءها لإعداد مستمع للحصول على النتائج بشكل غير متزامن. |
{IMAGE, VIDEO, LIVE_STREAM } |
IMAGE |
num_poses |
الحد الأقصى لعدد الوضعيات التي يمكن رصدها بواسطة أداة جذب الصور | Integer > 0 |
1 |
min_pose_detection_confidence |
الحد الأدنى لنتيجة الثقة لرصد الوضعية تُعد ناجحة. | Float [0.0,1.0] |
0.5 |
min_pose_presence_confidence |
الحد الأدنى لدرجة الثقة للتواجد في الوضعية الجودة في اكتشاف المعالم في الوضع. | Float [0.0,1.0] |
0.5 |
min_tracking_confidence |
الحد الأدنى لنتيجة الثقة لتتبُّع الوضعية حتى يتم اعتباره ناجحًا. | Float [0.0,1.0] |
0.5 |
output_segmentation_masks |
ما إذا كان Pose Markdown يُخرج قناع تجزئة للجهاز الذي تم رصده وضعية. | Boolean |
False |
result_callback |
تعيين أداة معالجة النتيجة لتلقي نتائج المعلم
بشكل غير متزامن عندما يكون Pose Insights في وضع البث المباشر
لا يمكن استخدام الإذن إلا عند ضبط "وضع التشغيل" على LIVE_STREAM |
ResultListener |
N/A |
النماذج
يستخدم Pose Markdown سلسلة من النماذج للتنبؤ بوضع المعالم. الأول كاشف الثاني وجود أجسام بشرية داخل إطار صورة، نموذج يحدد موقع المعالم على الجثث.
يتم تجميع النماذج التالية معًا في حزمة نموذج قابلة للتنزيل:
- نموذج رصد الوضعية: يرصد وجود أجسام ذات أوضاع رئيسية قليلة. المعالم.
- وضع نموذج تحديد المعالم: يتيح لك هذا الخيار إضافة صورة كاملة للوضع. النموذج تقديرًا لـ 33 معلمًا بوضعية ثلاثية الأبعاد.
تستخدم هذه الحزمة شبكة عصبية التفافية تشبه MobileNetV2 ويتم تحسينها لتطبيقات اللياقة البدنية في الوقت الفعلي على الجهاز. يمثل هذا النوع من يستخدم نموذج BlazePose GHUM، نموذج ثلاثي الأبعاد لشكل بشري من أجل تقدير وضع الجسم ثلاثي الأبعاد بشكل فردي في الصور أو مقاطع الفيديو.
حزمة النماذج | شكل الإدخال | نوع البيانات | بطاقات النماذج | الإصدارات |
---|---|---|---|---|
تحديد موضع بارز (مبسّط) | أداة رصد الوضعية: 224 × 224 × 3 علامة تحديد الوضع: 256 × 256 × 3 |
العدد العائم 16 | المعلومات | الأحدث |
تحديد موضع بارز (كامل) | أداة رصد الوضعية: 224 × 224 × 3 علامة تحديد الوضع: 256 × 256 × 3 |
العدد العائم 16 | المعلومات | الأحدث |
التقاط صورة مميّزة (وضع ثقيل) | أداة رصد الوضعية: 224 × 224 × 3 علامة تحديد الوضع: 256 × 256 × 3 |
العدد العائم 16 | المعلومات | الأحدث |
وضع نموذج تحديد المعالم
يتتبع نموذج تحديد الوضعية 33 موقعًا من مواقع معالم الجسم، والتي تمثل الموقع التقريبي لأجزاء الجسم التالية:
يحتوي ناتج النموذج على كل من الإحداثيات التي تمت تسويتها (Landmarks
) والعالم.
الإحداثيات (WorldLandmarks
) لكل مَعلم.