دليل المهام التفاعلية لتقسيم الصور

صور بجانب بعضها تعرض صورة لكرسي في صورة واحدة ثم الصورة نفسها مع تمييز الكرسي للإشارة إلى أنّ النموذج رصد الكرسي

تتيح لك مهمة "أداة تقسيم الصور التفاعلية" من MediaPipe تقسيم صورة إلى منطقتَين: جسم مُحدَّد وكل شيء آخر. تأخذ المهمة موقعًا جغرافيًا في صورة، وتُقدّر حدود كائن في ذلك الموقع الجغرافي، وتُرجع بيانات الصورة التي تحدِّد مساحة الكائن. يمكنك استخدام هذه المهمة لاختيار عنصر في صورة بشكل تفاعلي واستخدام النتيجة لتطبيق تأثيرات على الصورة، مثل التداخلات بالألوان التي تُبرز العنصر أو تمويه الخلفية المحيطة به. تعمل هذه المهمة على بيانات الصور باستخدام نموذج تعلُّم الآلة، ويمكنك استخدامها مع صور فردية أو ملفات فيديو أو بث فيديو مستمر.

ننصحك بتجربة الميزة.

البدء

ابدأ استخدام هذه المهمة باتّباع أحد أدلة التنفيذ هذه ل منصّتك المستهدفة. ترشدك هذه الأدلة الخاصة بالنظام الأساسي إلى تنفيذ أساسي لهذه المهمة، بما في ذلك نموذج مقترَح ومثال على الرمز المبرمَج مع خيارات الإعداد المقترَحة:

تفاصيل المهمة

يصف هذا القسم ميزات هذه المهمة ومدخلاتها ومخرجاتها وخيارات الضبط.

الميزات

  • معالجة الصور المُدخلة: تشمل المعالجة تدوير الصور وتغيير حجمها وتسويتها وتحويل مساحة الألوان.
مدخلات المهام نتائج المهام
  • إحداثيات نقطة الاهتمام لكائن في صورة
  • ملف الصورة المطلوب معالجته
تُخرج أداة "تقسيم الصور التفاعلي" بيانات الصور المقسّمة، والتي يمكن أن تتضمّن أحد الخيارين التاليين أو كلاهما، استنادًا إلى خيارات الإعداد التي تحدّدها:
  • CATEGORY_MASK: قائمة تحتوي على قناع مقسّم بتنسيق uint8 تشير كل قيمة بكسل إلى ما إذا كان ذلك البكسل جزءًا من العنصر الذي يقع في منطقة الاهتمام.
  • CONFIDENCE_MASK: قائمة بالقنوات التي تحتوي على قناع مقسّم بقيم وحدات البكسل بتنسيق float32 تشير كل قيمة بكسل إلى مستوى الثقة بأنّها جزء من الجسم المُحدَّد في منطقة الاهتمام.

خيارات الإعدادات

تتضمّن هذه المهمة خيارات الضبط التالية:

اسم الخيار الوصف نطاق القيمة القيمة التلقائية
output_category_mask في حال ضبط القيمة على True، يتضمّن الإخراج قناع تقسيم كصورة uint8، حيث تشير كل قيمة بكسل إلى ما إذا كان البكسل جزءًا من الجسم الموجود في منطقة الاهتمام. {True, False} False
output_confidence_masks في حال ضبطه على True، يتضمّن الناتج قناع تقسيم كصورة قيمة عائمة، حيث تمثّل كل قيمة عائمة ثقة بأنّ البكسل هو جزء من الجسم الواقع في منطقة الاهتمام. {True, False} True
display_names_locale لضبط لغة التصنيفات لاستخدامها في الأسماء المعروضة المقدَّمة في البيانات الوصفية لنموذج المهمة، في حال توفّرها. القيمة التلقائية هي en لعبارة English. يمكنك إضافة تصنيفات مترجَمة إلى البيانات الوصفية لنموذج مخصّص باستخدام واجهة برمجة التطبيقات TensorFlow Lite Metadata Writer API. رمز اللغة en

النماذج

يمكن استخدام أداة "تقسيم الصور التفاعلي" مع أكثر من نموذج تعلُّم آلي واحد. ابدأ باستخدام النموذج المُقترَح والمُعدّ بشكلٍ تلقائي للمنصة المستهدَفة عند بدء التطوير باستخدام هذه المهمة. توازن النماذج الأخرى المتاحة عادةً بين الأداء والدقة ودرجة الدقة ومتطلبات الموارد، وفي بعض الحالات، تتضمن ميزات إضافية.

يحدِّد هذا النموذج الشرائح استنادًا إلى إحداثيات الصورة لمنطقة ذات أهمية. يستخدم النموذج شبكة عصبية تجميعية، تشبه بنية MobileNetV3 ، مع وحدة فك ترميز مخصّصة.

اسم الطراز شكل الإدخال نوع التقريب بطاقة النموذج الإصدارات
MagicTouch ‫512 x ‏512 x ‏4 لا شيء (float32) info الأحدث

مقاييس أداء المهام

في ما يلي مقاييس أداء المهام لعملية المعالجة بأكملها استنادًا إلى نماذج pretrained المدرَّبة مسبقًا أعلاه. نتيجة وقت الاستجابة هي متوسط وقت الاستجابة على هاتف Pixel 6 باستخدام وحدة المعالجة المركزية / وحدة معالجة الرسومات.

اسم النموذج وقت استجابة وحدة المعالجة المركزية وقت استجابة وحدة معالجة الرسومات
MagicTouch 130.11 ملي ثانية 67.25 ملي ثانية