دليل المهام التفاعلية لتقسيم الصور

تتيح لك مهمة MediaPipe Interactive segmenter تقسيم صورة إلى منطقتين: كائن محدد وكل شيء آخر. تأخذ المهمة موقعًا في صورة، وتقدّر حدود كائن في هذا الموقع، ثم تعرض بيانات الصورة التي تحدد مساحة الكائن. يمكنك استخدام هذه المهمة لتحديد كائن في صورة بشكل تفاعلي واستخدام المخرجات لتطبيق التأثيرات على الصورة، مثل تراكبات الألوان التي تسلط الضوء على الكائن أو تعتيم الخلفية من حوله. وتعمل هذه المهمة على بيانات الصور باستخدام نموذج تعلُّم الآلة (ML)، ويمكنك استخدامه على صور فردية أو ملفات فيديو أو بث فيديو مستمر.

تجربة الميزة

البدء

ابدأ في استخدام هذه المهمة باتباع أحد أدلة التنفيذ هذه للنظام الأساسي المستهدف. ترشدك هذه الأدلة الخاصة بالنظام الأساسي إلى التنفيذ الأساسي لهذه المهمة، بما في ذلك النموذج المقترح ومثال الرمز البرمجي مع خيارات التهيئة المقترحة:

تفاصيل المهمة

يصف هذا القسم الإمكانات والمدخلات والمخرجات وخيارات الضبط لهذه المهمة.

الميزات

  • معالجة إدخال الصور: تشمل المعالجة تدوير الصور وتغيير حجمها وتسويتها وتحويل مساحة اللون.
إدخالات المهام نتائج المهام
  • إحداثيات نقطة الاهتمام لكائن في صورة
  • ملف الصورة الذي ستتم معالجته
تعمل أداة تقسيم الصور التفاعلية على إخراج بيانات صور مقسّمة، والتي يمكن أن تتضمّن أحد الإجراءَين التاليَين أو كليهما، وفقًا لخيارات الضبط التي تحدّدها:
  • CATEGORY_MASK: قائمة تحتوي على قناع مجزّأ كصورة بتنسيق uint8. وتشير كل قيمة بكسل إلى ما إذا كان جزءًا من الكائن الواقع في المنطقة محط الاهتمام.
  • CONFIDENCE_MASK: قائمة بالقنوات التي تحتوي على قناع مقسّم مع قيم وحدات بكسل بتنسيق float32. وتشير كل قيمة بكسل إلى مستوى الثقة في أنّه جزء من العنصر الموجود في المنطقة محط الاهتمام.

خيارات الإعدادات

تتضمن هذه المهمة خيارات الإعداد التالية:

اسم الخيار الوصف نطاق القيمة القيمة التلقائية
output_category_mask في حال ضبط هذه السمة على True، ستتضمّن الناتج قناع تقسيم على شكل صورة uint8، حيث تشير كل قيمة بكسل إلى ما إذا كان البكسل جزءًا من العنصر الواقع في المنطقة محط الاهتمام. {True, False} False
output_confidence_masks في حال ضبط هذه القيمة على True، يشتمل الناتج على قناع تصنيف على أنّه صورة ذات قيمة عائمة، حيث تمثل كل قيمة عائمة مستوى الثقة بأنّ وحدة البكسل هي جزء من الكائن في المنطقة محط الاهتمام. {True, False} True
display_names_locale تحدِّد هذه السياسة لغة التصنيفات التي سيتم استخدامها للأسماء المعروضة في البيانات الوصفية لنموذج المهمة، إذا كان ذلك متاحًا. الإعداد التلقائي هو en للغة الإنجليزية. يمكنك إضافة تصنيفات مترجَمة إلى البيانات الوصفية لنموذج مخصّص باستخدام TensorFlow Lite Metadata Scriptr API. رمز اللغة en

النماذج

يمكن استخدام أداة تقسيم الصور التفاعلية مع أكثر من نموذج تعلُّم الآلة. ابدأ بالنموذج الافتراضي الموصى به للنظام الأساسي المستهدف عند بدء التطوير باستخدام هذه المهمة. تُجري النماذج الأخرى المتاحة عادةً مقايضة بين الأداء والدقة والدقة ومتطلبات الموارد، وفي بعض الحالات، تتضمن ميزات إضافية.

يحدد هذا النموذج القطع المحددة بإحداثيات الصورة الخاصة بالمنطقة محط الاهتمام. يستخدم النموذج شبكة عصبية التفافية تشبه بنية MobileNetV3، مع برنامج فك ترميز مخصّص.

اسم النموذج إدخال الشكل نوع الكمية بطاقة النموذج الإصدارات
MagicTouch 512 × 512 × 4 لا شيء (float32) معلومات الأحدث

مقاييس أداء المهام

إليك مقاييس أداء المهمة لمسار العملية بأكمله بناءً على النماذج المدربة مسبقًا أعلاه. وتكون نتيجة وقت الاستجابة هي متوسط وقت الاستجابة على هاتف Pixel 6 باستخدام وحدة المعالجة المركزية (CPU)/وحدة معالجة الرسومات.

اسم النموذج وقت استجابة وحدة المعالجة المركزية (CPU) وقت استجابة وحدة معالجة الرسومات
MagicTouch 130.11 ملي ثانية 67.25 ملي ثانية