تتيح لك مهمة MediaPipe Interactive segmenter تقسيم صورة إلى منطقتين: كائن محدد وكل شيء آخر. تأخذ المهمة موقعًا في صورة، وتقدّر حدود كائن في هذا الموقع، ثم تعرض بيانات الصورة التي تحدد مساحة الكائن. يمكنك استخدام هذه المهمة لتحديد كائن في صورة بشكل تفاعلي واستخدام المخرجات لتطبيق التأثيرات على الصورة، مثل تراكبات الألوان التي تسلط الضوء على الكائن أو تعتيم الخلفية من حوله. وتعمل هذه المهمة على بيانات الصور باستخدام نموذج تعلُّم الآلة (ML)، ويمكنك استخدامه على صور فردية أو ملفات فيديو أو بث فيديو مستمر.
البدء
ابدأ في استخدام هذه المهمة باتباع أحد أدلة التنفيذ هذه للنظام الأساسي المستهدف. ترشدك هذه الأدلة الخاصة بالنظام الأساسي إلى التنفيذ الأساسي لهذه المهمة، بما في ذلك النموذج المقترح ومثال الرمز البرمجي مع خيارات التهيئة المقترحة:
- Android - مثال على الرمز البرمجي - Guide
- Python - مثال على الرمز البرمجي - Guide
- الويب - مثال على الرمز البرمجي - Guide
تفاصيل المهمة
يصف هذا القسم الإمكانات والمدخلات والمخرجات وخيارات الضبط لهذه المهمة.
الميزات
- معالجة إدخال الصور: تشمل المعالجة تدوير الصور وتغيير حجمها وتسويتها وتحويل مساحة اللون.
إدخالات المهام | نتائج المهام |
---|---|
|
تعمل أداة تقسيم الصور التفاعلية على إخراج بيانات صور مقسّمة، والتي يمكن أن تتضمّن أحد الإجراءَين التاليَين أو
كليهما، وفقًا لخيارات الضبط التي تحدّدها:
|
خيارات الإعدادات
تتضمن هذه المهمة خيارات الإعداد التالية:
اسم الخيار | الوصف | نطاق القيمة | القيمة التلقائية |
---|---|---|---|
output_category_mask |
في حال ضبط هذه السمة على True ، ستتضمّن الناتج قناع تقسيم على شكل صورة uint8، حيث تشير كل قيمة بكسل إلى ما إذا كان البكسل جزءًا من العنصر الواقع في المنطقة محط الاهتمام. |
{True, False } |
False |
output_confidence_masks |
في حال ضبط هذه القيمة على True ، يشتمل الناتج على قناع تصنيف على أنّه صورة ذات قيمة عائمة، حيث تمثل كل قيمة عائمة مستوى الثقة بأنّ وحدة البكسل هي جزء من الكائن في المنطقة محط الاهتمام. |
{True, False } |
True |
display_names_locale |
تحدِّد هذه السياسة لغة التصنيفات التي سيتم استخدامها للأسماء المعروضة في
البيانات الوصفية لنموذج المهمة، إذا كان ذلك متاحًا. الإعداد التلقائي هو en للغة الإنجليزية. يمكنك إضافة تصنيفات مترجَمة إلى البيانات الوصفية لنموذج مخصّص باستخدام TensorFlow Lite Metadata Scriptr API.
| رمز اللغة | en |
النماذج
يمكن استخدام أداة تقسيم الصور التفاعلية مع أكثر من نموذج تعلُّم الآلة. ابدأ بالنموذج الافتراضي الموصى به للنظام الأساسي المستهدف عند بدء التطوير باستخدام هذه المهمة. تُجري النماذج الأخرى المتاحة عادةً مقايضة بين الأداء والدقة والدقة ومتطلبات الموارد، وفي بعض الحالات، تتضمن ميزات إضافية.
نموذج MagicTouch (يُنصح به)
يحدد هذا النموذج القطع المحددة بإحداثيات الصورة الخاصة بالمنطقة محط الاهتمام. يستخدم النموذج شبكة عصبية التفافية تشبه بنية MobileNetV3، مع برنامج فك ترميز مخصّص.
اسم النموذج | إدخال الشكل | نوع الكمية | بطاقة النموذج | الإصدارات |
---|---|---|---|---|
MagicTouch | 512 × 512 × 4 | لا شيء (float32) | معلومات | الأحدث |
مقاييس أداء المهام
إليك مقاييس أداء المهمة لمسار العملية بأكمله بناءً على النماذج المدربة مسبقًا أعلاه. وتكون نتيجة وقت الاستجابة هي متوسط وقت الاستجابة على هاتف Pixel 6 باستخدام وحدة المعالجة المركزية (CPU)/وحدة معالجة الرسومات.
اسم النموذج | وقت استجابة وحدة المعالجة المركزية (CPU) | وقت استجابة وحدة معالجة الرسومات |
---|---|---|
MagicTouch | 130.11 ملي ثانية | 67.25 ملي ثانية |