تتيح لك مهمة "أداة تقسيم الصور التفاعلية" من MediaPipe تقسيم صورة إلى منطقتَين: جسم مُحدَّد وكل شيء آخر. تأخذ المهمة موقعًا جغرافيًا في صورة، وتُقدّر حدود كائن في ذلك الموقع الجغرافي، وتُرجع بيانات الصورة التي تحدِّد مساحة الكائن. يمكنك استخدام هذه المهمة لاختيار عنصر في صورة بشكل تفاعلي واستخدام النتيجة لتطبيق تأثيرات على الصورة، مثل التداخلات بالألوان التي تُبرز العنصر أو تمويه الخلفية المحيطة به. تعمل هذه المهمة على بيانات الصور باستخدام نموذج تعلُّم الآلة، ويمكنك استخدامها مع صور فردية أو ملفات فيديو أو بث فيديو مستمر.
البدء
ابدأ استخدام هذه المهمة باتّباع أحد أدلة التنفيذ هذه ل منصّتك المستهدفة. ترشدك هذه الأدلة الخاصة بالنظام الأساسي إلى تنفيذ أساسي لهذه المهمة، بما في ذلك نموذج مقترَح ومثال على الرمز المبرمَج مع خيارات الإعداد المقترَحة:
- Android - مثال على الرمز البرمجي - دليل
- Python - مثال على الرمز البرمجي - دليل
- الويب: مثال على الرمز البرمجي: دليل
تفاصيل المهمة
يصف هذا القسم ميزات هذه المهمة ومدخلاتها ومخرجاتها وخيارات الضبط.
الميزات
- معالجة الصور المُدخلة: تشمل المعالجة تدوير الصور وتغيير حجمها وتسويتها وتحويل مساحة الألوان.
مدخلات المهام | نتائج المهام |
---|---|
|
تُخرج أداة "تقسيم الصور التفاعلي" بيانات الصور المقسّمة، والتي يمكن أن تتضمّن أحد الخيارين التاليين أو كلاهما، استنادًا إلى خيارات الإعداد التي تحدّدها:
|
خيارات الإعدادات
تتضمّن هذه المهمة خيارات الضبط التالية:
اسم الخيار | الوصف | نطاق القيمة | القيمة التلقائية |
---|---|---|---|
output_category_mask |
في حال ضبط القيمة على True ، يتضمّن الإخراج قناع تقسيم
كصورة uint8، حيث تشير كل قيمة بكسل إلى ما إذا كان البكسل جزءًا من
الجسم الموجود في منطقة الاهتمام. |
{True, False } |
False |
output_confidence_masks |
في حال ضبطه على True ، يتضمّن الناتج قناع تقسيم
كصورة قيمة عائمة، حيث تمثّل كل قيمة عائمة ثقة
بأنّ البكسل هو جزء من الجسم الواقع في منطقة الاهتمام. |
{True, False } |
True |
display_names_locale |
لضبط لغة التصنيفات لاستخدامها في الأسماء المعروضة المقدَّمة في
البيانات الوصفية لنموذج المهمة، في حال توفّرها. القيمة التلقائية هي en لعبارة
English. يمكنك إضافة تصنيفات مترجَمة إلى البيانات الوصفية لنموذج مخصّص
باستخدام واجهة برمجة التطبيقات TensorFlow Lite Metadata Writer API.
| رمز اللغة | en |
النماذج
يمكن استخدام أداة "تقسيم الصور التفاعلي" مع أكثر من نموذج تعلُّم آلي واحد. ابدأ باستخدام النموذج المُقترَح والمُعدّ بشكلٍ تلقائي للمنصة المستهدَفة عند بدء التطوير باستخدام هذه المهمة. توازن النماذج الأخرى المتاحة عادةً بين الأداء والدقة ودرجة الدقة ومتطلبات الموارد، وفي بعض الحالات، تتضمن ميزات إضافية.
طراز MagicTouch (مُقترَح)
يحدِّد هذا النموذج الشرائح استنادًا إلى إحداثيات الصورة لمنطقة ذات أهمية. يستخدم النموذج شبكة عصبية تجميعية، تشبه بنية MobileNetV3 ، مع وحدة فك ترميز مخصّصة.
اسم الطراز | شكل الإدخال | نوع التقريب | بطاقة النموذج | الإصدارات |
---|---|---|---|---|
MagicTouch | 512 x 512 x 4 | لا شيء (float32) | info | الأحدث |
مقاييس أداء المهام
في ما يلي مقاييس أداء المهام لعملية المعالجة بأكملها استنادًا إلى نماذج pretrained المدرَّبة مسبقًا أعلاه. نتيجة وقت الاستجابة هي متوسط وقت الاستجابة على هاتف Pixel 6 باستخدام وحدة المعالجة المركزية / وحدة معالجة الرسومات.
اسم النموذج | وقت استجابة وحدة المعالجة المركزية | وقت استجابة وحدة معالجة الرسومات |
---|---|---|
MagicTouch | 130.11 ملي ثانية | 67.25 ملي ثانية |