راهنمای وظیفه تقسیم بندی تصویر تعاملی

تصاویر کنار هم که عکسی از یک صندلی را در یک تصویر نشان می دهد و سپس همان تصویر را با صندلی هایلایت شده نشان می دهد تا نشان دهد که مدل صندلی را شناسایی کرده است.

وظیفه MediaPipe Interactive Image Segmenter به شما امکان می دهد یک تصویر را به دو ناحیه تقسیم کنید: یک شی انتخاب شده و هر چیز دیگری. وظیفه مکانی را در یک تصویر می گیرد، مرزهای یک شی را در آن مکان تخمین می زند، و داده های تصویری را که مساحت شی را مشخص می کند، برمی گرداند. می‌توانید از این کار برای انتخاب تعاملی یک شی در یک تصویر استفاده کنید و از خروجی برای اعمال جلوه‌ها بر روی تصویر استفاده کنید، مانند پوشش‌های رنگی برجسته کردن شی یا محو کردن پس‌زمینه اطراف آن. این کار بر روی داده های تصویر با مدل یادگیری ماشینی (ML) عمل می کند و می توانید از آن بر روی تصاویر تکی، فایل های ویدئویی یا یک جریان ویدئویی مداوم استفاده کنید.

آن را امتحان کنید!

شروع کنید

استفاده از این کار را با دنبال کردن یکی از این راهنماهای پیاده سازی برای پلتفرم هدف خود شروع کنید. این راهنماهای مخصوص پلتفرم شما را از طریق اجرای اساسی این کار، از جمله یک مدل توصیه شده، و نمونه کد با گزینه های پیکربندی توصیه شده، راهنمایی می کنند:

اندروید - نمونه کد - راهنما
پایتون - نمونه کد - راهنما
وب - نمونه کد - راهنما

جزئیات کار

این بخش قابلیت ها، ورودی ها، خروجی ها و گزینه های پیکربندی این کار را شرح می دهد.

ویژگی ها

پردازش تصویر ورودی - پردازش شامل چرخش تصویر، تغییر اندازه، عادی سازی و تبدیل فضای رنگی است.

ورودی های وظیفه خروجی های وظیفه

ورودی های وظیفه	خروجی های وظیفه
مختصات نقطه مورد نظر برای یک شی در یک تصویر فایل تصویری برای پردازش	تقسیم‌کننده تصویر تعاملی داده‌های تصویر بخش‌بندی شده را خروجی می‌دهد، که بسته به گزینه‌های پیکربندی که تنظیم می‌کنید، می‌تواند شامل یکی یا هر دو مورد زیر باشد: `CATEGORY_MASK` : لیستی حاوی یک ماسک قطعه بندی شده به عنوان یک تصویر با فرمت uint8. هر مقدار پیکسل نشان می دهد که آیا بخشی از شی واقع در ناحیه مورد نظر است یا خیر. `CONFIDENCE_MASK` : فهرستی از کانال‌های حاوی یک ماسک قطعه‌بندی شده با مقادیر پیکسل در قالب float32. هر مقدار پیکسل سطح اطمینان را نشان می دهد که بخشی از شی واقع در ناحیه مورد نظر است.

مختصات نقطه مورد نظر برای یک شی در یک تصویر
فایل تصویری برای پردازش

تقسیم‌کننده تصویر تعاملی داده‌های تصویر بخش‌بندی شده را خروجی می‌دهد، که بسته به گزینه‌های پیکربندی که تنظیم می‌کنید، می‌تواند شامل یکی یا هر دو مورد زیر باشد:

CATEGORY_MASK : لیستی حاوی یک ماسک قطعه بندی شده به عنوان یک تصویر با فرمت uint8. هر مقدار پیکسل نشان می دهد که آیا بخشی از شی واقع در ناحیه مورد نظر است یا خیر.

CONFIDENCE_MASK : فهرستی از کانال‌های حاوی یک ماسک قطعه‌بندی شده با مقادیر پیکسل در قالب float32. هر مقدار پیکسل سطح اطمینان را نشان می دهد که بخشی از شی واقع در ناحیه مورد نظر است.

گزینه های پیکربندی

این کار دارای گزینه های پیکربندی زیر است:

نام گزینه	توضیحات	محدوده ارزش	مقدار پیش فرض
`output_category_mask`	اگر روی `True` تنظیم شود، خروجی شامل یک ماسک تقسیم بندی به عنوان یک تصویر uint8 است، که در آن هر مقدار پیکسل نشان می دهد که آیا پیکسل بخشی از شی واقع در ناحیه مورد نظر است یا خیر.	{ `True, False` }	`False`
`output_confidence_masks`	اگر روی `True` تنظیم شود، خروجی شامل یک ماسک تقسیم بندی به عنوان یک تصویر مقدار شناور است، که در آن هر مقدار شناور نشان دهنده اطمینان است که پیکسل بخشی از شی واقع در ناحیه مورد نظر است.	{ `True, False` }	`True`
`display_names_locale`	زبان برچسب‌ها را برای استفاده برای نام‌های نمایشی ارائه شده در فراداده مدل کار، در صورت وجود، تنظیم می‌کند. پیش فرض برای انگلیسی `en` است. با استفاده از TensorFlow Lite Metadata Writer API می‌توانید برچسب‌های محلی را به ابرداده یک مدل سفارشی اضافه کنید.	کد محلی	en

مدل ها

Segmenter تصویر تعاملی را می توان با بیش از یک مدل ML استفاده کرد. هنگامی که شروع به توسعه با این کار می کنید، با مدل پیش فرض و توصیه شده برای پلتفرم هدف خود شروع کنید. سایر مدل‌های موجود معمولاً بین عملکرد، دقت، وضوح و نیازهای منابع، معاوضه ایجاد می‌کنند و در برخی موارد، ویژگی‌های اضافی را نیز شامل می‌شوند.

مدل MagicTouch (توصیه می شود)

این مدل بخش هایی را که مختصات تصویر برای یک منطقه مورد علاقه است مشخص می کند. این مدل از یک شبکه عصبی کانولوشن، شبیه به معماری MobileNetV3 ، با رمزگشای سفارشی استفاده می کند.

نام مدل	شکل ورودی	نوع کوانتیزاسیون	مدل کارت	نسخه ها
مجیک تاچ	512 x 512 x 4	هیچکدام (float32)	اطلاعات	آخرین

معیارهای وظیفه

در اینجا معیارهای کار برای کل خط لوله بر اساس مدل های از پیش آموزش دیده بالا آمده است. نتیجه تأخیر، متوسط تأخیر پیکسل 6 با استفاده از CPU / GPU است.

نام مدل	تأخیر CPU	تاخیر GPU
مجیک تاچ	130.11 میلی‌ثانیه	67.25 میلی‌ثانیه