وظیفه MediaPipe Interactive Image Segmenter به شما امکان می دهد یک تصویر را به دو ناحیه تقسیم کنید: یک شی انتخاب شده و هر چیز دیگری. وظیفه مکانی را در یک تصویر می گیرد، مرزهای یک شی را در آن مکان تخمین می زند، و داده های تصویری را که مساحت شی را مشخص می کند، برمی گرداند. میتوانید از این کار برای انتخاب تعاملی یک شی در یک تصویر استفاده کنید و از خروجی برای اعمال جلوهها بر روی تصویر استفاده کنید، مانند پوششهای رنگی برجسته کردن شی یا محو کردن پسزمینه اطراف آن. این کار بر روی داده های تصویر با مدل یادگیری ماشینی (ML) عمل می کند و می توانید از آن بر روی تصاویر تکی، فایل های ویدئویی یا یک جریان ویدئویی مداوم استفاده کنید.
شروع کنید
استفاده از این کار را با دنبال کردن یکی از این راهنماهای پیاده سازی برای پلتفرم هدف خود شروع کنید. این راهنماهای مخصوص پلتفرم شما را از طریق اجرای اساسی این کار، از جمله یک مدل توصیه شده، و نمونه کد با گزینه های پیکربندی توصیه شده، راهنمایی می کنند:
جزئیات کار
این بخش قابلیت ها، ورودی ها، خروجی ها و گزینه های پیکربندی این کار را شرح می دهد.
ویژگی ها
- پردازش تصویر ورودی - پردازش شامل چرخش تصویر، تغییر اندازه، عادی سازی و تبدیل فضای رنگی است.
ورودی های وظیفه | خروجی های وظیفه |
---|---|
| تقسیمکننده تصویر تعاملی دادههای تصویر بخشبندی شده را خروجی میدهد، که بسته به گزینههای پیکربندی که تنظیم میکنید، میتواند شامل یکی یا هر دو مورد زیر باشد:
|
گزینه های پیکربندی
این کار دارای گزینه های پیکربندی زیر است:
نام گزینه | توضیحات | محدوده ارزش | مقدار پیش فرض |
---|---|---|---|
output_category_mask | اگر روی True تنظیم شود، خروجی شامل یک ماسک تقسیم بندی به عنوان یک تصویر uint8 است، که در آن هر مقدار پیکسل نشان می دهد که آیا پیکسل بخشی از شی واقع در ناحیه مورد نظر است یا خیر. | { True, False } | False | output_confidence_masks | اگر روی True تنظیم شود، خروجی شامل یک ماسک تقسیم بندی به عنوان یک تصویر مقدار شناور است، که در آن هر مقدار شناور نشان دهنده اطمینان است که پیکسل بخشی از شی واقع در ناحیه مورد نظر است. | { True, False } | True |
display_names_locale | زبان برچسبها را برای استفاده برای نامهای نمایشی ارائه شده در فراداده مدل کار، در صورت وجود، تنظیم میکند. پیش فرض برای انگلیسی en است. با استفاده از TensorFlow Lite Metadata Writer API میتوانید برچسبهای محلی را به ابرداده یک مدل سفارشی اضافه کنید. | کد محلی | en |
مدل ها
Segmenter تصویر تعاملی را می توان با بیش از یک مدل ML استفاده کرد. هنگامی که شروع به توسعه با این کار می کنید، با مدل پیش فرض و توصیه شده برای پلتفرم هدف خود شروع کنید. سایر مدلهای موجود معمولاً بین عملکرد، دقت، وضوح و نیازهای منابع، معاوضه ایجاد میکنند و در برخی موارد، ویژگیهای اضافی را نیز شامل میشوند.
مدل MagicTouch (توصیه می شود)
این مدل بخش هایی را که مختصات تصویر برای یک منطقه مورد علاقه است مشخص می کند. این مدل از یک شبکه عصبی کانولوشن، شبیه به معماری MobileNetV3 ، با رمزگشای سفارشی استفاده می کند.
نام مدل | شکل ورودی | نوع کوانتیزاسیون | مدل کارت | نسخه ها |
---|---|---|---|---|
مجیک تاچ | 512 x 512 x 4 | هیچکدام (float32) | اطلاعات | آخرین |
معیارهای وظیفه
در اینجا معیارهای کار برای کل خط لوله بر اساس مدل های از پیش آموزش دیده بالا آمده است. نتیجه تأخیر، متوسط تأخیر پیکسل 6 با استفاده از CPU / GPU است.
نام مدل | تأخیر CPU | تاخیر GPU |
---|---|---|
مجیک تاچ | 130.11 میلیثانیه | 67.25 میلیثانیه |