ইমেজ সেগমেন্টেশন গাইড

ছবির মুখোশের পাশে একজন মানুষের ক্লোজ-আপ ফটোগ্রাফের পাশাপাশি উদাহরণ

MediaPipe ইমেজ সেগমেন্টার টাস্ক আপনাকে পূর্বনির্ধারিত বিভাগের উপর ভিত্তি করে চিত্রগুলিকে অঞ্চলে ভাগ করতে দেয়। আপনি নির্দিষ্ট বস্তু বা টেক্সচার সনাক্ত করতে এই কার্যকারিতা ব্যবহার করতে পারেন, এবং তারপর পটভূমি ঝাপসা করার মতো ভিজ্যুয়াল প্রভাব প্রয়োগ করতে পারেন। এই টাস্কটিতে বেশ কিছু মডেল রয়েছে যা বিশেষভাবে প্রশিক্ষিত ব্যক্তিদের এবং চিত্র ডেটার মধ্যে তাদের বৈশিষ্ট্যগুলিকে বিভক্ত করার জন্য প্রশিক্ষিত, যার মধ্যে রয়েছে:

ব্যক্তি এবং পটভূমি
শুধুমাত্র ব্যক্তির চুল
ব্যক্তির চুল, মুখ, ত্বক, পোশাক এবং আনুষাঙ্গিক

এই টাস্কটি মেশিন লার্নিং (ML) মডেল সহ একক চিত্র বা একটি অবিচ্ছিন্ন ভিডিও স্ট্রিম সহ ইমেজ ডেটার উপর কাজ করে। এটি আপনার চয়ন করা মডেলের উপর নির্ভর করে একটি চিত্রের বস্তু বা অঞ্চলগুলিকে প্রতিনিধিত্ব করে বিভক্ত অঞ্চলগুলির একটি তালিকা আউটপুট করে।

এটা চেষ্টা করুন!

শুরু করুন

আপনার লক্ষ্য প্ল্যাটফর্মের জন্য এই বাস্তবায়ন নির্দেশিকাগুলির একটি অনুসরণ করে এই কাজটি ব্যবহার করা শুরু করুন। এই প্ল্যাটফর্ম-নির্দিষ্ট নির্দেশিকাগুলি আপনাকে এই টাস্কের একটি প্রাথমিক বাস্তবায়নের মাধ্যমে নিয়ে যায়, যার মধ্যে একটি প্রস্তাবিত মডেল এবং প্রস্তাবিত কনফিগারেশন বিকল্পগুলির সাথে কোড উদাহরণ রয়েছে:

অ্যান্ড্রয়েড - কোড উদাহরণ - গাইড
পাইথন - কোড উদাহরণ গাইড
ওয়েব - কোড উদাহরণ - গাইড

টাস্কের বিবরণ

এই বিভাগটি এই কাজের ক্ষমতা, ইনপুট, আউটপুট এবং কনফিগারেশন বিকল্পগুলি বর্ণনা করে।

বৈশিষ্ট্য

ইনপুট ইমেজ প্রসেসিং - প্রসেসিং এর মধ্যে রয়েছে ইমেজ রোটেশন, রিসাইজ, নরমালাইজেশন এবং কালার স্পেস কনভার্সন।

টাস্ক ইনপুট টাস্ক আউটপুট

টাস্ক ইনপুট	টাস্ক আউটপুট
ইনপুট নিম্নলিখিত ডেটা প্রকারগুলির মধ্যে একটি হতে পারে: স্থির চিত্র ডিকোডেড ভিডিও ফ্রেম লাইভ ভিডিও ফিড	ইমেজ সেগমেন্টার আপনার সেট করা কনফিগারেশন বিকল্পের উপর নির্ভর করে সেগমেন্টেড ইমেজ ডেটা আউটপুট করে, যার মধ্যে নিম্নলিখিতগুলির একটি বা উভয়ই অন্তর্ভুক্ত থাকতে পারে: `CATEGORY_MASK` : একটি তালিকা যেখানে একটি uint8 ফরম্যাটের চিত্র হিসাবে একটি খণ্ডিত মুখোশ রয়েছে। প্রতিটি পিক্সেল মান নির্দেশ করে যে এটি মডেল দ্বারা সমর্থিত একটি নির্দিষ্ট সেগমেন্ট বিভাগের অংশ কিনা। `CONFIDENCE_MASK` : float32 ফরম্যাটে পিক্সেল মান সহ একটি সেগমেন্টেড মাস্ক ধারণকারী চ্যানেলগুলির একটি তালিকা। প্রতিটি পিক্সেল মান আত্মবিশ্বাসের স্তর নির্দেশ করে যে এটি মডেল দ্বারা সমর্থিত একটি নির্দিষ্ট বিভাগের অংশ।

ইনপুট নিম্নলিখিত ডেটা প্রকারগুলির মধ্যে একটি হতে পারে:

স্থির চিত্র

ডিকোডেড ভিডিও ফ্রেম

লাইভ ভিডিও ফিড

ইমেজ সেগমেন্টার আপনার সেট করা কনফিগারেশন বিকল্পের উপর নির্ভর করে সেগমেন্টেড ইমেজ ডেটা আউটপুট করে, যার মধ্যে নিম্নলিখিতগুলির একটি বা উভয়ই অন্তর্ভুক্ত থাকতে পারে:

CATEGORY_MASK : একটি তালিকা যেখানে একটি uint8 ফরম্যাটের চিত্র হিসাবে একটি খণ্ডিত মুখোশ রয়েছে। প্রতিটি পিক্সেল মান নির্দেশ করে যে এটি মডেল দ্বারা সমর্থিত একটি নির্দিষ্ট সেগমেন্ট বিভাগের অংশ কিনা।

CONFIDENCE_MASK : float32 ফরম্যাটে পিক্সেল মান সহ একটি সেগমেন্টেড মাস্ক ধারণকারী চ্যানেলগুলির একটি তালিকা। প্রতিটি পিক্সেল মান আত্মবিশ্বাসের স্তর নির্দেশ করে যে এটি মডেল দ্বারা সমর্থিত একটি নির্দিষ্ট বিভাগের অংশ।

কনফিগারেশন অপশন

এই কাজের নিম্নলিখিত কনফিগারেশন বিকল্প আছে:

বিকল্পের নাম	বর্ণনা	মান পরিসীমা	ডিফল্ট মান
`running_mode`	টাস্কের জন্য চলমান মোড সেট করে। তিনটি মোড আছে: IMAGE: একক ইমেজ ইনপুট জন্য মোড. ভিডিও: একটি ভিডিওর ডিকোড করা ফ্রেমের মোড। লাইভ_স্ট্রিম: ইনপুট ডেটার লাইভস্ট্রিমের মোড, যেমন ক্যামেরা থেকে। এই মোডে, ফলাফল শ্রোতাকে অ্যাসিঙ্ক্রোনাসভাবে ফলাফল পেতে একটি শ্রোতা সেট আপ করতে কল করতে হবে।	{ `IMAGE, VIDEO, LIVE_STREAM` }	`IMAGE`
`output_category_mask`	যদি `True` তে সেট করা হয়, আউটপুটে একটি uint8 ইমেজ হিসাবে একটি সেগমেন্টেশন মাস্ক অন্তর্ভুক্ত থাকে, যেখানে প্রতিটি পিক্সেল মান বিজয়ী বিভাগের মান নির্দেশ করে।	{ `True, False` }	`False`
`output_confidence_masks`	যদি `True` তে সেট করা হয়, আউটপুটে একটি ফ্লোট মান চিত্র হিসাবে একটি সেগমেন্টেশন মাস্ক অন্তর্ভুক্ত থাকে, যেখানে প্রতিটি ফ্লোট মান বিভাগের আত্মবিশ্বাস স্কোর মানচিত্র উপস্থাপন করে।	{ `True, False` }	`True`
`display_names_locale`	টাস্কের মডেলের মেটাডেটাতে প্রদত্ত প্রদর্শন নামের জন্য ব্যবহার করার জন্য লেবেলের ভাষা সেট করে, যদি উপলব্ধ থাকে। ইংরেজির জন্য ডিফল্ট হল `en` । আপনি TensorFlow Lite Metadata Writer API ব্যবহার করে একটি কাস্টম মডেলের মেটাডেটাতে স্থানীয় লেবেল যোগ করতে পারেন	স্থানীয় কোড	en
`result_callback`	ইমেজ সেগমেন্টার যখন `LIVE_STREAM` মোডে থাকে তখন ফলাফল শ্রোতাকে অসিঙ্ক্রোনাসভাবে বিভাজন ফলাফল পেতে সেট করে। চলমান মোড `LIVE_STREAM` এ সেট করা থাকলেই কেবল ব্যবহার করা যাবে৷	N/A	N/A

মডেল

ইমেজ সেগমেন্টারটি একাধিক এমএল মডেলের সাথে ব্যবহার করা যেতে পারে। নিম্নলিখিত বিভাজন মডেলগুলির বেশিরভাগই মানুষের ছবিগুলির সাথে বিভাজন করার জন্য তৈরি এবং প্রশিক্ষিত। যাইহোক, DeepLab-v3 মডেলটি একটি সাধারণ উদ্দেশ্য ইমেজ সেগমেন্টার হিসাবে তৈরি করা হয়েছে। আপনার অ্যাপ্লিকেশনের জন্য সবচেয়ে উপযুক্ত মডেল নির্বাচন করুন।

সেলফি সেগমেন্টেশন মডেল

এই মডেলটি একজন ব্যক্তির প্রতিকৃতিকে ভাগ করতে পারে এবং একটি চিত্রের পটভূমি প্রতিস্থাপন বা পরিবর্তন করার জন্য ব্যবহার করা যেতে পারে। মডেল আউটপুট দুটি বিভাগ, সূচক 0-এ ব্যাকগ্রাউন্ড এবং সূচক 1-এ ব্যক্তি। এই মডেলটিতে বর্গাকার সংস্করণ এবং একটি ল্যান্ডস্কেপ সংস্করণ সহ বিভিন্ন ইনপুট আকার সহ সংস্করণ রয়েছে যা অ্যাপ্লিকেশনগুলির জন্য আরও কার্যকর হতে পারে যেখানে ইনপুট সর্বদা সেই আকারে থাকে, যেমন ভিডিও কল .

মডেলের নাম	ইনপুট আকৃতি	কোয়ান্টাইজেশন টাইপ	মডেল কার্ড	সংস্করণ
সেলফি সেগমেন্টার (বর্গক্ষেত্র)	256 x 256	ভাসা 16	তথ্য	সর্বশেষ
সেলফি সেগমেন্টার (ল্যান্ডস্কেপ)	144 x 256	ভাসা 16	তথ্য	সর্বশেষ

চুলের বিভাজন মডেল

এই মডেলটি একজন ব্যক্তির একটি চিত্র নেয়, তাদের মাথার চুলগুলি সনাক্ত করে এবং তাদের চুলের জন্য একটি চিত্র বিভাজন মানচিত্র আউটপুট করে৷ আপনি এই মডেলটি চুল পুনরায় রঙ করার জন্য বা অন্যান্য চুলের প্রভাব প্রয়োগ করতে ব্যবহার করতে পারেন। মডেলটি নিম্নলিখিত বিভাজন বিভাগগুলিকে আউটপুট করে:

0 - background
1 - hair

মডেলের নাম	ইনপুট আকৃতি	কোয়ান্টাইজেশন টাইপ	মডেল কার্ড	সংস্করণ
হেয়ার সেগমেন্টার	512 x 512	কোনটিই নয় (float32)	তথ্য	সর্বশেষ

মাল্টি-ক্লাস সেলফি সেগমেন্টেশন মডেল

এই মডেলটি একজন ব্যক্তির একটি চিত্র নেয়, চুল, ত্বক এবং পোশাকের মতো বিভিন্ন এলাকার জন্য এলাকাগুলি সনাক্ত করে এবং এই আইটেমগুলির জন্য একটি চিত্র বিভাজন মানচিত্র আউটপুট করে। আপনি ছবি বা ভিডিওতে বিভিন্ন প্রভাব প্রয়োগের জন্য এই মডেলটি ব্যবহার করতে পারেন। মডেলটি নিম্নলিখিত বিভাজন বিভাগগুলিকে আউটপুট করে:

0 - background
1 - hair
2 - body-skin
3 - face-skin
4 - clothes
5 - others (accessories)

মডেলের নাম	ইনপুট আকৃতি	কোয়ান্টাইজেশন টাইপ	মডেল কার্ড	সংস্করণ
সেলফি মাল্টিকলাস (256 x 256)	256 x 256	কোনটিই নয় (float32)	তথ্য	সর্বশেষ

DeepLab-v3 মডেল

এই মডেলটি ব্যাকগ্রাউন্ড, ব্যক্তি, বিড়াল, কুকুর এবং পাত্রযুক্ত উদ্ভিদ সহ বেশ কয়েকটি বিভাগের জন্য বিভাগগুলিকে চিহ্নিত করে৷ মডেলটি দীর্ঘ পরিসরের তথ্য ক্যাপচার করার জন্য অ্যাট্রাস স্থানিক পিরামিড পুলিং ব্যবহার করে। আরও তথ্যের জন্য, DeepLab-v3 দেখুন।

মডেলের নাম	ইনপুট আকৃতি	কোয়ান্টাইজেশন টাইপ	সংস্করণ
DeepLab-V3	257 x 257	কোনটিই নয় (float32)	সর্বশেষ

টাস্ক বেঞ্চমার্ক

উপরের পূর্ব-প্রশিক্ষিত মডেলগুলির উপর ভিত্তি করে পুরো পাইপলাইনের জন্য টাস্ক বেঞ্চমার্কগুলি এখানে রয়েছে৷ CPU/GPU ব্যবহার করে Pixel 6-এর গড় বিলম্বিততার ফলাফল হল লেটেন্সি।

মডেলের নাম	CPU লেটেন্সি	GPU লেটেন্সি
সেলফি সেগমেন্টার (বর্গক্ষেত্র)	33.46ms	35.15 মি
সেলফি সেগমেন্টার (ল্যান্ডস্কেপ)	34.19ms	33.55ms
হেয়ার সেগমেন্টার	57.90ms	52.14ms
সেলফি মাল্টিকলাস (256 x 256)	217.76 মি	71.24ms
DeepLab-V3	123.93ms	103.30ms