মুখ সনাক্তকরণ গাইড

তিনজন ব্যক্তি যাদের মুখ বাউন্ডিং বক্স দিয়ে হাইলাইট করা হয়েছে

মিডিয়াপাইপ ফেস ডিটেক্টর টাস্কটি আপনাকে একটি ছবি বা ভিডিওতে মুখমণ্ডল শনাক্ত করতে সাহায্য করে। একটি ফ্রেমের মধ্যে মুখমণ্ডল এবং মুখের বৈশিষ্ট্যগুলো সনাক্ত করতে আপনি এই টাস্কটি ব্যবহার করতে পারেন। এই টাস্কটি একটি মেশিন লার্নিং (ML) মডেল ব্যবহার করে, যা একক ছবি অথবা ছবির একটি অবিচ্ছিন্ন ধারার সাথে কাজ করতে পারে। টাস্কটি মুখের অবস্থানের পাশাপাশি নিম্নলিখিত মুখের মূল বিন্দুগুলো আউটপুট হিসেবে প্রদান করে: বাম চোখ, ডান চোখ, নাকের ডগা, মুখ, বাম চোখের অঞ্চল এবং ডান চোখের অঞ্চল।

চেষ্টা করে দেখুন!

শুরু করুন

আপনার টার্গেট প্ল্যাটফর্মের জন্য এই ইমপ্লিমেন্টেশন গাইডগুলোর মধ্যে একটি অনুসরণ করে এই টাস্কটি ব্যবহার করা শুরু করুন। এই প্ল্যাটফর্ম-নির্দিষ্ট গাইডগুলো আপনাকে এই টাস্কটির একটি বেসিক ইমপ্লিমেন্টেশনের মাধ্যমে ধাপে ধাপে এগিয়ে নিয়ে যাবে, যার মধ্যে একটি প্রস্তাবিত মডেল এবং প্রস্তাবিত কনফিগারেশন অপশনসহ কোডের উদাহরণ অন্তর্ভুক্ত রয়েছে:

অ্যান্ড্রয়েড - কোড উদাহরণ - নির্দেশিকা
পাইথন - কোড উদাহরণ - নির্দেশিকা
ওয়েব - কোড উদাহরণ - নির্দেশিকা
iOS - কোড উদাহরণ - নির্দেশিকা

কাজের বিবরণ

এই অংশে এই টাস্কটির সক্ষমতা, ইনপুট, আউটপুট এবং কনফিগারেশন বিকল্পগুলো বর্ণনা করা হয়েছে।

বৈশিষ্ট্য

ইনপুট ইমেজ প্রসেসিং - এই প্রসেসিংয়ের মধ্যে রয়েছে ইমেজ রোটেশন, রিসাইজিং, নর্মালাইজেশন এবং কালার স্পেস কনভার্সন।
স্কোর থ্রেশহোল্ড - পূর্বাভাস স্কোরের ভিত্তিতে ফলাফল ফিল্টার করুন।

টাস্ক ইনপুট	টাস্ক আউটপুট
ফেস ডিটেক্টর নিম্নলিখিত ডেটা টাইপগুলির মধ্যে যেকোনো একটি ইনপুট হিসেবে গ্রহণ করে: স্থির চিত্র ডিকোড করা ভিডিও ফ্রেম লাইভ ভিডিও ফিড	ফেস ডিটেক্টর নিম্নলিখিত ফলাফলগুলো প্রদান করে: একটি ইমেজ ফ্রেমে শনাক্তকৃত মুখমণ্ডলগুলোর বাউন্ডিং বক্স। শনাক্তকৃত প্রতিটি মুখের জন্য ৬টি গুরুত্বপূর্ণ স্থানের স্থানাঙ্ক।

টাস্ক ইনপুট

টাস্ক আউটপুট

ফেস ডিটেক্টর নিম্নলিখিত ডেটা টাইপগুলির মধ্যে যেকোনো একটি ইনপুট হিসেবে গ্রহণ করে:

স্থির চিত্র

ডিকোড করা ভিডিও ফ্রেম

লাইভ ভিডিও ফিড

ফেস ডিটেক্টর নিম্নলিখিত ফলাফলগুলো প্রদান করে:

একটি ইমেজ ফ্রেমে শনাক্তকৃত মুখমণ্ডলগুলোর বাউন্ডিং বক্স।

শনাক্তকৃত প্রতিটি মুখের জন্য ৬টি গুরুত্বপূর্ণ স্থানের স্থানাঙ্ক।

কনফিগারেশন বিকল্পগুলি

এই টাস্কটির নিম্নলিখিত কনফিগারেশন অপশনগুলো রয়েছে:

বিকল্পের নাম	বর্ণনা	মান পরিসীমা	ডিফল্ট মান
`running_mode`	টাস্কটির চলমান মোড নির্ধারণ করে। তিনটি মোড রয়েছে: IMAGE: একক ছবি ইনপুটের মোড। ভিডিও: কোনো ভিডিওর ডিকোড করা ফ্রেমগুলোর মোড। লাইভস্ট্রিম: ক্যামেরা থেকে প্রাপ্ত ইনপুট ডেটার লাইভস্ট্রিমের মোড। এই মোডে, অ্যাসিঙ্ক্রোনাসভাবে ফলাফল গ্রহণ করার জন্য একটি লিসেনার সেট আপ করতে resultListener অবশ্যই কল করতে হবে।	{ `IMAGE, VIDEO, LIVE_STREAM` }	`IMAGE`
`min_detection_confidence`	মুখ শনাক্তকরণ সফল বলে বিবেচিত হওয়ার জন্য ন্যূনতম কনফিডেন্স স্কোর।	`Float [0,1]`	`0.5`
`min_suppression_threshold`	মুখ শনাক্তকরণকে ওভারল্যাপড হিসেবে বিবেচনা করার জন্য সর্বনিম্ন নন-ম্যাক্সিমাম-সাপ্রেশন থ্রেশহোল্ড।	`Float [0,1]`	`0.3`
`result_callback`	ফেস ডিটেক্টর লাইভ স্ট্রিম মোডে থাকাকালীন ডিটেকশনের ফলাফল অ্যাসিঙ্ক্রোনাসভাবে গ্রহণ করার জন্য রেজাল্ট লিসেনার সেট করে। এটি শুধুমাত্র তখনই ব্যবহার করা যাবে যখন রানিং মোড `LIVE_STREAM` এ সেট করা থাকে।	`N/A`	`Not set`

মডেল

মুখ শনাক্তকরণ মডেলগুলো তাদের উদ্দিষ্ট ব্যবহারের ক্ষেত্র, যেমন স্বল্প-পাল্লার এবং দীর্ঘ-পাল্লার শনাক্তকরণের উপর নির্ভর করে ভিন্ন হতে পারে। মডেলগুলো সাধারণত কর্মক্ষমতা, নির্ভুলতা, রেজোলিউশন এবং প্রয়োজনীয় সম্পদের মধ্যে সমন্বয় করে থাকে এবং কিছু ক্ষেত্রে অতিরিক্ত বৈশিষ্ট্যও অন্তর্ভুক্ত করে।

এই বিভাগে তালিকাভুক্ত মডেলগুলি হলো ব্লেজফেস (BlazeFace)-এর বিভিন্ন সংস্করণ। ব্লেজফেস হলো একটি হালকা ও নির্ভুল মুখ শনাক্তকারী যন্ত্র, যা মোবাইল জিপিইউ ইনফারেন্সের জন্য অপ্টিমাইজ করা হয়েছে। ব্লেজফেস মডেলগুলি ৩ডি ফেসিয়াল কীপয়েন্ট এস্টিমেশন, এক্সপ্রেশন ক্লাসিফিকেশন এবং ফেস রিজিয়ন সেগমেন্টেশনের মতো অ্যাপ্লিকেশনের জন্য উপযুক্ত। ব্লেজফেস মোবাইলনেটভি১/ভি২ (MobileNetV1/V2) -এর অনুরূপ একটি হালকা ফিচার এক্সট্র্যাকশন নেটওয়ার্ক ব্যবহার করে।

ব্লেজফেস (স্বল্প-পাল্লা)

স্মার্টফোন ক্যামেরা বা ওয়েবক্যাম থেকে তোলা সেলফির মতো ছবির মধ্যে একটি বা একাধিক মুখ শনাক্ত করার জন্য একটি হালকা মডেল। মডেলটি স্বল্প পাল্লায় ফোনের সামনের ক্যামেরার ছবির জন্য বিশেষভাবে তৈরি করা হয়েছে। মডেলটির আর্কিটেকচারে একটি কাস্টম এনকোডারসহ সিঙ্গেল শট ডিটেক্টর (SSD) কনভল্যুশনাল নেটওয়ার্ক কৌশল ব্যবহার করা হয়েছে। আরও তথ্যের জন্য, সিঙ্গেল শট মাল্টিবক্স ডিটেক্টর সম্পর্কিত গবেষণা পত্রটি দেখুন।

মডেলের নাম	ইনপুট আকৃতি	কোয়ান্টাইজেশন টাইপ	মডেল কার্ড	সংস্করণ
ব্লেজফেস (স্বল্প-পাল্লা)	১২৮ x ১২৮	ভাসুন ১৬	তথ্য	সর্বশেষ

ব্লেজফেস (পূর্ণ পরিসর)

স্মার্টফোন ক্যামেরা বা ওয়েবক্যাম থেকে তোলা ছবির মধ্যে একটি বা একাধিক মুখমণ্ডল শনাক্ত করার জন্য এটি একটি তুলনামূলকভাবে হালকা মডেল। মডেলটি পূর্ণ-পরিসরের ছবির জন্য অপ্টিমাইজ করা হয়েছে, যেমন ফোনের পেছনের ক্যামেরা দিয়ে তোলা ছবি। মডেলটির আর্কিটেকচারে একটি কাস্টম এনকোডারসহ সেন্টারনেট কনভল্যুশনাল নেটওয়ার্কের অনুরূপ একটি কৌশল ব্যবহার করা হয়েছে।

মডেলের নাম	ইনপুট আকৃতি	কোয়ান্টাইজেশন টাইপ	মডেল কার্ড	সংস্করণ
ব্লেজফেস (পূর্ণ পরিসর)	১২৮ x ১২৮	ভাসুন ১৬	তথ্য	সর্বশেষ

ব্লেজফেস স্পার্স (পূর্ণ-পরিসর)

সাধারণ ফুল-রেঞ্জ ব্লেজফেস মডেলের একটি হালকা সংস্করণ, যা আকারে প্রায় ৬০% ছোট। মডেলটি ফুল-রেঞ্জ ছবির জন্য অপ্টিমাইজ করা হয়েছে, যেমন ফোনের পেছনের ক্যামেরা দিয়ে তোলা ছবি। মডেলটির আর্কিটেকচারে একটি কাস্টম এনকোডারসহ সেন্টারনেট কনভোলিউশনাল নেটওয়ার্কের অনুরূপ একটি কৌশল ব্যবহার করা হয়েছে।

মডেলের নাম	ইনপুট আকৃতি	কোয়ান্টাইজেশন টাইপ	মডেল কার্ড	সংস্করণ
ব্লেজফেস স্পার্স (পূর্ণ-পরিসর)	১২৮ x ১২৮	ভাসুন ১৬	তথ্য	সর্বশেষ

টাস্ক বেঞ্চমার্ক

উপরে উল্লিখিত প্রি-ট্রেইনড মডেলগুলোর উপর ভিত্তি করে সম্পূর্ণ পাইপলাইনের টাস্ক বেঞ্চমার্ক নিচে দেওয়া হলো। ল্যাটেন্সি ফলাফলটি হলো পিক্সেল ৬-এ সিপিইউ / জিপিইউ ব্যবহার করে প্রাপ্ত গড় ল্যাটেন্সি।

মডেলের নাম	সিপিইউ লেটেন্সি	জিপিইউ লেটেন্সি
ব্লেজফেস (স্বল্প-পাল্লা)	২.৯৪ মিলিসেকেন্ড	৭.৪১ মিলিসেকেন্ড