হ্যান্ড ল্যান্ডমার্ক সনাক্তকরণ গাইড

একটি হাত একটি ডিম ধরে আছে। হাতের আকৃতিটি একটি তারের ফ্রেম দিয়ে চিহ্নিত করা হয় চিহ্নিত করা নির্দেশ করে গঠন

MediaPipe হ্যান্ড ল্যান্ডমার্কার টাস্ক আপনাকে একটি ছবিতে হাতের ল্যান্ডমার্ক সনাক্ত করতে দেয়। আপনি হাতের মূল পয়েন্টগুলি সনাক্ত করতে এবং তাদের উপর ভিজ্যুয়াল ইফেক্ট রেন্ডার করতে এই কাজটি ব্যবহার করতে পারেন। এই টাস্কটি মেশিন লার্নিং (ML) মডেলের সাথে স্ট্যাটিক ডেটা বা একটি অবিচ্ছিন্ন স্ট্রীম হিসাবে ইমেজ ডেটাতে কাজ করে এবং ইমেজ কোঅর্ডিনেটে হ্যান্ড ল্যান্ডমার্ক, ওয়ার্ল্ড কোঅর্ডিনেটে হ্যান্ড ল্যান্ডমার্ক এবং একাধিক শনাক্ত করা হাতের হ্যান্ডেডনেস (বাম/ডান হাতে) আউটপুট করে।

এটা চেষ্টা করুন!

শুরু করুন

আপনার লক্ষ্য প্ল্যাটফর্মের জন্য এই বাস্তবায়ন নির্দেশিকাগুলির একটি অনুসরণ করে এই কাজটি ব্যবহার করা শুরু করুন। এই প্ল্যাটফর্ম-নির্দিষ্ট নির্দেশিকাগুলি আপনাকে এই টাস্কের একটি প্রাথমিক বাস্তবায়নের মাধ্যমে নিয়ে যায়, যার মধ্যে একটি প্রস্তাবিত মডেল এবং প্রস্তাবিত কনফিগারেশন বিকল্পগুলির সাথে কোড উদাহরণ রয়েছে:

অ্যান্ড্রয়েড - কোড উদাহরণ
- গাইড
পাইথন - কোড উদাহরণ
- গাইড
ওয়েব - কোড উদাহরণ - গাইড

টাস্কের বিবরণ

এই বিভাগটি এই কাজের ক্ষমতা, ইনপুট, আউটপুট এবং কনফিগারেশন বিকল্পগুলি বর্ণনা করে।

বৈশিষ্ট্য

ইনপুট ইমেজ প্রসেসিং - প্রসেসিং এর মধ্যে রয়েছে ইমেজ রোটেশন, রিসাইজ, নরমালাইজেশন এবং কালার স্পেস কনভার্সন।
স্কোর থ্রেশহোল্ড - পূর্বাভাস স্কোরের উপর ভিত্তি করে ফলাফল ফিল্টার করুন।

টাস্ক ইনপুট	টাস্ক আউটপুট
হ্যান্ড ল্যান্ডমার্কার নিম্নলিখিত ডেটা প্রকারগুলির একটির একটি ইনপুট গ্রহণ করে: স্থির চিত্র ডিকোডেড ভিডিও ফ্রেম লাইভ ভিডিও ফিড	হ্যান্ড ল্যান্ডমার্কার নিম্নলিখিত ফলাফলগুলি আউটপুট করে: শনাক্ত করা হাতের অস্থিরতা চিত্র স্থানাঙ্কে সনাক্ত করা হাতের ল্যান্ডমার্ক বিশ্বের স্থানাঙ্কে সনাক্ত করা হাতের ল্যান্ডমার্ক

টাস্ক ইনপুট

টাস্ক আউটপুট

হ্যান্ড ল্যান্ডমার্কার নিম্নলিখিত ডেটা প্রকারগুলির একটির একটি ইনপুট গ্রহণ করে:

স্থির চিত্র

ডিকোডেড ভিডিও ফ্রেম

লাইভ ভিডিও ফিড

হ্যান্ড ল্যান্ডমার্কার নিম্নলিখিত ফলাফলগুলি আউটপুট করে:

শনাক্ত করা হাতের অস্থিরতা

চিত্র স্থানাঙ্কে সনাক্ত করা হাতের ল্যান্ডমার্ক

বিশ্বের স্থানাঙ্কে সনাক্ত করা হাতের ল্যান্ডমার্ক

কনফিগারেশন অপশন

এই কাজের নিম্নলিখিত কনফিগারেশন বিকল্প আছে:

বিকল্পের নাম	বর্ণনা	মান পরিসীমা	ডিফল্ট মান
`running_mode`	টাস্কের জন্য চলমান মোড সেট করে। তিনটি মোড আছে: IMAGE: একক ইমেজ ইনপুট জন্য মোড. ভিডিও: একটি ভিডিওর ডিকোড করা ফ্রেমের মোড। লাইভ_স্ট্রিম: ইনপুট ডেটার লাইভস্ট্রিমের মোড, যেমন ক্যামেরা থেকে। এই মোডে, ফলাফল শ্রোতাকে অ্যাসিঙ্ক্রোনাসভাবে ফলাফল পেতে একটি শ্রোতা সেট আপ করতে কল করতে হবে।	{ `IMAGE, VIDEO, LIVE_STREAM` }	`IMAGE`
`num_hands`	হ্যান্ড ল্যান্ডমার্ক ডিটেক্টর দ্বারা সর্বাধিক সংখ্যক হাত সনাক্ত করা হয়েছে।	`Any integer > 0`	`1`
`min_hand_detection_confidence`	হাত শনাক্তকরণের ন্যূনতম আত্মবিশ্বাসের স্কোর পাম সনাক্তকরণ মডেলে সফল বলে বিবেচিত হবে।	`0.0 - 1.0`	`0.5`
`min_hand_presence_confidence`	হ্যান্ড ল্যান্ডমার্ক সনাক্তকরণ মডেলে হাতের উপস্থিতি স্কোরের জন্য সর্বনিম্ন আত্মবিশ্বাসের স্কোর। ভিডিও মোড এবং লাইভ স্ট্রিম মোডে, যদি হ্যান্ড ল্যান্ডমার্ক মডেল থেকে হাতের উপস্থিতি আত্মবিশ্বাসের স্কোর এই থ্রেশহোল্ডের নিচে থাকে, হ্যান্ড ল্যান্ডমার্কার পাম সনাক্তকরণ মডেলটিকে ট্রিগার করে। অন্যথায়, একটি লাইটওয়েট হ্যান্ড ট্র্যাকিং অ্যালগরিদম পরবর্তী ল্যান্ডমার্ক সনাক্তকরণের জন্য হাত(গুলি) এর অবস্থান নির্ধারণ করে।	`0.0 - 1.0`	`0.5`
`min_tracking_confidence`	হ্যান্ড ট্র্যাকিং সফল বলে বিবেচিত হওয়ার জন্য সর্বনিম্ন আত্মবিশ্বাসের স্কোর। এটি বর্তমান ফ্রেমের হাত এবং শেষ ফ্রেমের মধ্যে বাউন্ডিং বক্স IoU থ্রেশহোল্ড৷ হ্যান্ড ল্যান্ডমার্কারের ভিডিও মোড এবং স্ট্রিম মোডে, ট্র্যাকিং ব্যর্থ হলে, হ্যান্ড ল্যান্ডমার্কার হ্যান্ড ডিটেকশন ট্রিগার করে। অন্যথায়, এটি হাত সনাক্তকরণ এড়িয়ে যায়।	`0.0 - 1.0`	`0.5`
`result_callback`	হ্যান্ড ল্যান্ডমার্কার লাইভ স্ট্রীম মোডে থাকাকালীন অ্যাসিঙ্ক্রোনাসভাবে সনাক্তকরণের ফলাফল পেতে ফলাফল শ্রোতাকে সেট করে। চলমান মোড `LIVE_STREAM` এ সেট করা থাকলে শুধুমাত্র প্রযোজ্য৷	N/A	N/A

মডেল

হ্যান্ড ল্যান্ডমার্কার দুটি প্যাকেজযুক্ত মডেল সহ একটি মডেল বান্ডিল ব্যবহার করে: একটি পাম সনাক্তকরণ মডেল এবং একটি হ্যান্ড ল্যান্ডমার্ক সনাক্তকরণ মডেল। এই কাজটি চালানোর জন্য আপনার একটি মডেল বান্ডিল প্রয়োজন যাতে এই দুটি মডেল রয়েছে।

মডেলের নাম	ইনপুট আকৃতি	কোয়ান্টাইজেশন টাইপ	মডেল কার্ড	সংস্করণ
হ্যান্ডল্যান্ডমার্কার (সম্পূর্ণ)	192 x 192, 224 x 224	ভাসা 16	তথ্য	সর্বশেষ

হ্যান্ড ল্যান্ডমার্ক মডেল বান্ডেল সনাক্ত করা হাত অঞ্চলের মধ্যে 21টি হ্যান্ড-নাকল স্থানাঙ্কের মূল পয়েন্ট স্থানীয়করণ সনাক্ত করে। মডেলটিকে প্রায় 30K বাস্তব-বিশ্বের চিত্রের পাশাপাশি বিভিন্ন পটভূমিতে আরোপিত বেশ কয়েকটি রেন্ডার করা সিন্থেটিক হ্যান্ড মডেলের প্রশিক্ষণ দেওয়া হয়েছিল।

হ্যান্ড ল্যান্ডমার্ক মডেল বান্ডেলে একটি পাম সনাক্তকরণ মডেল এবং একটি হ্যান্ড ল্যান্ডমার্ক সনাক্তকরণ মডেল রয়েছে। পাম সনাক্তকরণ মডেল ইনপুট চিত্রের মধ্যে হাতগুলি সনাক্ত করে এবং হ্যান্ড ল্যান্ডমার্ক সনাক্তকরণ মডেল পাম সনাক্তকরণ মডেল দ্বারা সংজ্ঞায়িত ক্রপ করা হাতের চিত্রে নির্দিষ্ট হাতের ল্যান্ডমার্ক সনাক্ত করে।

যেহেতু পাম সনাক্তকরণ মডেল চালানো সময়সাপেক্ষ, ভিডিও বা লাইভ স্ট্রীম চলমান মোডে, হ্যান্ড ল্যান্ডমার্কার একটি ফ্রেমে হ্যান্ড ল্যান্ডমার্ক মডেল দ্বারা সংজ্ঞায়িত বাউন্ডিং বক্স ব্যবহার করে পরবর্তী ফ্রেমের জন্য হাতের অঞ্চল স্থানীয়করণ করতে। হ্যান্ড ল্যান্ডমার্কার শুধুমাত্র পাম সনাক্তকরণ মডেলটিকে পুনরায় ট্রিগার করে যদি হ্যান্ড ল্যান্ডমার্ক মডেল আর হাতের উপস্থিতি সনাক্ত না করে বা ফ্রেমের মধ্যে হাতগুলি ট্র্যাক করতে ব্যর্থ হয়। এটি হ্যান্ড ল্যান্ডমার্কার পাম সনাক্তকরণ মডেলটি যতবার টাইগার করে তার সংখ্যা হ্রাস করে।

টাস্ক বেঞ্চমার্ক

উপরের পূর্ব-প্রশিক্ষিত মডেলগুলির উপর ভিত্তি করে পুরো পাইপলাইনের জন্য টাস্ক বেঞ্চমার্কগুলি এখানে রয়েছে৷ CPU/GPU ব্যবহার করে Pixel 6-এর গড় বিলম্বিততার ফলাফল হল লেটেন্সি।

মডেলের নাম	CPU লেটেন্সি	GPU লেটেন্সি
হ্যান্ডল্যান্ডমার্কার (সম্পূর্ণ)	17.12 মি	12.27 মি