হ্যান্ড ল্যান্ডমার্ক সনাক্তকরণ গাইড

MediaPipe হ্যান্ড ল্যান্ডমার্কার টাস্ক আপনাকে একটি ছবিতে হাতের ল্যান্ডমার্ক সনাক্ত করতে দেয়। আপনি হাতের মূল পয়েন্টগুলি সনাক্ত করতে এবং তাদের উপর ভিজ্যুয়াল ইফেক্ট রেন্ডার করতে এই কাজটি ব্যবহার করতে পারেন। এই টাস্কটি মেশিন লার্নিং (ML) মডেলের সাথে স্ট্যাটিক ডেটা বা একটি অবিচ্ছিন্ন স্ট্রীম হিসাবে ইমেজ ডেটাতে কাজ করে এবং ইমেজ কোঅর্ডিনেটে হ্যান্ড ল্যান্ডমার্ক, ওয়ার্ল্ড কোঅর্ডিনেটে হ্যান্ড ল্যান্ডমার্ক এবং একাধিক শনাক্ত করা হাতের হ্যান্ডেডনেস (বাম/ডান হাতে) আউটপুট করে।

এটা চেষ্টা করুন!

এবার শুরু করা যাক

আপনার লক্ষ্য প্ল্যাটফর্মের জন্য এই বাস্তবায়ন নির্দেশিকাগুলির একটি অনুসরণ করে এই কাজটি ব্যবহার করা শুরু করুন। এই প্ল্যাটফর্ম-নির্দিষ্ট নির্দেশিকাগুলি আপনাকে এই টাস্কের একটি প্রাথমিক বাস্তবায়নের মাধ্যমে নিয়ে যায়, যার মধ্যে একটি প্রস্তাবিত মডেল এবং প্রস্তাবিত কনফিগারেশন বিকল্পগুলির সাথে কোড উদাহরণ রয়েছে:

টাস্কের বিবরণ

এই বিভাগটি এই কাজের ক্ষমতা, ইনপুট, আউটপুট এবং কনফিগারেশন বিকল্পগুলি বর্ণনা করে।

বৈশিষ্ট্য

  • ইনপুট ইমেজ প্রসেসিং - প্রসেসিং এর মধ্যে রয়েছে ইমেজ রোটেশন, রিসাইজ, নরমালাইজেশন এবং কালার স্পেস কনভার্সন।
  • স্কোর থ্রেশহোল্ড - পূর্বাভাস স্কোরের উপর ভিত্তি করে ফলাফল ফিল্টার করুন।
টাস্ক ইনপুট টাস্ক আউটপুট
হ্যান্ড ল্যান্ডমার্কার নিম্নলিখিত ডেটা প্রকারগুলির একটির একটি ইনপুট গ্রহণ করে:
  • স্থিরচিত্রসমূহ
  • ডিকোডেড ভিডিও ফ্রেম
  • লাইভ ভিডিও ফিড
হ্যান্ড ল্যান্ডমার্কার নিম্নলিখিত ফলাফলগুলি আউটপুট করে:
  • শনাক্ত করা হাতের অস্থিরতা
  • চিত্র স্থানাঙ্কে সনাক্ত করা হাতের ল্যান্ডমার্ক
  • বিশ্বের স্থানাঙ্কে সনাক্ত করা হাতের ল্যান্ডমার্ক

কনফিগারেশন অপশন

এই কাজের নিম্নলিখিত কনফিগারেশন বিকল্প আছে:

বিকল্পের নাম বর্ণনা মান পরিসীমা ডিফল্ট মান
running_mode টাস্কের জন্য চলমান মোড সেট করে। তিনটি মোড আছে:

IMAGE: একক ইমেজ ইনপুট জন্য মোড.

ভিডিও: একটি ভিডিওর ডিকোড করা ফ্রেমের মোড।

লাইভ_স্ট্রিম: ইনপুট ডেটার লাইভস্ট্রিমের মোড, যেমন ক্যামেরা থেকে। এই মোডে, ফলাফল শ্রোতাকে অ্যাসিঙ্ক্রোনাসভাবে ফলাফল পেতে একটি শ্রোতা সেট আপ করতে কল করতে হবে।
{ IMAGE, VIDEO, LIVE_STREAM } IMAGE
num_hands হ্যান্ড ল্যান্ডমার্ক ডিটেক্টর দ্বারা সর্বাধিক সংখ্যক হাত সনাক্ত করা হয়েছে। Any integer > 0 1
min_hand_detection_confidence হাত শনাক্তকরণের ন্যূনতম আত্মবিশ্বাসের স্কোর পাম সনাক্তকরণ মডেলে সফল বলে বিবেচিত হবে। 0.0 - 1.0 0.5
min_hand_presence_confidence হ্যান্ড ল্যান্ডমার্ক সনাক্তকরণ মডেলে হাতের উপস্থিতি স্কোরের জন্য সর্বনিম্ন আত্মবিশ্বাসের স্কোর। ভিডিও মোড এবং লাইভ স্ট্রিম মোডে, যদি হ্যান্ড ল্যান্ডমার্ক মডেল থেকে হাতের উপস্থিতি আত্মবিশ্বাসের স্কোর এই থ্রেশহোল্ডের নিচে থাকে, হ্যান্ড ল্যান্ডমার্কার পাম সনাক্তকরণ মডেলটিকে ট্রিগার করে। অন্যথায়, একটি লাইটওয়েট হ্যান্ড ট্র্যাকিং অ্যালগরিদম পরবর্তী ল্যান্ডমার্ক সনাক্তকরণের জন্য হাত(গুলি) এর অবস্থান নির্ধারণ করে। 0.0 - 1.0 0.5
min_tracking_confidence হ্যান্ড ট্র্যাকিং সফল বলে বিবেচিত হওয়ার জন্য সর্বনিম্ন আত্মবিশ্বাসের স্কোর। এটি বর্তমান ফ্রেমের হাত এবং শেষ ফ্রেমের মধ্যে বাউন্ডিং বক্স IoU থ্রেশহোল্ড৷ হ্যান্ড ল্যান্ডমার্কারের ভিডিও মোড এবং স্ট্রিম মোডে, ট্র্যাকিং ব্যর্থ হলে, হ্যান্ড ল্যান্ডমার্কার হ্যান্ড ডিটেকশন ট্রিগার করে। অন্যথায়, এটি হাত সনাক্তকরণ এড়িয়ে যায়। 0.0 - 1.0 0.5
result_callback হ্যান্ড ল্যান্ডমার্কার লাইভ স্ট্রীম মোডে থাকাকালীন অ্যাসিঙ্ক্রোনাসভাবে সনাক্তকরণের ফলাফল পেতে ফলাফল শ্রোতাকে সেট করে। চলমান মোড LIVE_STREAM এ সেট করা থাকলে শুধুমাত্র প্রযোজ্য৷ N/A N/A

মডেল

হ্যান্ড ল্যান্ডমার্কার দুটি প্যাকেজযুক্ত মডেল সহ একটি মডেল বান্ডিল ব্যবহার করে: একটি পাম সনাক্তকরণ মডেল এবং একটি হ্যান্ড ল্যান্ডমার্ক সনাক্তকরণ মডেল। এই কাজটি চালানোর জন্য আপনার একটি মডেল বান্ডিল প্রয়োজন যাতে এই দুটি মডেল রয়েছে।

ণশড ইনপুট আকৃতি কোয়ান্টাইজেশন টাইপ মডেল কার্ড সংস্করণ
হ্যান্ডল্যান্ডমার্কার (সম্পূর্ণ) 192 x 192, 224 x 224 ভাসা 16 তথ্য সর্বশেষ

হ্যান্ড ল্যান্ডমার্ক মডেল বান্ডেল সনাক্ত করা হাত অঞ্চলের মধ্যে 21টি হ্যান্ড-নাকল স্থানাঙ্কের মূল পয়েন্ট স্থানীয়করণ সনাক্ত করে। মডেলটিকে প্রায় 30K বাস্তব-বিশ্বের চিত্রের পাশাপাশি বিভিন্ন পটভূমিতে আরোপিত বেশ কয়েকটি রেন্ডার করা সিন্থেটিক হ্যান্ড মডেলের প্রশিক্ষণ দেওয়া হয়েছিল।

হ্যান্ড ল্যান্ডমার্ক মডেল বান্ডেলে একটি পাম সনাক্তকরণ মডেল এবং একটি হ্যান্ড ল্যান্ডমার্ক সনাক্তকরণ মডেল রয়েছে। পাম সনাক্তকরণ মডেল ইনপুট চিত্রের মধ্যে হাতগুলি সনাক্ত করে এবং হ্যান্ড ল্যান্ডমার্ক সনাক্তকরণ মডেল পাম সনাক্তকরণ মডেল দ্বারা সংজ্ঞায়িত ক্রপ করা হাতের চিত্রে নির্দিষ্ট হাতের ল্যান্ডমার্ক সনাক্ত করে।

যেহেতু পাম সনাক্তকরণ মডেল চালানো সময়সাপেক্ষ, ভিডিও বা লাইভ স্ট্রীম চলমান মোডে, হ্যান্ড ল্যান্ডমার্কার একটি ফ্রেমে হ্যান্ড ল্যান্ডমার্ক মডেল দ্বারা সংজ্ঞায়িত বাউন্ডিং বক্স ব্যবহার করে পরবর্তী ফ্রেমের জন্য হাতের অঞ্চল স্থানীয়করণ করতে। হ্যান্ড ল্যান্ডমার্কার শুধুমাত্র পাম সনাক্তকরণ মডেলটিকে পুনরায় ট্রিগার করে যদি হ্যান্ড ল্যান্ডমার্ক মডেল আর হাতের উপস্থিতি সনাক্ত না করে বা ফ্রেমের মধ্যে হাতগুলি ট্র্যাক করতে ব্যর্থ হয়। এটি হ্যান্ড ল্যান্ডমার্কার পাম সনাক্তকরণ মডেলটি যতবার টাইগার করে তার সংখ্যা হ্রাস করে।

টাস্ক বেঞ্চমার্ক

উপরের পূর্ব-প্রশিক্ষিত মডেলগুলির উপর ভিত্তি করে পুরো পাইপলাইনের জন্য টাস্ক বেঞ্চমার্কগুলি এখানে রয়েছে৷ CPU/GPU ব্যবহার করে Pixel 6-এর গড় বিলম্বিততার ফলাফল হল লেটেন্সি।

ণশড CPU লেটেন্সি GPU লেটেন্সি
হ্যান্ডল্যান্ডমার্কার (সম্পূর্ণ) 17.12 মি 12.27 মি