পাঠ্য শ্রেণিবিন্যাস টাস্ক গাইড

মিডিয়াপাইপ টেক্সট ক্লাসিফায়ার টাস্ক আপনাকে ইতিবাচক বা নেতিবাচক অনুভূতির মতো সংজ্ঞায়িত বিভাগের একটি সেটে পাঠ্যকে শ্রেণীবদ্ধ করতে দেয়। মডেলের প্রশিক্ষণের সময় বিভাগগুলি সংজ্ঞায়িত করা হয়। এই কাজটি একটি মেশিন লার্নিং (ML) মডেল সহ টেক্সট ডেটাতে স্ট্যাটিক ডেটা হিসাবে কাজ করে এবং বিভাগগুলির একটি তালিকা এবং তাদের সম্ভাব্য স্কোরগুলি আউটপুট করে।

এটা চেষ্টা করুন!

এবার শুরু করা যাক

আপনি যে প্ল্যাটফর্মে কাজ করছেন তার জন্য এই বাস্তবায়ন নির্দেশিকাগুলির একটি অনুসরণ করে এই কাজটি ব্যবহার করা শুরু করুন:

এই প্ল্যাটফর্ম-নির্দিষ্ট গাইডগুলি আপনাকে এই টাস্কের একটি প্রাথমিক বাস্তবায়নের মাধ্যমে নিয়ে যায়, যার মধ্যে একটি প্রস্তাবিত মডেল এবং প্রস্তাবিত কনফিগারেশন বিকল্পগুলির সাথে কোড উদাহরণ রয়েছে।

টাস্কের বিবরণ

এই বিভাগটি এই কাজের ক্ষমতা, ইনপুট, আউটপুট এবং কনফিগারেশন বিকল্পগুলি বর্ণনা করে।

বৈশিষ্ট্য

  • ইনপুট টেক্সট প্রসেসিং - ইন-গ্রাফ টোকেনাইজেশন ছাড়াই মডেলের জন্য গ্রাফের বাইরের টোকেনাইজেশন সমর্থন করে
  • একাধিক শ্রেণীবিভাগের মাথা - প্রতিটি মাথা তার নিজস্ব বিভাগ সেট ব্যবহার করতে পারে
  • লেবেল মানচিত্রের লোকেল - প্রদর্শন নামের জন্য ব্যবহৃত ভাষা সেট করুন
  • স্কোর থ্রেশহোল্ড - পূর্বাভাস স্কোরের উপর ভিত্তি করে ফলাফল ফিল্টার করুন
  • Top-k শ্রেণীবিভাগ ফলাফল - সনাক্তকরণ ফলাফলের সংখ্যা ফিল্টার করুন
  • লেবেল অনুমোদিত তালিকা এবং অস্বীকৃতি - সনাক্ত করা বিভাগগুলি নির্দিষ্ট করুন৷
টাস্ক ইনপুট টাস্ক আউটপুট
টেক্সট ক্লাসিফায়ার নিম্নলিখিত ইনপুট ডেটা টাইপ গ্রহণ করে:
  • স্ট্রিং
টেক্সট ক্লাসিফায়ার অন্তর্ভুক্ত শ্রেণীগুলির একটি তালিকা আউটপুট করে:
  • বিভাগ সূচক: মডেল আউটপুট মধ্যে বিভাগের সূচক
  • স্কোর: এই বিভাগের জন্য আত্মবিশ্বাসের স্কোর, শূন্য এবং একের মধ্যে ফ্লোটিং পয়েন্ট মান হিসাবে সম্ভাব্যতা হিসাবে প্রকাশ করা হয়।
  • বিভাগের নাম (ঐচ্ছিক): টেনসরফ্লো লাইট মডেল মেটাডেটাতে উল্লেখ করা বিভাগের নাম, যদি উপলব্ধ থাকে।
  • ক্যাটাগরি ডিসপ্লে নেম (ঐচ্ছিক): টেনসরফ্লো লাইট মডেল মেটাডেটাতে নির্দিষ্ট করা ক্যাটাগরির জন্য একটি ডিসপ্লে নাম, যদি উপলভ্য থাকে তাহলে ডিসপ্লে নেম লোকেল বিকল্পের মাধ্যমে নির্দিষ্ট করা ভাষায়।

কনফিগারেশন অপশন

এই কাজের নিম্নলিখিত কনফিগারেশন বিকল্প আছে:

বিকল্পের নাম বর্ণনা মান পরিসীমা ডিফল্ট মান
displayNamesLocale টাস্কের মডেলের মেটাডেটাতে প্রদত্ত প্রদর্শন নামের জন্য ব্যবহার করার জন্য লেবেলের ভাষা সেট করে, যদি উপলব্ধ থাকে। ইংরেজির জন্য ডিফল্ট হল en । আপনি TensorFlow Lite Metadata Writer API ব্যবহার করে একটি কাস্টম মডেলের মেটাডেটাতে স্থানীয় লেবেল যোগ করতে পারেন স্থানীয় কোড en
maxResults ফিরতে সর্বোচ্চ স্কোর করা শ্রেণীবিভাগ ফলাফলের ঐচ্ছিক সর্বোচ্চ সংখ্যা সেট করে। <0 হলে, সমস্ত উপলব্ধ ফলাফল ফেরত দেওয়া হবে। যেকোনো ইতিবাচক সংখ্যা -1
scoreThreshold ভবিষ্যদ্বাণী স্কোর থ্রেশহোল্ড সেট করে যা মডেল মেটাডেটাতে প্রদত্ত একটিকে ওভাররাইড করে (যদি থাকে)। এই মানের নিচের ফলাফল প্রত্যাখ্যান করা হয়। কোন ভাসা সেট না
categoryAllowlist অনুমোদিত বিভাগের নামের ঐচ্ছিক তালিকা সেট করে। যদি খালি না থাকে, শ্রেণীবিভাগের ফলাফল যাদের বিভাগের নাম এই সেটে নেই সেগুলি ফিল্টার আউট করা হবে৷ সদৃশ বা অজানা বিভাগের নাম উপেক্ষা করা হয়। এই বিকল্পটি categoryDenylist সাথে পারস্পরিকভাবে একচেটিয়া এবং একটি ত্রুটিতে উভয় ফলাফল ব্যবহার করে। কোনো স্ট্রিং সেট না
categoryDenylist অনুমোদিত নয় এমন বিভাগের নামের ঐচ্ছিক তালিকা সেট করে। যদি খালি না থাকে, শ্রেণীবিভাগের ফলাফল যার বিভাগের নাম এই সেটে আছে তা ফিল্টার আউট করা হবে। সদৃশ বা অজানা বিভাগের নাম উপেক্ষা করা হয়। এই বিকল্পটি categoryAllowlist সাথে পারস্পরিকভাবে একচেটিয়া এবং একটি ত্রুটিতে উভয় ফলাফল ব্যবহার করে। কোনো স্ট্রিং সেট না

মডেল

টেক্সট ক্লাসিফায়ার একাধিক এমএল মডেলের সাথে ব্যবহার করা যেতে পারে। আপনি যখন এই টাস্কের সাথে বিকাশ শুরু করেন তখন আপনার লক্ষ্য প্ল্যাটফর্মের জন্য ডিফল্ট, প্রস্তাবিত মডেল দিয়ে শুরু করুন। অন্যান্য উপলব্ধ মডেলগুলি সাধারণত কর্মক্ষমতা, নির্ভুলতা, রেজোলিউশন এবং সংস্থান প্রয়োজনীয়তার মধ্যে ট্রেড-অফ করে এবং কিছু ক্ষেত্রে অতিরিক্ত বৈশিষ্ট্যগুলি অন্তর্ভুক্ত করে।

পূর্বপ্রশিক্ষিত মডেলগুলি অনুভূতি বিশ্লেষণের জন্য প্রশিক্ষিত হয় এবং ইনপুট পাঠ্যের অনুভূতি ইতিবাচক বা নেতিবাচক কিনা তা ভবিষ্যদ্বাণী করে। মডেলগুলিকে SST-2 (স্ট্যানফোর্ড সেন্টিমেন্ট ট্রিব্যাঙ্ক) ডেটাসেটে প্রশিক্ষণ দেওয়া হয়েছিল, যা ইতিবাচক বা নেতিবাচক হিসাবে লেবেলযুক্ত মুভি পর্যালোচনাগুলি নিয়ে গঠিত। নোট করুন যে মডেলগুলি শুধুমাত্র ইংরেজি সমর্থন করে। যেহেতু তারা চলচ্চিত্র পর্যালোচনার একটি ডেটাসেটে প্রশিক্ষিত ছিল, তাই আপনি অন্যান্য বিষয়ের ক্ষেত্রগুলি কভার করার জন্য পাঠ্যের মান কম দেখতে পারেন।

এই মডেলটি একটি BERT-ভিত্তিক আর্কিটেকচার ব্যবহার করে (বিশেষ করে, MobileBERT মডেল ) এবং এটির উচ্চ নির্ভুলতার কারণে সুপারিশ করা হয়। এটিতে মেটাডেটা রয়েছে যা টাস্কটিকে গ্রাফের বাইরে BERT টোকেনাইজেশন করার অনুমতি দেয়।

ণশড ইনপুট আকৃতি কোয়ান্টাইজেশন টাইপ সংস্করণ
BERT- শ্রেণীবিন্যাসকারী [1x128], [1x128], [1x128] গতিশীল পরিসীমা সর্বশেষ

গড় শব্দ এমবেডিং মডেল

এই মডেলটি একটি গড় শব্দ-এমবেডিং আর্কিটেকচার ব্যবহার করে। এই মডেলটি BERT-ক্ল্যাসিফায়ারের তুলনায় কম ভবিষ্যদ্বাণী নির্ভুলতার মূল্যে একটি ছোট মডেলের আকার এবং কম লেটেন্সি অফার করে। অতিরিক্ত প্রশিক্ষণের মাধ্যমে এই মডেলটি কাস্টমাইজ করাও BERT-ভিত্তিক ক্লাসিফায়ারের প্রশিক্ষণের চেয়ে দ্রুততর। এই মডেলটিতে মেটাডেটা রয়েছে যা টাস্কটিকে গ্রাফের বাইরে রেজেক্স টোকেনাইজেশন করতে দেয়।

ণশড ইনপুট আকৃতি কোয়ান্টাইজেশন টাইপ সংস্করণ
গড় শব্দ এমবেডিং 1 x 256 কোনটিই নয় (float32) সর্বশেষ

টাস্ক বেঞ্চমার্ক

উপরের পূর্ব-প্রশিক্ষিত মডেলগুলির উপর ভিত্তি করে পুরো পাইপলাইনের জন্য টাস্ক বেঞ্চমার্কগুলি এখানে রয়েছে৷ CPU/GPU ব্যবহার করে Pixel 6-এর গড় বিলম্বিততার ফলাফল হল লেটেন্সি।

ণশড CPU লেটেন্সি GPU লেটেন্সি
গড় শব্দ এমবেডিং 0.14 মি -
BERT- শ্রেণীবিন্যাসকারী 57.68ms -

কাস্টম মডেল

আপনি যদি প্রদত্ত মডেলগুলির সক্ষমতা উন্নত বা পরিবর্তন করতে চান তবে আপনি এই কাজের সাথে একটি কাস্টমাইজড এমএল মডেল ব্যবহার করতে পারেন। আপনি বিদ্যমান মডেলগুলি সংশোধন করতে মডেল মেকার ব্যবহার করতে পারেন বা TensorFlow এর মতো সরঞ্জামগুলি ব্যবহার করে একটি মডেল তৈরি করতে পারেন। MediaPipe-এর সাথে ব্যবহৃত কাস্টম মডেলগুলি অবশ্যই TensorFlow Lite ফরম্যাটে হতে হবে এবং মডেলের অপারেটিং প্যারামিটারগুলি বর্ণনা করে নির্দিষ্ট মেটাডেটা অবশ্যই অন্তর্ভুক্ত করতে হবে। আপনার নিজের তৈরি করার আগে এই কাজের জন্য প্রদত্ত মডেলগুলি সংশোধন করতে মডেল মেকার ব্যবহার করার কথা বিবেচনা করা উচিত।