পাঠ্য শ্রেণিবিন্যাস টাস্ক গাইড

উদাহরণ UI যা ইনপুট এবং আউটপুট হিসাবে একটি ইতিবাচক মুভি পর্যালোচনা দেখায় পাঁচ তারা এবং একটি থাম্বস আপ

মিডিয়াপাইপ টেক্সট ক্লাসিফায়ার টাস্ক আপনাকে ইতিবাচক বা নেতিবাচক অনুভূতির মতো সংজ্ঞায়িত বিভাগের একটি সেটে পাঠ্যকে শ্রেণীবদ্ধ করতে দেয়। মডেলের প্রশিক্ষণের সময় বিভাগগুলি সংজ্ঞায়িত করা হয়। এই কাজটি একটি মেশিন লার্নিং (ML) মডেল সহ টেক্সট ডেটাতে স্ট্যাটিক ডেটা হিসাবে কাজ করে এবং বিভাগগুলির একটি তালিকা এবং তাদের সম্ভাব্য স্কোরগুলি আউটপুট করে।

এটা চেষ্টা করুন!

শুরু করুন

আপনি যে প্ল্যাটফর্মে কাজ করছেন তার জন্য এই বাস্তবায়ন নির্দেশিকাগুলির একটি অনুসরণ করে এই কাজটি ব্যবহার করা শুরু করুন:

এই প্ল্যাটফর্ম-নির্দিষ্ট গাইডগুলি আপনাকে এই টাস্কের একটি প্রাথমিক বাস্তবায়নের মাধ্যমে নিয়ে যায়, যার মধ্যে একটি প্রস্তাবিত মডেল এবং প্রস্তাবিত কনফিগারেশন বিকল্পগুলির সাথে কোড উদাহরণ রয়েছে।

টাস্কের বিবরণ

এই বিভাগটি এই কাজের ক্ষমতা, ইনপুট, আউটপুট এবং কনফিগারেশন বিকল্পগুলি বর্ণনা করে।

বৈশিষ্ট্য

  • ইনপুট টেক্সট প্রসেসিং - ইন-গ্রাফ টোকেনাইজেশন ছাড়াই মডেলের জন্য গ্রাফের বাইরের টোকেনাইজেশন সমর্থন করে
  • একাধিক শ্রেণীবিভাগের মাথা - প্রতিটি মাথা তার নিজস্ব বিভাগ সেট ব্যবহার করতে পারে
  • লেবেল মানচিত্রের লোকেল - প্রদর্শন নামের জন্য ব্যবহৃত ভাষা সেট করুন
  • স্কোর থ্রেশহোল্ড - পূর্বাভাস স্কোরের উপর ভিত্তি করে ফলাফল ফিল্টার করুন
  • Top-k শ্রেণীবিভাগ ফলাফল - সনাক্তকরণ ফলাফলের সংখ্যা ফিল্টার করুন
  • লেবেল অনুমোদিত তালিকা এবং অস্বীকৃতি - সনাক্ত করা বিভাগগুলি নির্দিষ্ট করুন৷
টাস্ক ইনপুট টাস্ক আউটপুট
টেক্সট ক্লাসিফায়ার নিম্নলিখিত ইনপুট ডেটা টাইপ গ্রহণ করে:
  • স্ট্রিং
টেক্সট ক্লাসিফায়ার অন্তর্ভুক্ত শ্রেণীগুলির একটি তালিকা আউটপুট করে:
  • বিভাগ সূচক: মডেল আউটপুট মধ্যে বিভাগের সূচক
  • স্কোর: এই বিভাগের জন্য আত্মবিশ্বাসের স্কোর, শূন্য এবং একের মধ্যে ফ্লোটিং পয়েন্ট মান হিসাবে সম্ভাব্যতা হিসাবে প্রকাশ করা হয়।
  • বিভাগের নাম (ঐচ্ছিক): টেনসরফ্লো লাইট মডেল মেটাডেটাতে উল্লেখ করা বিভাগের নাম, যদি উপলব্ধ থাকে।
  • ক্যাটাগরি ডিসপ্লে নেম (ঐচ্ছিক): টেনসরফ্লো লাইট মডেল মেটাডেটাতে নির্দিষ্ট করা ক্যাটাগরির জন্য একটি ডিসপ্লে নাম, যদি উপলভ্য থাকে তাহলে ডিসপ্লে নেম লোকেল বিকল্পের মাধ্যমে নির্দিষ্ট করা ভাষায়।

কনফিগারেশন বিকল্প

এই কাজের নিম্নলিখিত কনফিগারেশন বিকল্প আছে:

বিকল্পের নাম বর্ণনা মান পরিসীমা ডিফল্ট মান
displayNamesLocale টাস্কের মডেলের মেটাডেটাতে প্রদত্ত প্রদর্শন নামের জন্য ব্যবহার করার জন্য লেবেলের ভাষা সেট করে, যদি উপলব্ধ থাকে। ইংরেজির জন্য ডিফল্ট হল en । আপনি TensorFlow Lite Metadata Writer API ব্যবহার করে একটি কাস্টম মডেলের মেটাডেটাতে স্থানীয় লেবেল যোগ করতে পারেন স্থানীয় কোড en
maxResults ফিরতে সর্বোচ্চ স্কোর করা শ্রেণীবিভাগ ফলাফলের ঐচ্ছিক সর্বোচ্চ সংখ্যা সেট করে। <0 হলে, সমস্ত উপলব্ধ ফলাফল ফেরত দেওয়া হবে। যেকোনো ইতিবাচক সংখ্যা -1
scoreThreshold ভবিষ্যদ্বাণী স্কোর থ্রেশহোল্ড সেট করে যা মডেল মেটাডেটাতে প্রদত্ত একটিকে ওভাররাইড করে (যদি থাকে)। এই মানের নিচের ফলাফল প্রত্যাখ্যান করা হয়। কোন ভাসা সেট করা হয়নি
categoryAllowlist অনুমোদিত বিভাগের নামের ঐচ্ছিক তালিকা সেট করে। যদি খালি না থাকে, শ্রেণীবিভাগের ফলাফল যাদের বিভাগের নাম এই সেটে নেই সেগুলি ফিল্টার আউট করা হবে৷ সদৃশ বা অজানা বিভাগের নাম উপেক্ষা করা হয়। এই বিকল্পটি categoryDenylist সাথে পারস্পরিকভাবে একচেটিয়া এবং একটি ত্রুটিতে উভয় ফলাফল ব্যবহার করে। কোনো স্ট্রিং সেট করা হয়নি
categoryDenylist অনুমোদিত নয় এমন বিভাগের নামের ঐচ্ছিক তালিকা সেট করে। যদি খালি না থাকে, শ্রেণীবিভাগের ফলাফল যার বিভাগের নাম এই সেটে আছে তা ফিল্টার আউট করা হবে। সদৃশ বা অজানা বিভাগের নাম উপেক্ষা করা হয়। এই বিকল্পটি categoryAllowlist সাথে পারস্পরিকভাবে একচেটিয়া এবং একটি ত্রুটিতে উভয় ফলাফল ব্যবহার করে। কোনো স্ট্রিং সেট করা হয়নি

মডেল

টেক্সট ক্লাসিফায়ার একাধিক এমএল মডেলের সাথে ব্যবহার করা যেতে পারে। আপনি যখন এই টাস্কের সাথে বিকাশ শুরু করেন তখন আপনার লক্ষ্য প্ল্যাটফর্মের জন্য ডিফল্ট, প্রস্তাবিত মডেল দিয়ে শুরু করুন। অন্যান্য উপলব্ধ মডেলগুলি সাধারণত কর্মক্ষমতা, নির্ভুলতা, রেজোলিউশন এবং সংস্থান প্রয়োজনীয়তার মধ্যে ট্রেড-অফ করে এবং কিছু ক্ষেত্রে অতিরিক্ত বৈশিষ্ট্যগুলি অন্তর্ভুক্ত করে।

পূর্বপ্রশিক্ষিত মডেলগুলি অনুভূতি বিশ্লেষণের জন্য প্রশিক্ষিত হয় এবং ইনপুট পাঠ্যের অনুভূতি ইতিবাচক বা নেতিবাচক কিনা তা ভবিষ্যদ্বাণী করে। মডেলগুলিকে SST-2 (স্ট্যানফোর্ড সেন্টিমেন্ট ট্রিব্যাঙ্ক) ডেটাসেটে প্রশিক্ষণ দেওয়া হয়েছিল, যা ইতিবাচক বা নেতিবাচক হিসাবে লেবেলযুক্ত মুভি পর্যালোচনাগুলি নিয়ে গঠিত। নোট করুন যে মডেলগুলি শুধুমাত্র ইংরেজি সমর্থন করে। যেহেতু তারা চলচ্চিত্র পর্যালোচনার একটি ডেটাসেটে প্রশিক্ষিত ছিল, তাই আপনি অন্যান্য বিষয়ের ক্ষেত্রগুলি কভার করার জন্য পাঠ্যের মান কম দেখতে পারেন।

এই মডেলটি একটি BERT-ভিত্তিক আর্কিটেকচার ব্যবহার করে (বিশেষ করে, MobileBERT মডেল ) এবং এটির উচ্চ নির্ভুলতার কারণে সুপারিশ করা হয়। এটিতে মেটাডেটা রয়েছে যা টাস্কটিকে গ্রাফের বাইরে BERT টোকেনাইজেশন করার অনুমতি দেয়।

মডেলের নাম ইনপুট আকৃতি কোয়ান্টাইজেশন টাইপ সংস্করণ
BERT- শ্রেণীবিন্যাসকারী [1x128], [1x128], [1x128] গতিশীল পরিসীমা সর্বশেষ

গড় শব্দ এমবেডিং মডেল

এই মডেলটি একটি গড় শব্দ-এমবেডিং আর্কিটেকচার ব্যবহার করে। এই মডেলটি BERT-ক্ল্যাসিফায়ারের তুলনায় কম ভবিষ্যদ্বাণী নির্ভুলতার মূল্যে একটি ছোট মডেলের আকার এবং কম লেটেন্সি অফার করে। অতিরিক্ত প্রশিক্ষণের মাধ্যমে এই মডেলটি কাস্টমাইজ করাও BERT-ভিত্তিক ক্লাসিফায়ারের প্রশিক্ষণের চেয়ে দ্রুততর। এই মডেলটিতে মেটাডেটা রয়েছে যা টাস্কটিকে গ্রাফের বাইরে রেজেক্স টোকেনাইজেশন করতে দেয়।

মডেলের নাম ইনপুট আকৃতি কোয়ান্টাইজেশন টাইপ সংস্করণ
গড় শব্দ এমবেডিং 1 x 256 কোনটিই নয় (float32) সর্বশেষ

টাস্ক বেঞ্চমার্ক

উপরের পূর্ব-প্রশিক্ষিত মডেলগুলির উপর ভিত্তি করে পুরো পাইপলাইনের জন্য টাস্ক বেঞ্চমার্কগুলি এখানে রয়েছে৷ CPU/GPU ব্যবহার করে Pixel 6-এর গড় বিলম্বিততার ফলাফল হল লেটেন্সি।

মডেলের নাম CPU লেটেন্সি GPU লেটেন্সি
গড় শব্দ এমবেডিং 0.14 মি -
BERT- শ্রেণীবিন্যাসকারী 57.68ms -

কাস্টম মডেল

আপনি যদি প্রদত্ত মডেলগুলির সক্ষমতা উন্নত বা পরিবর্তন করতে চান তবে আপনি এই কাজের সাথে একটি কাস্টমাইজড এমএল মডেল ব্যবহার করতে পারেন। আপনি বিদ্যমান মডেলগুলি সংশোধন করতে মডেল মেকার ব্যবহার করতে পারেন বা TensorFlow এর মতো সরঞ্জামগুলি ব্যবহার করে একটি মডেল তৈরি করতে পারেন। MediaPipe-এর সাথে ব্যবহৃত কাস্টম মডেলগুলি অবশ্যই TensorFlow Lite ফরম্যাটে হতে হবে এবং মডেলের অপারেটিং প্যারামিটারগুলি বর্ণনা করে নির্দিষ্ট মেটাডেটা অবশ্যই অন্তর্ভুক্ত করতে হবে। আপনার নিজের তৈরি করার আগে এই কাজের জন্য প্রদত্ত মডেলগুলি সংশোধন করতে মডেল মেকার ব্যবহার করার কথা বিবেচনা করা উচিত।