ইনপুট এবং আউটপুট সুরক্ষা তৈরি করুন

জেনারেটিভ এআই অ্যাপ্লিকেশনগুলি প্রায়শই ইনপুট এবং আউটপুট ডেটা ফিল্টারিংয়ের উপর নির্ভর করে, যাকে কখনও কখনও সুরক্ষা হিসাবে উল্লেখ করা হয়, দায়িত্বশীল মডেল আচরণ নিশ্চিত করতে সহায়তা করার জন্য। ইনপুট এবং আউটপুট ফিল্টারিং কৌশলগুলি পরীক্ষা করে দেখুন যে ডেটা আপনার অ্যাপ্লিকেশনের জন্য সংজ্ঞায়িত নীতিগুলির সাথে সঙ্গতিপূর্ণ।

প্রস্তুত রক্ষাকবচ

এমনকি সুরক্ষার জন্য পূর্বের টিউনিং এবং একটি ভালভাবে ডিজাইন করা প্রম্পট টেমপ্লেটের সাথে, আপনার মডেলের পক্ষে এখনও অনিচ্ছাকৃত ক্ষতির ফলে এমন সামগ্রী আউটপুট করা সম্ভব। এটিকে আরও উন্নত করার জন্য, বিষয়বস্তু শ্রেণিবদ্ধকারীরা সুরক্ষার একটি অতিরিক্ত স্তর যুক্ত করতে পারে। কন্টেন্ট ক্লাসিফায়ার ইনপুট এবং আউটপুট উভয় ক্ষেত্রেই প্রয়োগ করা যেতে পারে।

ইনপুট ক্লাসিফায়ারগুলি সাধারণত এমন সামগ্রী ফিল্টার করতে ব্যবহৃত হয় যা আপনার অ্যাপ্লিকেশনে ব্যবহার করার উদ্দেশ্যে নয় এবং যা আপনার মডেলকে আপনার সুরক্ষা নীতি লঙ্ঘন করতে পারে৷ ইনপুট ফিল্টারগুলি প্রায়শই প্রতিপক্ষের আক্রমণকে লক্ষ্য করে যা আপনার বিষয়বস্তু নীতিগুলিকে এড়িয়ে যাওয়ার চেষ্টা করে। আউটপুট ক্লাসিফায়ারগুলি মডেল আউটপুটকে আরও ফিল্টার করতে পারে, অনাকাঙ্ক্ষিত প্রজন্ম ধরতে পারে যা আপনার নিরাপত্তা নীতি লঙ্ঘন করতে পারে। আপনার সমস্ত বিষয়বস্তুর নীতিগুলি কভার করে এমন শ্রেণীবদ্ধ করার পরামর্শ দেওয়া হয়৷

Google কন্টেন্ট নিরাপত্তার জন্য API-ভিত্তিক ক্লাসিফায়ার সরবরাহ করে যা সিস্টেম ইনপুট এবং আউটপুট ফিল্টার করতে ব্যবহার করা যেতে পারে:

  • Perspective API হল একটি বিনামূল্যের API যা কথোপকথনে মন্তব্য করতে পারে এমন অনুভূত প্রভাব স্কোর করতে মেশিন লার্নিং মডেল ব্যবহার করে। এটি এমন স্কোর প্রদান করে যা একটি মন্তব্য বিষাক্ত, হুমকি, অপমানজনক বা বিষয়বস্তুর বাইরের কিনা তার সম্ভাবনা ক্যাপচার করে।
  • টেক্সট মডারেশন সার্ভিস হল একটি Google ক্লাউড এপিআই যা একটি নির্দিষ্ট ব্যবহারের সীমার নিচে ব্যবহার করার জন্য উপলব্ধ এবং বিভিন্ন সম্ভাব্য ক্ষতিকারক বিভাগ এবং সংবেদনশীল বিবেচিত বিষয়গুলি সহ সুরক্ষা বৈশিষ্ট্যগুলির একটি তালিকার বিরুদ্ধে একটি নথি বিশ্লেষণ করতে মেশিন লার্নিং ব্যবহার করে৷

রেডিমেড ক্লাসিফায়ারগুলি আপনার নীতির লক্ষ্যগুলি কতটা ভালভাবে পূরণ করে তা মূল্যায়ন করা এবং ব্যর্থতার ক্ষেত্রে গুণগতভাবে মূল্যায়ন করা গুরুত্বপূর্ণ। এটাও মনে রাখা গুরুত্বপূর্ণ যে ওভার-ফিল্টারিংয়ের ফলে অনিচ্ছাকৃত ক্ষতির পাশাপাশি অ্যাপ্লিকেশনটির উপযোগিতা হ্রাস করতে পারে, যার অর্থ হল যে ক্ষেত্রে অতিরিক্ত ফিল্টারিং ঘটতে পারে সেগুলির পর্যালোচনা করাও গুরুত্বপূর্ণ। এই ধরনের মূল্যায়ন পদ্ধতি সম্পর্কে আরো বিস্তারিত জানার জন্য, নিরাপত্তার জন্য মডেল এবং সিস্টেম মূল্যায়ন দেখুন।

কাস্টমাইজড সেফটি ক্লাসিফায়ার তৈরি করুন

রেডিমেড সেফগার্ড আপনার ব্যবহারের ক্ষেত্রে উপযুক্ত নাও হতে পারে এমন বেশ কয়েকটি কারণ রয়েছে, যেমন সমর্থিত নয় এমন একটি নীতি থাকা বা আপনার সিস্টেমকে প্রভাবিত করে এমন ডেটার সাথে আপনার সুরক্ষাকে আরও সুরক্ষিত করতে চাওয়া। এই ক্ষেত্রে, চটপটে শ্রেণীবদ্ধকারীরা আপনার প্রয়োজনের সাথে মানানসই মডেল, যেমন জেমা, টিউনিং করে কাস্টম সুরক্ষা তৈরি করার জন্য একটি দক্ষ এবং নমনীয় কাঠামো প্রদান করে। তারা আপনাকে কোথায় এবং কীভাবে মোতায়েন করা হবে তার উপর সম্পূর্ণ নিয়ন্ত্রণের অনুমতি দেয়।

জেমা অ্যাগিল ক্লাসিফায়ার টিউটোরিয়াল

কোডল্যাব শুরু করুন Google Colab চালু করুন

চটপট ক্লাসিফায়ার কোডল্যাব এবং টিউটোরিয়াল কেরাসএনএলপি লাইব্রেরি ব্যবহার করে একটি বিষয়বস্তু সংযম শ্রেণীবদ্ধকারী হিসাবে কাজ করার জন্য একটি জেমা মডেলকে ফাইন-টিউন করতে LoRA ব্যবহার করে। ETHOS ডেটাসেট থেকে মাত্র 200টি উদাহরণ ব্যবহার করে, এই ক্লাসিফায়ারটি 0.80 এর একটি F1 স্কোর এবং 0.78 এর ROC-AUC স্কোর অর্জন করে, যা অত্যাধুনিক লিডারবোর্ড ফলাফলের সাথে অনুকূলভাবে তুলনা করে। লিডারবোর্ডের অন্যান্য ক্লাসিফায়ারের মতো 800টি উদাহরণের উপর প্রশিক্ষিত হলে, জেমা ভিত্তিক চটপটে ক্লাসিফায়ার 83.74 এর একটি F1 স্কোর এবং 88.17 এর একটি ROC-AUC স্কোর অর্জন করে। আপনি এই ক্লাসিফায়ারটিকে আরও পরিমার্জিত করতে, বা আপনার নিজস্ব কাস্টম সুরক্ষা শ্রেণীবদ্ধ সুরক্ষা ব্যবস্থা তৈরি করতে টিউটোরিয়াল নির্দেশাবলী মানিয়ে নিতে পারেন।

সুরক্ষা ব্যবস্থা সেট আপ করার জন্য সর্বোত্তম অনুশীলন

সুরক্ষা শ্রেণীবদ্ধকারীকে সুরক্ষা হিসাবে ব্যবহার করা দৃঢ়ভাবে সুপারিশ করা হয়। যাইহোক, যদি বিষয়বস্তু ব্লক করা থাকে তাহলে গার্ডেলের ফলে জেনারেটিভ মডেল ব্যবহারকারীর জন্য কিছু তৈরি করতে পারে না। এই কেসটি পরিচালনা করার জন্য অ্যাপ্লিকেশনগুলি ডিজাইন করা দরকার৷ সর্বাধিক জনপ্রিয় চ্যাটবট টিনজাত উত্তর প্রদান করে এটি পরিচালনা করে ("আমি দুঃখিত, আমি একটি ভাষা মডেল, আমি এই অনুরোধে আপনাকে সাহায্য করতে পারি না")।

সহায়ক এবং ক্ষতিহীনতার মধ্যে সঠিক ভারসাম্য খুঁজুন : নিরাপত্তা শ্রেণীবিভাগ ব্যবহার করার সময়, এটি বোঝা গুরুত্বপূর্ণ যে তারা ভুল ইতিবাচক (যেমন আউটপুট না হলে অনিরাপদ দাবি করা) এবং মিথ্যা নেতিবাচক (একটি আউটপুট লেবেল করতে ব্যর্থ হওয়া) উভয়ই সহ ভুল করবে। অনিরাপদ হিসাবে, যখন এটি)। F1, Precision, Recall, এবং AUC-ROC-এর মতো মেট্রিকগুলির সাথে শ্রেণীবিভাগের মূল্যায়ন করে, আপনি কীভাবে মিথ্যা ইতিবাচক বনাম মিথ্যা নেতিবাচক ত্রুটিগুলিকে ট্রেডঅফ করতে চান তা নির্ধারণ করতে পারেন৷ শ্রেণীবদ্ধকরণের থ্রেশহোল্ড পরিবর্তন করে, আপনি একটি আদর্শ ভারসাম্য খুঁজে পেতে সাহায্য করেন যা এখনও যথাযথ নিরাপত্তা প্রদান করার সময় অতিরিক্ত ফিল্টারিং আউটপুট এড়ায়।

অনিচ্ছাকৃত পক্ষপাতিত্বের জন্য আপনার শ্রেণীবিভাগ পরীক্ষা করুন: নিরাপত্তা শ্রেণীবিভাগকারী, অন্য যেকোন ML মডেলের মতো, সামাজিক-সাংস্কৃতিক স্টেরিওটাইপগুলির মতো অনিচ্ছাকৃত পক্ষপাতগুলি প্রচার করতে পারে। সম্ভাব্য সমস্যাযুক্ত আচরণের জন্য অ্যাপ্লিকেশনগুলিকে যথাযথভাবে মূল্যায়ন করা দরকার। বিশেষ করে, বিষয়বস্তু নিরাপত্তা শ্রেণীবিভাগকারীরা পরিচয়ের সাথে সম্পর্কিত বিষয়বস্তুতে ওভার-ট্রিগার করতে পারে যেগুলি অনলাইনে আপত্তিজনক ভাষার লক্ষ্যবস্তু হয়। উদাহরণ হিসেবে, যখন Perspective API প্রথম চালু করা হয়েছিল, মডেলটি নির্দিষ্ট পরিচয় গোষ্ঠীর ( ব্লগ ) উল্লেখ করে মন্তব্যে উচ্চতর বিষাক্ততার স্কোর ফেরত দিয়েছিল। এই অত্যধিক ট্রিগারিং আচরণ ঘটতে পারে কারণ যে মন্তব্যগুলি প্রায়শই লক্ষ্যবস্তু করা গোষ্ঠীগুলির জন্য পরিচয়ের শর্তাবলী উল্লেখ করে (যেমন, "ব্ল্যাক", "মুসলিম", "নারীবাদী", "নারী", "সমকামী", ইত্যাদির মতো শব্দ) প্রায়শই বিষাক্ত হয় প্রকৃতিতে। যখন ক্লাসিফায়ারদের প্রশিক্ষণের জন্য ব্যবহৃত ডেটাসেটগুলিতে নির্দিষ্ট কিছু শব্দ সম্বলিত মন্তব্যের জন্য উল্লেখযোগ্য ভারসাম্যহীনতা থাকে, তখন শ্রেণিবিন্যাসকারীরা অতি সাধারণ করতে পারে এবং সেই শব্দগুলির সাথে সমস্ত মন্তব্যকে অনিরাপদ হতে পারে বলে বিবেচনা করতে পারে। জিগস টিম কীভাবে এই অনিচ্ছাকৃত পক্ষপাতকে প্রশমিত করেছে তা পড়ুন।

বিকাশকারী সংস্থান