ইনপুট এবং আউটপুট সুরক্ষা তৈরি করুন

জেনারেটিভ এআই অ্যাপ্লিকেশনগুলি প্রায়শই ইনপুট এবং আউটপুট ডেটা ফিল্টারিংয়ের উপর নির্ভর করে, যাকে কখনও কখনও সুরক্ষা হিসাবে উল্লেখ করা হয়, দায়িত্বশীল মডেল আচরণ নিশ্চিত করতে সহায়তা করার জন্য। ইনপুট এবং আউটপুট ফিল্টারিং কৌশলগুলি মডেলের মধ্যে যাওয়া বা বেরিয়ে আসা ডেটা পরীক্ষা করে।

সেফগার্ড এবং অফ-দ্য-শেল্ফ সেফটি ক্লাসিফায়ার

এমনকি সুরক্ষার জন্য পূর্বের টিউনিং এবং একটি ভালভাবে ডিজাইন করা প্রম্পট টেমপ্লেটের সাথে, আপনার মডেলের পক্ষে এখনও অনিচ্ছাকৃত ক্ষতির ফলে এমন সামগ্রী আউটপুট করা সম্ভব। এটিকে আরও উন্নত করার জন্য, বিষয়বস্তু শ্রেণিবদ্ধকারীরা সুরক্ষার একটি অতিরিক্ত স্তর যুক্ত করতে পারে। কন্টেন্ট ক্লাসিফায়ার ইনপুট এবং আউটপুট উভয় ক্ষেত্রেই প্রয়োগ করা যেতে পারে।

ইনপুট ক্লাসিফায়ারগুলি সাধারণত এমন সামগ্রী ফিল্টার করতে ব্যবহৃত হয় যা আপনার অ্যাপ্লিকেশনে ব্যবহার করার উদ্দেশ্যে নয় এবং যা আপনার মডেলকে আপনার সুরক্ষা নীতি লঙ্ঘন করতে পারে৷ ইনপুট ফিল্টারগুলি প্রায়শই প্রতিপক্ষের আক্রমণকে লক্ষ্য করে যা আপনার বিষয়বস্তু নীতিগুলিকে এড়িয়ে যাওয়ার চেষ্টা করে। আউটপুট ক্লাসিফায়ারগুলি মডেল আউটপুটকে আরও ফিল্টার করতে পারে, অনাকাঙ্ক্ষিত প্রজন্ম ধরতে পারে যা আপনার নিরাপত্তা নীতি লঙ্ঘন করতে পারে। আপনার সমস্ত বিষয়বস্তুর নীতিগুলি কভার করে এমন শ্রেণীবদ্ধ করার পরামর্শ দেওয়া হয়৷

Google সামগ্রীর নিরাপত্তার জন্য অফ-দ্য-শেল্ফ ক্লাসিফায়ার তৈরি করেছে যা ইনপুট এবং আউটপুট ফিল্টার করতে ব্যবহার করা যেতে পারে:

  • Perspective API হল একটি বিনামূল্যের API যা কথোপকথনে মন্তব্য করতে পারে এমন অনুভূত প্রভাব স্কোর করতে মেশিন লার্নিং মডেল ব্যবহার করে। এটি এমন স্কোর প্রদান করে যা একটি মন্তব্য বিষাক্ত, হুমকিমূলক, অপমানজনক, বিষয়বস্তুর বাইরে, ইত্যাদির সম্ভাবনা ক্যাপচার করে।
  • টেক্সট মডারেশন পরিষেবা হল একটি Google ক্লাউড API যা একটি নির্দিষ্ট ব্যবহারের সীমার নিচে ব্যবহার করার জন্য উপলব্ধ এবং বিভিন্ন সম্ভাব্য ক্ষতিকারক বিভাগ এবং সংবেদনশীল বিবেচিত বিষয়গুলি সহ সুরক্ষা বৈশিষ্ট্যগুলির একটি তালিকার বিরুদ্ধে একটি নথি বিশ্লেষণ করতে মেশিন লার্নিং ব্যবহার করে৷

অফ-দ্য-শেল্ফ ক্লাসিফায়ারগুলি আপনার নীতির লক্ষ্যগুলি কতটা ভালভাবে পূরণ করে তা মূল্যায়ন করা এবং ব্যর্থতার ক্ষেত্রে গুণগতভাবে মূল্যায়ন করা গুরুত্বপূর্ণ। এটাও মনে রাখা গুরুত্বপূর্ণ যে ওভার-ফিল্টারিংয়ের ফলে অনিচ্ছাকৃত ক্ষতির পাশাপাশি অ্যাপ্লিকেশনটির উপযোগিতাও হ্রাস পেতে পারে, যার মানে যে ক্ষেত্রে অতিরিক্ত ফিল্টারিং ঘটতে পারে সেগুলির পর্যালোচনা করাও গুরুত্বপূর্ণ। এই ধরনের মূল্যায়ন পদ্ধতি সম্পর্কে আরো বিস্তারিত জানার জন্য, নিরাপত্তার জন্য মডেল এবং সিস্টেম মূল্যায়ন দেখুন।

কাস্টমাইজড সেফটি ক্লাসিফায়ার তৈরি করুন

যদি আপনার পলিসি একটি অফ-দ্য-শেল্ফ API দ্বারা আচ্ছাদিত না হয় বা আপনি যদি নিজের ক্লাসিফায়ার তৈরি করতে চান তবে প্যারামিটার দক্ষ টিউনিং কৌশল যেমন প্রম্পট-টিউনিং এবং LoRA একটি কার্যকর কাঠামো প্রদান করে। এই পদ্ধতিগুলিতে, পুরো মডেলটি সূক্ষ্ম-টিউন করার পরিবর্তে, আপনি মডেলের গুরুত্বপূর্ণ পরামিতিগুলির একটি ছোট সেট প্রশিক্ষণের জন্য সীমিত পরিমাণ ডেটা ব্যবহার করতে পারেন। এটি আপনার মডেলকে নতুন আচরণ শিখতে দেয়, যেমন তুলনামূলকভাবে অল্প প্রশিক্ষণের ডেটা এবং কম্পিউট পাওয়ার সহ আপনার অভিনব সুরক্ষা ব্যবহারের ক্ষেত্রে কীভাবে শ্রেণীবদ্ধ করা যায়। এই পদ্ধতিটি আপনাকে আপনার নিজস্ব ব্যবহারকারী এবং কাজের জন্য ব্যক্তিগতকৃত সুরক্ষা সরঞ্জামগুলি বিকাশ করতে দেয়।

এটি কীভাবে কাজ করে তা ব্যাখ্যা করার জন্য, এই কোডল্যাব একটি "চতুর শ্রেণিবদ্ধকারী" সেট আপ করার জন্য প্রয়োজনীয় কোডটি দেখায়। কোডল্যাব ডেটা ইনজেস্ট করার ধাপগুলি দেখায়, এটি এলএলএম-এর জন্য ফর্ম্যাট করা, LoRA ওজনের প্রশিক্ষণ দেয় এবং তারপরে আপনার ফলাফলগুলি মূল্যায়ন করে৷ Gemma এই শক্তিশালী ক্লাসিফায়ারগুলিকে শুধুমাত্র কয়েকটি লাইনের কোড দিয়ে তৈরি করা সম্ভব করে তোলে। আরও বিশদ ওভারভিউয়ের জন্য, আমাদের গবেষণাপত্র " টুওয়ার্ডস অ্যাজিল টেক্সট ক্লাসিফায়ারস ফর এভরিয়ন " দেখায় যে আপনি কীভাবে এই কৌশলগুলি ব্যবহার করে শুধুমাত্র কয়েকশ প্রশিক্ষণের উদাহরণ সহ শিল্প কর্মক্ষমতা অর্জনের জন্য বিভিন্ন ধরনের নিরাপত্তা কাজকে প্রশিক্ষণ দিতে পারেন।

এই উদাহরণের টিউটোরিয়ালে , আপনি ইউটিউব এবং Reddit মন্তব্য থেকে তৈরি, ঘৃণাপূর্ণ বক্তৃতা সনাক্তকরণের জন্য একটি সর্বজনীনভাবে উপলব্ধ ডেটাসেট, ETHOS ডেটাসেট ব্যবহার করে, ঘৃণাত্মক বক্তব্যের জন্য একটি শ্রেণিবদ্ধকারীকে প্রশিক্ষণ দিতে পারেন৷ যখন ছোট জেমা মডেলে প্রশিক্ষণ দেওয়া হয়, শুধুমাত্র 200টি উদাহরণে (ডেটাসেটের ¼ থেকে একটু কম) এটি একটি F1 স্কোর অর্জন করে: 0.80 এবং ROC-AUC 0.78। এই ফলাফলটি এই লিডারবোর্ড লিডারবোর্ডে রিপোর্ট করা শিল্প ফলাফলের সাথে অনুকূলভাবে তুলনা করে। লিডারবোর্ডের অন্যান্য ক্লাসিফায়ারগুলির মতো 800টি উদাহরণের উপর প্রশিক্ষণ দেওয়া হলে, জেমা ভিত্তিক চটপটে শ্রেণীবদ্ধকারী একটি F1 স্কোর 83.74 এবং একটি ROC-AUC স্কোর 88.17 অর্জন করে। আপনি বাক্সের বাইরে এই ক্লাসিফায়ারটি ব্যবহার করতে পারেন, বা জেমা অ্যাজিল ক্লাসিফায়ার টিউটোরিয়াল ব্যবহার করে এটিকে মানিয়ে নিতে পারেন।

জেমা অ্যাগিল ক্লাসিফায়ার টিউটোরিয়াল

কোডল্যাব শুরু করুন Google Colab চালু করুন

সুরক্ষা ব্যবস্থা সেট আপ করার জন্য সর্বোত্তম অনুশীলন

নিরাপত্তা ক্লাসিফায়ার ব্যবহার করে দৃঢ়ভাবে সুপারিশ করা হয়. যাইহোক, যদি বিষয়বস্তু ব্লক করা থাকে তাহলে গার্ডেলের ফলে জেনারেটিভ মডেল ব্যবহারকারীর জন্য কিছু তৈরি করতে পারে না। এই কেসটি পরিচালনা করার জন্য অ্যাপ্লিকেশনগুলি ডিজাইন করা দরকার৷ সর্বাধিক জনপ্রিয় চ্যাটবট টিনজাত উত্তর প্রদান করে এটি পরিচালনা করে ("আমি দুঃখিত, আমি একটি ভাষা মডেল, আমি এই অনুরোধে আপনাকে সাহায্য করতে পারি না")।

সহায়ক এবং ক্ষতিহীনতার মধ্যে সঠিক ভারসাম্য খুঁজুন : নিরাপত্তা শ্রেণীবিভাগ ব্যবহার করার সময়, এটি বোঝা গুরুত্বপূর্ণ যে তারা ভুল ইতিবাচক (যেমন আউটপুট না হলে অনিরাপদ দাবি করা) এবং মিথ্যা নেতিবাচক (একটি আউটপুট লেবেল করতে ব্যর্থ হওয়া) উভয়ই সহ ভুল করবে। অনিরাপদ হিসাবে, যখন এটি)। F1, Precision, Recall, এবং AUC-ROC-এর মতো মেট্রিকগুলির সাথে শ্রেণীবিভাগের মূল্যায়ন করে, আপনি কীভাবে মিথ্যা ইতিবাচক বনাম মিথ্যা নেতিবাচক ত্রুটিগুলিকে ট্রেডঅফ করতে চান তা নির্ধারণ করতে পারেন৷ শ্রেণীবদ্ধকরণের থ্রেশহোল্ড পরিবর্তন করে, আপনি একটি আদর্শ ভারসাম্য খুঁজে পেতে সাহায্য করেন যা এখনও যথাযথ নিরাপত্তা প্রদান করার সময় অতিরিক্ত ফিল্টারিং আউটপুট এড়ায়।

অনিচ্ছাকৃত পক্ষপাতিত্বের জন্য আপনার শ্রেণীবিভাগ পরীক্ষা করুন: নিরাপত্তা শ্রেণীবিভাগকারী, অন্য যেকোন ML মডেলের মতো, সামাজিক-সাংস্কৃতিক স্টেরিওটাইপগুলির মতো অনিচ্ছাকৃত পক্ষপাতগুলি প্রচার করতে পারে। সম্ভাব্য সমস্যাযুক্ত আচরণের জন্য অ্যাপ্লিকেশনগুলিকে যথাযথভাবে মূল্যায়ন করা দরকার। বিশেষ করে, বিষয়বস্তু নিরাপত্তা শ্রেণীবিভাগকারীরা পরিচয়ের সাথে সম্পর্কিত বিষয়বস্তুতে ওভার-ট্রিগার করতে পারে যেগুলি অনলাইনে আপত্তিজনক ভাষার লক্ষ্যবস্তু হয়। উদাহরণ হিসেবে, যখন Perspective API প্রথম চালু করা হয়েছিল, মডেলটি নির্দিষ্ট পরিচয় গোষ্ঠীর ( ব্লগ ) উল্লেখ করে মন্তব্যে উচ্চতর বিষাক্ততার স্কোর ফেরত দিয়েছিল। এই অত্যধিক ট্রিগারিং আচরণ ঘটতে পারে কারণ যে মন্তব্যগুলি প্রায়শই লক্ষ্যবস্তু করা গোষ্ঠীগুলির জন্য পরিচয়ের শর্তাবলী উল্লেখ করে (যেমন, "ব্ল্যাক", "মুসলিম", "নারীবাদী", "নারী", "সমকামী", ইত্যাদির মতো শব্দ) প্রায়শই বিষাক্ত হয় প্রকৃতিতে. যখন ক্লাসিফায়ারদের প্রশিক্ষণের জন্য ব্যবহৃত ডেটাসেটগুলিতে নির্দিষ্ট কিছু শব্দ সম্বলিত মন্তব্যের জন্য উল্লেখযোগ্য ভারসাম্যহীনতা থাকে, তখন শ্রেণিবিন্যাসকারীরা অতি সাধারণ করতে পারে এবং সেই শব্দগুলির সাথে সমস্ত মন্তব্যকে অনিরাপদ হতে পারে বলে বিবেচনা করতে পারে। জিগস টিম কীভাবে এই অনিচ্ছাকৃত পক্ষপাতকে প্রশমিত করেছে তা পড়ুন।

বিকাশকারী সংস্থান