ইনপুট এবং আউটপুট সুরক্ষা তৈরি করুন

জেনারেটিভ এআই অ্যাপ্লিকেশনগুলি প্রায়শই ইনপুট এবং আউটপুট ডেটা ফিল্টারিংয়ের উপর নির্ভর করে, যাকে কখনও কখনও সুরক্ষা হিসাবে উল্লেখ করা হয়, দায়িত্বশীল মডেল আচরণ নিশ্চিত করতে সহায়তা করার জন্য। ইনপুট এবং আউটপুট ফিল্টারিং কৌশলগুলি পরীক্ষা করে দেখুন যে ডেটা আপনার অ্যাপ্লিকেশনের জন্য সংজ্ঞায়িত নীতিগুলির সাথে সঙ্গতিপূর্ণ। ইনপুট ক্লাসিফায়ারগুলি সাধারণত এমন সামগ্রী ফিল্টার করতে ব্যবহৃত হয় যা আপনার অ্যাপ্লিকেশনে ব্যবহার করার উদ্দেশ্যে নয় এবং যা আপনার মডেলকে আপনার সুরক্ষা নীতি লঙ্ঘন করতে পারে৷ ইনপুট ফিল্টারগুলি প্রায়শই প্রতিপক্ষের আক্রমণকে লক্ষ্য করে যা আপনার বিষয়বস্তু নীতিগুলিকে এড়িয়ে যাওয়ার চেষ্টা করে। আউটপুট ক্লাসিফায়ারগুলি নিরাপত্তা প্রশিক্ষণের সাথে কাজ করে আরও ফিল্টার মডেল আউটপুট, জেনারেট আউটপুট ধরতে পারে যা আপনার নিরাপত্তা নীতি লঙ্ঘন করতে পারে। আপনার সমস্ত বিষয়বস্তুর নীতিগুলি কভার করে এমন শ্রেণিবিন্যাস করার পরামর্শ দেওয়া হয়৷

প্রস্তুত রক্ষাকবচ

এমনকি সুরক্ষার জন্য পূর্বের টিউনিং এবং একটি ভালভাবে ডিজাইন করা প্রম্পট টেমপ্লেটের সাথে, আপনার মডেলের পক্ষে এখনও অনিচ্ছাকৃত ক্ষতির ফলে এমন সামগ্রী আউটপুট করা সম্ভব। রেডিমেড কন্টেন্ট ক্লাসিফায়াররা নির্দিষ্ট ধরনের নীতি লঙ্ঘনের এই সম্ভাবনাকে আরও উন্নত করতে সুরক্ষার একটি অতিরিক্ত স্তর যোগ করতে পারে।

শিল্ডগেমা

ShieldGemma হল রেডিমেড, ইন্সট্রাকশন-টিউনড, ওপেন ওয়েট কন্টেন্ট ক্লাসিফায়ার মডেলের একটি সেট, যা Gemma 2- এর উপর নির্মিত, যা ব্যবহারকারী-প্রদত্ত, মডেল-উত্পাদিত বা মিশ্র সামগ্রী কোনও সামগ্রী সুরক্ষা নীতি লঙ্ঘন করে কিনা তা নির্ধারণ করতে পারে৷ ShieldGemma চারটি ক্ষতি (যৌন বিষয়বস্তু, বিপজ্জনক বিষয়বস্তু, হয়রানি এবং ঘৃণামূলক বক্তব্য) শনাক্ত করতে প্রশিক্ষিত এবং তিনটি আকার-শ্রেণির বৈকল্পিক-2B, 9B, এবং 27B প্যারামিটার-এ আসে যা আপনাকে গতি, কর্মক্ষমতা, এবং মানানসই সাধারণীকরণের ভারসাম্য বজায় রাখতে দেয়। যে কোনো স্থাপনা জুড়ে আপনার প্রয়োজন. এই ভেরিয়েন্টগুলির মধ্যে পার্থক্য সম্পর্কে আরও জানতে মডেল কার্ডটি দেখুন।

ShieldGemma দিয়ে আপনার মডেলগুলিকে সুরক্ষিত করুন

Google Colab শুরু করুন (Keras) Google Colab শুরু করুন (ট্রান্সফরমার)

আপনি নিম্নলিখিত কাঠামোর মধ্যে ShieldGemma মডেলগুলি ব্যবহার করতে পারেন।

API-ভিত্তিক

Google কন্টেন্ট নিরাপত্তার জন্য API-ভিত্তিক ক্লাসিফায়ার সরবরাহ করে যা সিস্টেম ইনপুট এবং আউটপুট ফিল্টার করতে ব্যবহার করা যেতে পারে:

  • Perspective API হল একটি বিনামূল্যের API যা কথোপকথনে মন্তব্য করতে পারে এমন অনুভূত প্রভাব স্কোর করতে মেশিন লার্নিং মডেল ব্যবহার করে। এটি এমন স্কোর প্রদান করে যা একটি মন্তব্য বিষাক্ত, হুমকি, অপমানজনক বা বিষয়বস্তুর বাইরের কিনা তার সম্ভাবনা ক্যাপচার করে।
  • টেক্সট মডারেশন সার্ভিস হল একটি Google ক্লাউড এপিআই যা একটি নির্দিষ্ট ব্যবহারের সীমার নিচে ব্যবহার করার জন্য উপলব্ধ এবং বিভিন্ন সম্ভাব্য ক্ষতিকারক বিভাগ এবং সংবেদনশীল বিবেচিত বিষয়গুলি সহ সুরক্ষা বৈশিষ্ট্যগুলির একটি তালিকার বিরুদ্ধে একটি নথি বিশ্লেষণ করতে মেশিন লার্নিং ব্যবহার করে৷

রেডিমেড ক্লাসিফায়ারগুলি আপনার নীতির লক্ষ্যগুলি কতটা ভালভাবে পূরণ করে তা মূল্যায়ন করা এবং ব্যর্থতার ক্ষেত্রে গুণগতভাবে মূল্যায়ন করা গুরুত্বপূর্ণ। এটাও মনে রাখা গুরুত্বপূর্ণ যে ওভার-ফিল্টারিংয়ের ফলে অনিচ্ছাকৃত ক্ষতির পাশাপাশি অ্যাপ্লিকেশনটির উপযোগিতা হ্রাস করতে পারে, যার অর্থ হল যে ক্ষেত্রে অতিরিক্ত ফিল্টারিং ঘটতে পারে সেগুলির পর্যালোচনা করাও গুরুত্বপূর্ণ। এই ধরনের মূল্যায়ন পদ্ধতি সম্পর্কে আরো বিস্তারিত জানার জন্য, নিরাপত্তার জন্য মডেল এবং সিস্টেম মূল্যায়ন দেখুন।

কাস্টমাইজড সেফটি ক্লাসিফায়ার তৈরি করুন

রেডিমেড সেফগার্ড আপনার ব্যবহারের ক্ষেত্রে উপযুক্ত নাও হতে পারে এমন বেশ কয়েকটি কারণ রয়েছে, যেমন সমর্থিত নয় এমন একটি নীতি থাকা বা আপনার সিস্টেমকে প্রভাবিত করে এমন ডেটার সাথে আপনার সুরক্ষাকে আরও সুরক্ষিত করতে চাওয়া। এই ক্ষেত্রে, চটপটে শ্রেণীবদ্ধকারীরা আপনার প্রয়োজনের সাথে মানানসই মডেল, যেমন জেমা, টিউনিং করে কাস্টম সুরক্ষা তৈরি করার জন্য একটি দক্ষ এবং নমনীয় কাঠামো প্রদান করে। তারা আপনাকে কোথায় এবং কীভাবে মোতায়েন করা হবে তার উপর সম্পূর্ণ নিয়ন্ত্রণের অনুমতি দেয়।

জেমা অ্যাগিল ক্লাসিফায়ার টিউটোরিয়াল

কোডল্যাব শুরু করুন Google Colab চালু করুন

চটপট ক্লাসিফায়ার কোডল্যাব এবং টিউটোরিয়াল কেরাসএনএলপি লাইব্রেরি ব্যবহার করে একটি বিষয়বস্তু সংযম শ্রেণীবদ্ধকারী হিসাবে কাজ করার জন্য একটি জেমা মডেলকে ফাইন-টিউন করতে LoRA ব্যবহার করে। ETHOS ডেটাসেট থেকে মাত্র 200টি উদাহরণ ব্যবহার করে, এই ক্লাসিফায়ারটি 0.80 এর একটি F1 স্কোর এবং 0.78 এর ROC-AUC স্কোর অর্জন করে, যা অত্যাধুনিক লিডারবোর্ড ফলাফলের সাথে অনুকূলভাবে তুলনা করে। লিডারবোর্ডের অন্যান্য ক্লাসিফায়ারের মতো 800টি উদাহরণের উপর প্রশিক্ষিত হলে, জেমা ভিত্তিক চটপটে ক্লাসিফায়ার 83.74 এর একটি F1 স্কোর এবং 88.17 এর একটি ROC-AUC স্কোর অর্জন করে। আপনি এই ক্লাসিফায়ারটিকে আরও পরিমার্জিত করতে, বা আপনার নিজস্ব কাস্টম সুরক্ষা শ্রেণীবদ্ধ সুরক্ষা ব্যবস্থা তৈরি করতে টিউটোরিয়াল নির্দেশাবলী মানিয়ে নিতে পারেন।

সুরক্ষা ব্যবস্থা সেট আপ করার জন্য সর্বোত্তম অনুশীলন

সুরক্ষা শ্রেণীবদ্ধকারীকে সুরক্ষা হিসাবে ব্যবহার করা দৃঢ়ভাবে সুপারিশ করা হয়। যাইহোক, যদি বিষয়বস্তু ব্লক করা থাকে তাহলে গার্ডেলের ফলে জেনারেটিভ মডেল ব্যবহারকারীর জন্য কিছু তৈরি করতে পারে না। এই কেসটি পরিচালনা করার জন্য অ্যাপ্লিকেশনগুলি ডিজাইন করা দরকার৷ সর্বাধিক জনপ্রিয় চ্যাটবট টিনজাত উত্তর প্রদান করে এটি পরিচালনা করে ("আমি দুঃখিত, আমি একটি ভাষা মডেল, আমি এই অনুরোধে আপনাকে সাহায্য করতে পারি না")।

সহায়ক এবং ক্ষতিহীনতার মধ্যে সঠিক ভারসাম্য খুঁজুন : নিরাপত্তা শ্রেণীবিভাগ ব্যবহার করার সময়, এটি বোঝা গুরুত্বপূর্ণ যে তারা ভুল ইতিবাচক (যেমন আউটপুট না হলে অনিরাপদ দাবি করা) এবং মিথ্যা নেতিবাচক (একটি আউটপুট লেবেল করতে ব্যর্থ হওয়া) উভয়ই সহ ভুল করবে। অনিরাপদ হিসাবে, যখন এটি)। F1, Precision, Recall, এবং AUC-ROC-এর মতো মেট্রিকগুলির সাথে শ্রেণীবিভাগের মূল্যায়ন করে, আপনি কীভাবে মিথ্যা ইতিবাচক বনাম মিথ্যা নেতিবাচক ত্রুটিগুলিকে ট্রেডঅফ করতে চান তা নির্ধারণ করতে পারেন৷ শ্রেণীবদ্ধকরণের থ্রেশহোল্ড পরিবর্তন করে, আপনি একটি আদর্শ ভারসাম্য খুঁজে পেতে সাহায্য করেন যা এখনও যথাযথ নিরাপত্তা প্রদান করার সময় অতিরিক্ত ফিল্টারিং আউটপুট এড়ায়।

অনিচ্ছাকৃত পক্ষপাতিত্বের জন্য আপনার শ্রেণীবিভাগ পরীক্ষা করুন: নিরাপত্তা শ্রেণীবিভাগকারী, অন্য যেকোন ML মডেলের মতো, সামাজিক-সাংস্কৃতিক স্টেরিওটাইপগুলির মতো অনিচ্ছাকৃত পক্ষপাতগুলি প্রচার করতে পারে। সম্ভাব্য সমস্যাযুক্ত আচরণের জন্য অ্যাপ্লিকেশনগুলিকে যথাযথভাবে মূল্যায়ন করা দরকার। বিশেষ করে, বিষয়বস্তু নিরাপত্তা শ্রেণীবিভাগকারীরা পরিচয়ের সাথে সম্পর্কিত বিষয়বস্তুতে ওভার-ট্রিগার করতে পারে যেগুলি অনলাইনে আপত্তিজনক ভাষার লক্ষ্যবস্তু হয়। উদাহরণ হিসেবে, যখন Perspective API প্রথম চালু করা হয়েছিল, মডেলটি নির্দিষ্ট পরিচয় গোষ্ঠীর ( ব্লগ ) উল্লেখ করে মন্তব্যে উচ্চতর বিষাক্ততার স্কোর ফেরত দিয়েছিল। এই অত্যধিক ট্রিগারিং আচরণ ঘটতে পারে কারণ যে মন্তব্যগুলি প্রায়শই লক্ষ্যবস্তু করা গোষ্ঠীগুলির জন্য পরিচয়ের শর্তাবলী উল্লেখ করে (যেমন, "ব্ল্যাক", "মুসলিম", "নারীবাদী", "নারী", "সমকামী", ইত্যাদির মতো শব্দ) প্রায়শই বিষাক্ত হয় প্রকৃতিতে। যখন ক্লাসিফায়ারদের প্রশিক্ষণের জন্য ব্যবহৃত ডেটাসেটগুলিতে নির্দিষ্ট কিছু শব্দ সম্বলিত মন্তব্যের জন্য উল্লেখযোগ্য ভারসাম্যহীনতা থাকে, তখন শ্রেণিবিন্যাসকারীরা অতি সাধারণ করতে পারে এবং সেই শব্দগুলির সাথে সমস্ত মন্তব্যকে অনিরাপদ হতে পারে বলে বিবেচনা করতে পারে। জিগস টিম কীভাবে এই অনিচ্ছাকৃত পক্ষপাতকে প্রশমিত করেছে তা পড়ুন।

বিকাশকারী সংস্থান