আপনার মডেল সুরক্ষিত

জেনারেটিভ আর্টিফিশিয়াল ইন্টেলিজেন্স (GenAI) পণ্যগুলি তুলনামূলকভাবে নতুন এবং তাদের আচরণ আগের সফ্টওয়্যারগুলির চেয়ে বেশি পরিবর্তিত হতে পারে। GenAI ক্ষমতার অপব্যবহার থেকে আপনার পণ্যকে রক্ষাকারী সুরক্ষাগুলি অবশ্যই মানিয়ে নিতে হবে। এই নির্দেশিকাটি বর্ণনা করে যে আপনি কীভাবে আপনার GenAI-সক্ষম পণ্যগুলিকে সুরক্ষিত রাখতে বিষয়বস্তু নীতি সম্মতি পরীক্ষক এবং ওয়াটারমার্কিং সরঞ্জাম ব্যবহার করতে পারেন।

বিষয়বস্তু নীতি সম্মতি

এমনকি নিরাপত্তার জন্য পূর্বের টিউনিং এবং একটি ভালভাবে ডিজাইন করা প্রম্পট টেমপ্লেটের সাথেও, আপনার GenAI পণ্যের পক্ষে এমন সামগ্রী আউটপুট করা সম্ভব যার ফলে অনিচ্ছাকৃত ক্ষতি হয়। GenAI পণ্যগুলি প্রায়ই দায়িত্বশীল মডেল আচরণ নিশ্চিত করতে ইনপুট এবং আউটপুট ফিল্টারিংয়ের উপর নির্ভর করে। এই কৌশলগুলি একটি বিষয়বস্তু শ্রেণীবদ্ধকারী মডেল তৈরি করার জন্য অতিরিক্ত নিরাপত্তা প্রশিক্ষণ সঞ্চালনের মাধ্যমে প্রায়শই আপনার নীতিগুলির সাথে সঙ্গতিপূর্ণ মডেলের মধ্যে যাওয়া বা বেরিয়ে আসা ডেটা পরীক্ষা করে৷

ইনপুট ক্লাসিফায়ারগুলি এমন সামগ্রী ফিল্টার করতে ব্যবহৃত হয় যা সরাসরি বা যা আপনার মডেল তৈরি করতে পারে এমন সামগ্রী যা আপনার সামগ্রী নীতি লঙ্ঘন করে৷ ইনপুট ফিল্টারগুলি প্রায়শই প্রতিপক্ষের আক্রমণকে লক্ষ্য করে যা আপনার বিষয়বস্তু নীতিগুলিকে এড়িয়ে যাওয়ার চেষ্টা করে।

আউটপুট ক্লাসিফায়ার ফিল্টার মডেল আউটপুট, আপনার নিরাপত্তা নীতি লঙ্ঘন করে উত্পন্ন বিষয়বস্তু ধরা. আপনার বিষয়বস্তু প্রত্যাখ্যান আচরণের যত্ন সহকারে নিরীক্ষণ নতুন শ্রেণীর প্রম্পটগুলিকে সামনে আনতে পারে যা ইনপুট ফিল্টারগুলিকে বাড়ানো বা উন্নত করতে ব্যবহার করা যেতে পারে।

আপনার সমস্ত বিষয়বস্তুর নীতিগুলি কভার করে এমন শ্রেণীবদ্ধ করার পরামর্শ দেওয়া হয়৷ আপনি রেডিমেড ক্লাসিফায়ার ব্যবহার করে এটি অর্জন করতে সক্ষম হতে পারেন, অথবা আপনার নির্দিষ্ট নীতিগুলিকে সমর্থন করে এমন কাস্টম ক্লাসিফায়ার তৈরি করতে হতে পারে।

ভারসাম্যও গুরুত্বপূর্ণ। অতিরিক্ত ফিল্টারিং এর ফলে অনিচ্ছাকৃত ক্ষতি হতে পারে বা অ্যাপ্লিকেশনটির উপযোগিতা হ্রাস করতে পারে; যে ক্ষেত্রে অতিরিক্ত ফিল্টারিং ঘটতে পারে সেগুলি পর্যালোচনা করতে ভুলবেন না। আরো জন্য নিরাপত্তা মূল্যায়ন গাইড দেখুন.

রেডিমেড কন্টেন্ট পলিসি ক্লাসিফায়ার

রেডিমেড কন্টেন্ট ক্লাসিফায়ারগুলি মডেলের অন্তর্নিহিত সুরক্ষা প্রশিক্ষণে সুরক্ষার একটি অতিরিক্ত স্তর যুক্ত করে, যা কিছু নির্দিষ্ট ধরণের নীতি লঙ্ঘনের সম্ভাবনাকে আরও কমিয়ে দেয়। এগুলি সাধারণত দুটি জাতের মধ্যে আসে:

  1. স্ব-হোস্টেড ক্লাসিফায়ার , যেমন ShieldGemma , Google ক্লাউডের মতো ক্লাউড প্ল্যাটফর্ম, ব্যক্তিগত মালিকানাধীন হার্ডওয়্যার সহ বিভিন্ন আর্কিটেকচারে ডাউনলোড এবং হোস্ট করা যেতে পারে এবং কিছু ক্লাসিফায়ার এমনকি মোবাইল অ্যাপ্লিকেশনের জন্য ডিভাইসে চলতে পারে।
  2. API-ভিত্তিক ক্লাসিফায়ারগুলিকে পরিষেবা হিসাবে সরবরাহ করা হয় যা বিভিন্ন নীতির বিপরীতে উচ্চ-ভলিউম, কম-বিলম্বিত শ্রেণীবিভাগ অফার করে। Google তিনটি পরিষেবা প্রদান করে যা আগ্রহের হতে পারে:
    • চেক AI সেফটি মডেল মূল্যায়ন এবং পর্যবেক্ষণ সমর্থনকারী কমপ্লায়েন্স মূল্যায়ন এবং ড্যাশবোর্ড প্রদান করে। AI সেফটি টুলটি ওপেন বিটাতে রয়েছে, খবর, অ্যাক্সেস এবং ডেমোর জন্য সাইন আপ করুন
    • টেক্সট মডারেশন সার্ভিস হল একটি Google ক্লাউড এপিআই যা ব্যবহার হারের সাপেক্ষে ক্ষতিকারক বিভাগ এবং সংবেদনশীল বিষয় সহ নিরাপত্তা লঙ্ঘনের জন্য পাঠ্য বিশ্লেষণ করে।
    • Perspective API হল একটি বিনামূল্যের API যা কথোপকথনে মন্তব্য করতে পারে এমন অনুভূত প্রভাব স্কোর করতে মেশিন লার্নিং মডেল ব্যবহার করে। এটি এমন স্কোর প্রদান করে যা একটি মন্তব্য বিষাক্ত, হুমকি, অপমানজনক বা বিষয়বস্তুর বাইরের কিনা তার সম্ভাবনা ক্যাপচার করে।

রেডিমেড ক্লাসিফায়ারগুলি আপনার নীতির লক্ষ্যগুলি কতটা ভালভাবে পূরণ করে তা মূল্যায়ন করা এবং ব্যর্থতার ক্ষেত্রে গুণগতভাবে মূল্যায়ন করা গুরুত্বপূর্ণ।

কাস্টম কন্টেন্ট পলিসি ক্লাসিফায়ার

রেডিমেড কন্টেন্ট পলিসি ক্লাসিফায়ার একটি চমৎকার শুরু, কিন্তু তাদের সীমাবদ্ধতা রয়েছে, যার মধ্যে রয়েছে:

  • একটি নির্দিষ্ট নীতির শ্রেণীবিন্যাস যা আপনার সমস্ত সামগ্রী নীতির সাথে মানচিত্র বা কভার নাও করতে পারে।
  • হার্ডওয়্যার এবং সংযোগের প্রয়োজনীয়তা যা পরিবেশের জন্য উপযুক্ত নাও হতে পারে আপনার GenAI-চালিত অ্যাপ্লিকেশন স্থাপন করা হবে।
  • মূল্য এবং অন্যান্য ব্যবহার সীমাবদ্ধতা.

কাস্টম বিষয়বস্তু নীতি ক্লাসিফায়ারগুলি এই সীমাবদ্ধতাগুলি মোকাবেলার একটি উপায় হতে পারে এবং চটপটে শ্রেণিবদ্ধকরণ পদ্ধতি তাদের তৈরি করার জন্য একটি দক্ষ এবং নমনীয় কাঠামো প্রদান করে৷ যেহেতু এই পদ্ধতিটি নিরাপত্তার উদ্দেশ্যে একটি মডেল টিউন করে, তাই মডেল টিউনিং বেসিকগুলি পর্যালোচনা করতে ভুলবেন না৷

SynthID টেক্সট ওয়াটারমার্কের সাথে AI-উত্পন্ন সামগ্রী সনাক্ত করুন

GenAI পূর্বে কল্পনাতীত স্কেলে অত্যন্ত বৈচিত্র্যময় সামগ্রীর একটি বিস্তৃত অ্যারে তৈরি করতে পারে। যদিও এই ব্যবহারের বেশিরভাগই বৈধ উদ্দেশ্যে, সেখানে উদ্বেগ রয়েছে যে এটি ভুল তথ্য এবং ভুল বণ্টন সমস্যায় অবদান রাখতে পারে। এই সম্ভাব্য প্রভাবগুলি কমানোর জন্য ওয়াটারমার্কিং হল একটি কৌশল। মানুষের কাছে অদৃশ্য জলছাপগুলি AI-উত্পাদিত সামগ্রীতে প্রয়োগ করা যেতে পারে এবং সনাক্তকরণ মডেলগুলি জলছাপ করা হওয়ার সম্ভাবনা নির্দেশ করতে নির্বিচারে সামগ্রী স্কোর করতে পারে।

SynthID হল একটি Google DeepMind প্রযুক্তি যা AI-জেনারেট করা ছবি, অডিও, টেক্সট বা ভিডিওতে সরাসরি ডিজিটাল ওয়াটারমার্ক এম্বেড করে AI-জেনারেটেড কন্টেন্টকে ওয়াটারমার্ক করে এবং শনাক্ত করে। SynthID পাঠ্যটি Hugging Face Transformers- এ উৎপাদনের জন্য উপলব্ধ, আপনার অ্যাপ্লিকেশনে SynthID কীভাবে ব্যবহার করবেন সে সম্পর্কে আরও জানতে গবেষণাপত্র এবং ডক্স দেখুন।

Google ক্লাউড Vertex AI গ্রাহকদের অন্যান্য পদ্ধতির জন্য SynthID ওয়াটারমার্কিং ক্ষমতা প্রদান করে, যেমন ইমেজেন-জেনারেটেড ইমেজরি

সুরক্ষা ব্যবস্থা সেট আপ করার জন্য সর্বোত্তম অনুশীলন

সুরক্ষা শ্রেণীবদ্ধকারীকে সুরক্ষা হিসাবে ব্যবহার করা দৃঢ়ভাবে সুপারিশ করা হয়। যাইহোক, যদি বিষয়বস্তু ব্লক করা থাকে তাহলে গার্ডেলের ফলে জেনারেটিভ মডেল ব্যবহারকারীর জন্য কিছু তৈরি করতে পারে না। এই কেসটি পরিচালনা করার জন্য অ্যাপ্লিকেশনগুলি ডিজাইন করা দরকার৷ সর্বাধিক জনপ্রিয় চ্যাটবট টিনজাত উত্তর প্রদান করে এটি পরিচালনা করে ("আমি দুঃখিত, আমি একটি ভাষা মডেল, আমি এই অনুরোধে আপনাকে সাহায্য করতে পারি না")।

সহায়ক এবং ক্ষতিহীনতার মধ্যে সঠিক ভারসাম্য খুঁজুন : নিরাপত্তা শ্রেণীবিভাগ ব্যবহার করার সময়, এটি বোঝা গুরুত্বপূর্ণ যে তারা ভুল ইতিবাচক (যেমন আউটপুট না হলে অনিরাপদ দাবি করা) এবং মিথ্যা নেতিবাচক (একটি আউটপুট লেবেল করতে ব্যর্থ হওয়া) উভয়ই সহ ভুল করবে। অনিরাপদ হিসাবে, যখন এটি)। F1, Precision, Recall, এবং AUC-ROC-এর মতো মেট্রিকগুলির সাথে শ্রেণীবিভাগের মূল্যায়ন করে, আপনি কীভাবে মিথ্যা ইতিবাচক বনাম মিথ্যা নেতিবাচক ত্রুটিগুলিকে ট্রেডঅফ করতে চান তা নির্ধারণ করতে পারেন৷ শ্রেণীবদ্ধকরণের থ্রেশহোল্ড পরিবর্তন করে, আপনি একটি আদর্শ ভারসাম্য খুঁজে পেতে সাহায্য করেন যা এখনও যথাযথ নিরাপত্তা প্রদান করার সময় অতিরিক্ত ফিল্টারিং আউটপুট এড়ায়।

অনিচ্ছাকৃত পক্ষপাতিত্বের জন্য আপনার শ্রেণীবিভাগ পরীক্ষা করুন: নিরাপত্তা শ্রেণীবিভাগকারী, অন্য যেকোন ML মডেলের মতো, সামাজিক-সাংস্কৃতিক স্টেরিওটাইপগুলির মতো অনিচ্ছাকৃত পক্ষপাতগুলি প্রচার করতে পারে। সম্ভাব্য সমস্যাযুক্ত আচরণের জন্য অ্যাপ্লিকেশনগুলিকে যথাযথভাবে মূল্যায়ন করা দরকার। বিশেষ করে, বিষয়বস্তু নিরাপত্তা শ্রেণীবিভাগকারীরা পরিচয়ের সাথে সম্পর্কিত বিষয়বস্তুতে ওভার-ট্রিগার করতে পারে যেগুলি অনলাইনে আপত্তিজনক ভাষার লক্ষ্যবস্তু হয়। উদাহরণ হিসেবে, যখন Perspective API প্রথম চালু করা হয়েছিল, মডেলটি নির্দিষ্ট পরিচয় গোষ্ঠীর ( ব্লগ ) উল্লেখ করে মন্তব্যে উচ্চতর বিষাক্ততার স্কোর ফেরত দিয়েছিল। এই অত্যধিক ট্রিগারিং আচরণ ঘটতে পারে কারণ যে মন্তব্যগুলি প্রায়শই লক্ষ্যবস্তু করা গোষ্ঠীগুলির জন্য পরিচয়ের শর্তাবলী উল্লেখ করে (যেমন, "ব্ল্যাক", "মুসলিম", "নারীবাদী", "নারী", "সমকামী", ইত্যাদির মতো শব্দ) প্রায়শই বিষাক্ত হয় প্রকৃতিতে যখন ক্লাসিফায়ারদের প্রশিক্ষণের জন্য ব্যবহৃত ডেটাসেটগুলিতে নির্দিষ্ট কিছু শব্দ সম্বলিত মন্তব্যের জন্য উল্লেখযোগ্য ভারসাম্যহীনতা থাকে, তখন শ্রেণিবিন্যাসকারীরা অতি সাধারণ করতে পারে এবং সেই শব্দগুলির সাথে সমস্ত মন্তব্যকে অনিরাপদ হতে পারে বলে বিবেচনা করতে পারে। জিগস টিম কীভাবে এই অনিচ্ছাকৃত পক্ষপাতকে প্রশমিত করেছে তা পড়ুন।

বিকাশকারী সংস্থান