इनपुट और आउटपुट के लिए सुरक्षा के उपाय तैयार करें

जनरेटिव एआई ऐप्लिकेशन को अक्सर इनपुट और आउटपुट डेटा को फ़िल्टर करने की ज़रूरत पड़ती है. कभी-कभी इन्हें सुरक्षा उपाय भी कहा जाता है, ताकि ज़िम्मेदार मॉडल पक्का करने में मदद मिल सके व्यवहार. इनपुट और आउटपुट फ़िल्टर करने की तकनीक, किस तरह के डेटा का इस्तेमाल करती है उसकी जांच करती हैं या इसलिए, हम उन नीतियों का पालन करते हैं अपने ऐप्लिकेशन के लिए परिभाषा तय करें.

पहले से तैयार सुरक्षा उपाय

सुरक्षा के लिए पहले से ट्यून किए गए और एक बेहतर डिज़ाइन किए गए प्रॉम्प्ट टेंप्लेट के साथ भी, यह हमारे लिए बेहतर है अब भी आपके मॉडल के लिए ऐसा कॉन्टेंट दिखाया जा सकता है जिससे अनचाहे नुकसान का खतरा हो. इसे और बेहतर बनाने के लिए, कॉन्टेंट की कैटगरी तय करने वाले टूल, सुरक्षा. कॉन्टेंट की कैटगरी तय करने वाले टूल, इनपुट और आउटपुट, दोनों पर लागू किए जा सकते हैं.

इनपुट क्लासिफ़ायर का इस्तेमाल आम तौर पर उस सामग्री को फ़िल्टर करने के लिए किया जाता है, जो अपने ऐप्लिकेशन में इस्तेमाल किया जा सकता है. जिस वजह से आपका मॉडल सुरक्षा नीतियों का पालन करें. इनपुट फ़िल्टर अक्सर प्रतिकूल हमलों को टारगेट करते हैं, जो कॉन्टेंट की नीतियों को गच्चा देना. आउटपुट क्लासिफ़ायर, मॉडल को और भी फ़िल्टर कर सकते हैं इससे अनजान पीढ़ियों के बारे में पता लगाया जा सकता है, जो आपकी सुरक्षा नीतियों का उल्लंघन कर सकती हैं. हमारा सुझाव है कि आप कॉन्टेंट की कैटगरी तय करने वाले ऐसे टूल का इस्तेमाल करें जो आपके कॉन्टेंट की सभी नीतियों को कवर करते हों.

Google, कॉन्टेंट की सुरक्षा के लिए एपीआई पर आधारित कैटगरी तय करने वाली टेक्नोलॉजी उपलब्ध कराता है. इनका इस्तेमाल इन कामों के लिए किया जा सकता है फ़िल्टर सिस्टम इनपुट और आउटपुट:

  • Perspective API, मुफ़्त में उपलब्ध एक एपीआई है. यह मशीन का इस्तेमाल करता है लर्निंग मॉडल की मदद से, ऑडियंस की दिलचस्पी को मापने के लिए, बातचीत. इससे मिलने वाले स्कोर से यह पता चलता है कि टिप्पणी बुरे बर्ताव वाली, धमकी देने वाली, अपमानजनक या विषय से अलग हो.
  • टेक्स्ट मॉडरेशन सेवा एक Google Cloud API है, जो एक तय सीमा से कम सीमा के अंदर इस्तेमाल के लिए उपलब्ध हो और सुरक्षा की सूची के आधार पर किसी दस्तावेज़ का विश्लेषण करने के लिए, मशीन लर्निंग का इस्तेमाल किया जाता है एट्रिब्यूट, जिनमें नुकसान पहुंचा सकने वाली अलग-अलग कैटगरी और विषय शामिल हैं संवेदनशील माना जा सकता है.

इस बात का मूल्यांकन करना ज़रूरी है कि पहले से तैयार क्लासिफ़ायर आपकी नीति का कितना पालन करते हैं ध्यान दें और असफलता के मामलों का अच्छी तरह से आकलन करें. यह भी ज़रूरी है कि ध्यान दें कि ज़्यादा फ़िल्टर करने से अनचाहे नुकसान हो सकते हैं. साथ ही, ऐप्लिकेशन की उपयोगिता है, इसलिए यह ज़रूरी है कि आप ऐसे मामलों में जहां ज़्यादा फ़िल्टर का इस्तेमाल किया जा रहा है. ऐसे आकलन की ज़्यादा जानकारी पाने के लिए तरीकों के बारे में ज़्यादा जानने के लिए, सुरक्षा के लिए मॉडल और सिस्टम का आकलन करें देखें.

सुरक्षा के लिए, पसंद के मुताबिक कैटगरी तय करने वाले एल्गोरिदम बनाएं

ऐसे कई कारण हो सकते हैं, जिनकी वजह से पहले से तैयार सुरक्षा उपाय उनके लिए सही नहीं हो सकते हैं इस्तेमाल का उदाहरण, जैसे कि ऐसी नीति बनाना जो काम नहीं करती या आपको आपने जो डेटा देखा है उससे आपके सिस्टम पर असर पड़ रहा है. इसके तहत, सुरक्षा के उपायों को और बेहतर बनाएं. तय सीमा में ऐसी स्थिति में, एजाइल क्लासिफ़ायर आपकी ट्यूनिंग मॉडल, जैसे कस्टम सुरक्षा उपायों के लिए सुविधाजनक फ़्रेमवर्क जेमा, आपकी ज़रूरतों के हिसाब से. साथ ही, इनकी मदद से यह कंट्रोल किया जा सकता है कि उन्हें किस तरह डिप्लॉय किया जा सकता है.

Gemma Agile क्लासिफ़ायर के ट्यूटोरियल

कोडलैब शुरू करना Google Colab को शुरू करना

एजाइल क्लासिफ़ायर codelab और जेमा को बेहतर बनाने के लिए, LoRA का ट्यूटोरियल इस्तेमाल करें मॉडल, KerasNLP का इस्तेमाल करके कॉन्टेंट मॉडरेशन क्लासिफ़ायर के तौर पर काम करेगा लाइब्रेरी. ETHOS डेटासेट से सिर्फ़ 200 उदाहरणों का इस्तेमाल करके, यह क्लासिफ़ायर को 0.80 F1 स्कोर और ROC-AUC स्कोर मिलता है 0.78 प्रतिशत है, जो कला की आधुनिक स्थिति से तुलना करती है लीडरबोर्ड के नतीजे. जब 800 उदाहरणों के आधार पर ट्रेनिंग दी जाती है, लीडरबोर्ड पर दी गई अन्य कैटगरी की तरह, जेमा आधारित एजाइल क्लासिफ़ायर 83.74 का F1 स्कोर और 88.17 का ROC-AUC स्कोर हासिल करता है. आपके पास इस क्लासिफ़ायर को और बेहतर बनाने या अपना खुद का टूल बनाने के लिए ट्यूटोरियल निर्देश कस्टम सुरक्षा कैटगरी तय करने की सुविधा.

सुरक्षा के उपाय सेट अप करने के सबसे सही तरीके

सुरक्षा के उपायों के तौर पर, सुरक्षा से जुड़े डेटा की कैटगरी तय करने वाली चीज़ों का इस्तेमाल करने का सुझाव दिया जाता है. हालांकि, लागू किए गए नियमों की वजह से जनरेटिव मॉडल, उपयोगकर्ता, अगर सामग्री ब्लॉक की गई है. ऐप्लिकेशन को इस तरह डिज़ाइन किया जाना चाहिए कि केस. ज़्यादातर लोकप्रिय चैटबॉट पहले से तैयार जवाब देकर ऐसा करते हैं. माफ़ करें, मैं एक लैंग्वेज मॉडल हूं. इसलिए, मैं इस अनुरोध के लिए आपकी कोई मदद नहीं कर सकता").

मददगार और नुकसान पहुंचाने वाले कॉन्टेंट के बीच सही संतुलन बनाएं: इस्तेमाल करते समय सुरक्षा कैटगरी तय करते हैं, तो यह समझना ज़रूरी है कि उनसे गलतियां हो सकती हैं, इसमें दोनों फ़ॉल्स पॉज़िटिव शामिल हैं (उदाहरण के लिए, किसी आउटपुट पर दावा करना असुरक्षित है, जबकि ऐसा है नहीं) और फ़ॉल्स नेगेटिव (किसी आउटपुट को असुरक्षित के तौर पर लेबल न करना). इन्होंने बदलाव किया है F1, Precision, Recall, और AUC-ROC जैसी मेट्रिक की मदद से कैटगरी तय करने वालों का आकलन करते हैं, यह तय कर सकता है कि आपको फ़ॉल्स पॉज़िटिव और फ़ॉल्स को कैसे बदलना है नेगेटिव गड़बड़ियां शामिल हैं. क्लासिफ़ायर के थ्रेशोल्ड को बदलकर, यह ऐसा सटीक बैलेंस होता है जो सटीक नतीजे देते हुए भी ओवर-फ़िल्टरिंग आउटपुट से बचाता है उचित सुरक्षा.

अनजाने में होने वाले भेदभाव के बारे में जानने के लिए, डेटा की कैटगरी तय करने वाले एल्गोरिदम की जांच करें: सुरक्षा से जुड़े डेटा की कैटगरी तय करने वाले एल्गोरिदम, जैसे कि कोई भी अन्य एमएल मॉडल की मदद से, अनजाने में होने वाले पक्षपात (जैसे, सामाजिक-सांस्कृतिक) को बढ़ावा दिया जा सकता है घिसी-पिटी सोच को बढ़ावा दिया जा रहा है. संभावित रूप से, ऐप्लिकेशन का सही तरीके से आकलन करना ज़रूरी है में समस्या होती है. खास तौर पर, कॉन्टेंट की सुरक्षा के लिए डेटा की कैटगरी तय करने वाले एल्गोरिदम पहचान से जुड़े कॉन्टेंट की वजह से ज़्यादा ट्रिगर होने पर, ऑनलाइन अपमानजनक भाषा का लक्ष्य. उदाहरण के लिए, जब Perspective API पहली बार लॉन्च किया गया, लेकिन मॉडल ने टिप्पणियों में बुरे बर्ताव का ज़्यादा स्कोर दिया कुछ आइडेंटिटी ग्रुप का रेफ़रंस देना (ब्लॉग). यह ओवर-ट्रिगर ऐसा इसलिए हो सकता है, क्योंकि जिन टिप्पणियों में किसी व्यक्ति की पहचान की पुष्टि करने वाले शब्दों का इस्तेमाल किया जाता है बार-बार टारगेट किए जाने वाले ग्रुप, जैसे कि "ब्लैक", "मुस्लिम", "नारीवादी", "महिला", "गे", वगैरह) अक्सर बुरे बर्ताव वाले होते हैं. जब डेटासेट के लिए इस्तेमाल किया जाता था ट्रेन की कैटगरी तय करने वाले टूल की मदद से, उन टिप्पणियों की तुलना में बहुत ज़्यादा अंतर होता है जिनमें शब्दों का इस्तेमाल करते हैं, तो कैटगरी तय करने वाले टूल सामान्य तौर पर असुरक्षित माना जा सकता है. Jigsaw की टीम के बारे में जानें कम किया है.

डेवलपर रिसॉर्स