इनपुट और आउटपुट के लिए सुरक्षा के उपाय तैयार करें

जनरेटिव एआई ऐप्लिकेशन, अक्सर इनपुट और आउटपुट डेटा को फ़िल्टर करने की सुविधा का इस्तेमाल करते हैं. इन्हें कभी-कभी safeguards कहा जाता है. इससे यह पक्का किया जा सकता है कि मॉडल ज़िम्मेदारी के साथ काम करे. इनपुट और आउटपुट फ़िल्टर करने की तकनीक से, मॉडल में जा रहे या उससे बाहर आने वाले डेटा की जांच की जाती है.

सुरक्षा उपाय और पहले से मौजूद सुरक्षा उपाय

सुरक्षा के लिए पहले से बनाई गई ट्यूनिंग और अच्छी तरह से डिज़ाइन किए गए प्रॉम्प्ट टेंप्लेट की मदद से भी, आपका मॉडल ऐसा कॉन्टेंट जनरेट कर सकता है जिससे अनजाने में कोई नुकसान पहुंचे. इसे और बेहतर बनाने के लिए, कॉन्टेंट की कैटगरी तय करने वाले टूल से सुरक्षा की एक और लेयर जोड़ी जा सकती है. कॉन्टेंट की कैटगरी तय करने वाली टेक्नोलॉजी, इनपुट और आउटपुट, दोनों पर लागू की जा सकती हैं.

इनपुट क्लासिफ़ायर का इस्तेमाल आम तौर पर ऐसे कॉन्टेंट को फ़िल्टर करने के लिए किया जाता है जिसे आपके ऐप्लिकेशन में इस्तेमाल करने के लिए नहीं बनाया गया है. इसकी वजह से आपके मॉडल की सुरक्षा नीतियों का उल्लंघन हो सकता है. इनपुट फ़िल्टर अक्सर ऐसी खतरनाक हमलों को टारगेट करते हैं जो कॉन्टेंट की नीतियों को गच्चा देने की कोशिश करते हैं. आउटपुट कैटगरी तय करने वाली सुविधा, मॉडल आउटपुट को और फ़िल्टर कर सकती है. इससे अनचाहे जनरेशन का पता चलता है, जो आपकी सुरक्षा नीतियों का उल्लंघन कर सकती है. हमारा सुझाव है कि आप कैटगरी तय करने वाले ऐसे एल्गोरिदम इस्तेमाल करें जो कॉन्टेंट की सभी नीतियों को कवर करते हों.

Google ने कॉन्टेंट की सुरक्षा के लिए ऐसे सुविधाएं तैयार की हैं जो पहले से मौजूद रहती हैं. इनका इस्तेमाल इनपुट और आउटपुट को फ़िल्टर करने के लिए किया जा सकता है:

  • Perspective API, एक मुफ़्त एपीआई है. यह मशीन लर्निंग मॉडल का इस्तेमाल करके, बातचीत पर की गई किसी टिप्पणी के असर को स्कोर करता है. इससे पता चलता है कि कोई टिप्पणी बुरे बर्ताव वाली, धमकी देने वाली, अपमानजनक या विषय से अलग पोस्ट है या नहीं वगैरह.
  • टेक्स्ट मॉडरेट करने की सेवा, इस्तेमाल की सीमा से कम पर इस्तेमाल करने के लिए उपलब्ध Google Cloud API है. सुरक्षा एट्रिब्यूट की सूची के आधार पर दस्तावेज़ का विश्लेषण करने के लिए, मशीन लर्निंग का इस्तेमाल किया जाता है. इनमें, नुकसान पहुंचा सकने वाली कई कैटगरी और ऐसे विषय शामिल होते हैं जिन्हें संवेदनशील माना जा सकता है.

इस बात का मूल्यांकन करना ज़रूरी है कि सामान्य वर्गीकर्ता, आपकी नीति के लक्ष्यों को कितनी अच्छी तरह पूरा कर रहे हैं. साथ ही, गड़बड़ी के मामलों का अच्छी तरह आकलन करना भी ज़रूरी है. इस बात पर ध्यान देना ज़रूरी है कि ज़्यादा फ़िल्टर करने से अनचाही नुकसान हो सकता है और ऐप्लिकेशन की उपयोगिता भी कम हो सकती है. इसका मतलब है कि उन मामलों की समीक्षा करना भी ज़रूरी है जिनमें ओवर-फ़िल्टरिंग की जा सकती है. आकलन करने के इन तरीकों के बारे में ज़्यादा जानकारी के लिए, सुरक्षा के लिए मॉडल और सिस्टम का आकलन करना देखें.

सुरक्षा से जुड़ी कैटगरी तय करने वाली सुविधा को ज़रूरत के मुताबिक बनाएं

अगर आपकी नीति किसी ऑफ़-द-शेल्फ़ एपीआई में शामिल नहीं है या आपको अपना डेटा क्लासिफ़ायर बनाना है, तो पैरामीटर की असरदार ट्यूनिंग तकनीक, जैसे कि प्रॉम्प्ट-ट्यूनिंग और LoRA एक असरदार फ़्रेमवर्क मुहैया कराती है. इन तरीकों में, पूरे मॉडल को बेहतर बनाने के बजाय, मॉडल के अहम पैरामीटर के छोटे सेट को ट्रेनिंग देने के लिए, सीमित डेटा का इस्तेमाल किया जा सकता है. इससे आपका मॉडल, नई सुविधाओं को सीखने में मदद कर सकता है. जैसे, ट्रेनिंग डेटा और कंप्यूट पावर की मदद से, नए तरीकों के हिसाब से डेटा को कैटगरी में बांटने का तरीका. इस तरीके से, आपको अपने उपयोगकर्ताओं और टास्क के लिए, मनमुताबिक सुरक्षा टूल तैयार करने में मदद मिलती है.

इसके काम करने का तरीका समझने के लिए, यह कोडलैब "एजाइल क्लासिफ़ायर" सेट अप करने के लिए ज़रूरी कोड दिखाता है. कोडलैब में डेटा डालने, एलएलएम के लिए उसे फ़ॉर्मैट करने, LoRA वज़न की ट्रेनिंग देने, और फिर आपके नतीजों का आकलन करने का तरीक़ा दिखाया जाता है. जेम्मा सिर्फ़ कुछ लाइनों के कोड की मदद से, इन बेहतरीन क्लासिफ़ायर को बनाना मुमकिन बनाती है. ज़्यादा जानकारी के लिए, हमारा रिसर्च पेपर "Towards Agile Text Classifiers for All" दिखता है कि आप इन तकनीकों का इस्तेमाल करके, सुरक्षा से जुड़े अलग-अलग तरह के टास्क कैसे कर सकते हैं. इससे आपको ट्रेनिंग के कुछ सौ उदाहरणों में ही आर्ट परफ़ॉर्मेंस को बेहतर बनाने में मदद मिलेगी.

इस ट्यूटोरियल में, नफ़रत फैलाने वाली भाषा का पता लगाने वाले सिस्टम को ट्रेनिंग दी जा सकती है. इसके लिए, ईएचओएस डेटासेट का इस्तेमाल किया जा सकता है. यह सार्वजनिक तौर पर उपलब्ध डेटासेट है, जिसमें नफ़रत फैलाने वाली भाषा का पता लगाने के लिए, YouTube और Reddit का इस्तेमाल किया गया डेटा है. अगर छोटे जेम्मा मॉडल पर ट्रेनिंग दी गई है, तो सिर्फ़ 200 उदाहरणों (डेटासेट के 1⁄4 से थोड़ा कम) पर, इसे 0.80 का F1 स्कोर और 0.78 का ROC-AUC स्कोर मिलता है. इस नतीजे की तुलना, इस लीडरबोर्ड लीडरबोर्ड में रिपोर्ट किए गए कला के नतीजों से की जाती है. लीडरबोर्ड में मौजूद दूसरे क्लासिफ़ायर की तरह, 800 उदाहरणों की ट्रेनिंग लेने पर, जेम्मा पर आधारित एजाइल क्लासिफ़ायर, 83.74 का F1 स्कोर और 88.17 का ROC-AUC स्कोर हासिल करता है. आप क्लासिफ़ायर का इस्तेमाल पूरी तरह से कर सकते हैं या इसे Gemma Agile Classifier ट्यूटोरियल की मदद से इस्तेमाल कर सकते हैं.

Gemma Agile क्लासिफ़ायर के बारे में ट्यूटोरियल

कोडलैब शुरू करें Google Colab शुरू करें

सुरक्षा के उपाय सेट अप करने के सबसे सही तरीके

सुरक्षा कैटगरी तय करने वाले टूल इस्तेमाल करने का सुझाव दिया जाता है. हालांकि, अगर कॉन्टेंट ब्लॉक हो जाता है, तो जनरेटिव मॉडल की वजह से उपयोगकर्ता के लिए कुछ भी जनरेट नहीं होगा. ऐप्लिकेशन इस तरह डिज़ाइन किए जाने की ज़रूरत है कि वे इस मामले को संभाल पाएं. ज़्यादातर लोकप्रिय चैटबॉट, पहले से तैयार जवाब देकर इसे मैनेज करते हैं ("माफ़ करें, मैं एक लैंग्वेज मॉडल हूं, मैं इस अनुरोध में आपकी मदद नहीं कर सकता").

मददगार और नुकसान पहुंचाने वाली चीज़ों के बीच सही संतुलन बनाएं: सुरक्षा की कैटगरी तय करने वाले टूल का इस्तेमाल करते समय, यह समझना ज़रूरी है कि इनसे गलतियां हो सकती हैं. इनमें, फ़ॉल्स पॉज़िटिव और फ़ॉल्स नेगेटिव (जब ऐसा नहीं होता है, तो आउटपुट असुरक्षित है) और फ़ॉल्स नेगेटिव, दोनों शामिल हैं. F1, Precision, Recall, और AUC-ROC जैसी मेट्रिक की मदद से, कैटगरी का आकलन करके, यह तय किया जा सकता है कि आपको फ़ॉल्स पॉज़िटिव बनाम फ़ॉल्स नेगेटिव गड़बड़ियों को कैसे ठीक करना है. डेटा की कैटगरी तय करने वाले सिस्टम की सीमा में बदलाव करने से, एक सही संतुलन बनाने में मदद मिलती है. इससे ज़रूरत से ज़्यादा फ़िल्टर किए जाने वाले आउटपुट से बचा जा सकता है. साथ ही, उपयोगकर्ताओं को सही सुरक्षा भी मिलती है.

अनजाने में होने वाले पक्षपात का पता लगाने के लिए, अपने कैटगरी तय करने वाले सिस्टम की जांच करें: किसी भी दूसरे एमएल मॉडल की तरह, सुरक्षा से जुड़े डेटा को कैटगरी में बांटने वाले टूल, अनजाने में होने वाले पक्षपात पैदा कर सकते हैं, जैसे कि सामाजिक-सांस्कृतिक स्टीरियोटाइप. संभावित रूप से हानिकारक व्यवहारों के लिए, ऐप्लिकेशन का सही तरीके से आकलन करना ज़रूरी है. खास तौर पर, कॉन्टेंट की सुरक्षा से जुड़ी कैटगरी तय करने वाली कंपनियां, पहचान से जुड़े ऐसे कॉन्टेंट को ज़्यादा ट्रिगर कर सकती हैं जो अक्सर इंटरनेट पर बुरे बर्ताव वाली भाषा को टारगेट करता हो. उदाहरण के लिए, जब Perspective API को पहली बार लॉन्च किया गया था, तब इस मॉडल ने किसी आइडेंटिटी ग्रुप (ब्लॉग) के बारे में बताने वाली टिप्पणियों में बुरे बर्ताव के लिए ज़्यादा स्कोर दिखाए. इसकी वजह यह हो सकती है कि कई बार किसी ग्रुप को टारगेट करने वाली टिप्पणी में, पहचान से जुड़े शब्दों का इस्तेमाल किया गया हो. जैसे, "ब्लैक", "मुस्लिम", "नारीवादी", "महिला", "गे" वगैरह. जब कैटगरी तय करने वाले टूल को ट्रेनिंग देने के लिए इस्तेमाल किए जाने वाले डेटासेट में, कुछ शब्दों वाली टिप्पणियों के बीच बहुत ज़्यादा असंतुलन होता है, तो कैटगरी तय करने वाले टूल ज़रूरत से ज़्यादा सामान्य बना देते हैं और उन शब्दों वाली सभी टिप्पणियों को असुरक्षित मानते हैं. जानें कि Jigsaw की टीम ने अनजाने में किए गए इस पूर्वाग्रह को कैसे कम किया है.

डेवलपर रिसॉर्स