इनपुट और आउटपुट के लिए सुरक्षा के उपाय तैयार करें

जनरेटिव एआई ऐप्लिकेशन को अक्सर इनपुट और आउटपुट डेटा को फ़िल्टर करने की ज़रूरत पड़ती है. कभी-कभी इन्हें सुरक्षा उपाय भी कहा जाता है, ताकि ज़िम्मेदार मॉडल पक्का करने में मदद मिल सके व्यवहार. इनपुट और आउटपुट फ़िल्टर करने की तकनीक, किस तरह के डेटा का इस्तेमाल करती है उसकी जांच करती हैं या इसलिए, हम उन नीतियों का पालन करते हैं अपने ऐप्लिकेशन के लिए परिभाषा तय करें. इनपुट क्लासिफ़ायर आम तौर पर फ़िल्टर करने के लिए इस्तेमाल किए जाते हैं ऐसा कॉन्टेंट जिसका इस्तेमाल आपके ऐप्लिकेशन में नहीं किया जाना चाहिए. इसके अलावा, अपने मॉडल को आपकी सुरक्षा नीतियों का उल्लंघन करने के लिए प्रेरित करना. इनपुट फ़िल्टर अक्सर लोगों को टारगेट करते हैं आपके कॉन्टेंट की नीतियों को गच्चा देने की कोशिश करने वाले हमले. आउटपुट डेटा की कैटगरी तय करने वाले टूल, सुरक्षा ट्रेनिंग के साथ काम करते हैं और आगे के फ़िल्टर का इस्तेमाल करते हैं मॉडल आउटपुट का इस्तेमाल करके, जनरेट किए गए ऐसे आउटपुट का इस्तेमाल करें जो आपकी सुरक्षा नीतियों का उल्लंघन कर सकता है. हमारा सुझाव है कि आप कॉन्टेंट की कैटगरी तय करने वाले ऐसे टूल का इस्तेमाल करें जो आपके कॉन्टेंट की सभी नीतियों को कवर करते हों.

पहले से तैयार सुरक्षा उपाय

सुरक्षा के लिए पहले से ट्यून किए गए और एक बेहतर डिज़ाइन किए गए प्रॉम्प्ट टेंप्लेट के साथ भी, यह हमारे लिए बेहतर है अब भी आपके मॉडल के लिए ऐसा कॉन्टेंट दिखाया जा सकता है जिससे अनचाहे नुकसान का खतरा हो. पहले से तैयार कॉन्टेंट की कैटगरी तय करने वाले एल्गोरिदम की मदद से, कॉन्टेंट को ज़्यादा सुरक्षित बनाया जा सकता है और बेहतर होगा.

ShieldGemma

ShieldGemma पहले से तैयार, निर्देशों के साथ, खुला होने वाला सेट है Gemma 2 पर बने, कॉन्टेंट की कैटगरी तय करने वाले मॉडल का वेट तय करता है. तय करते हैं कि उपयोगकर्ता से मिला कॉन्टेंट, मॉडल से जनरेट किया गया या मिला-जुला कॉन्टेंट, हमारी नीतियों का उल्लंघन करता है या नहीं कॉन्टेंट की सुरक्षा के बारे में नीति. ShieldGemma को चार तरह के नुकसानों (सेक्शुअल ऐक्ट) की पहचान करने की ट्रेनिंग दी गई है कॉन्टेंट, खतरनाक कॉन्टेंट, उत्पीड़न, और नफ़रत फैलाने वाली भाषा) शामिल है. साइज़-क्लास वाले वैरिएंट—2B, 9B, और 27B पैरामीटर—इनकी मदद से, बैलेंस की स्पीड, परफ़ॉर्मेंस, और सामान्य लेवल पर भी ध्यान दिया जा सकता है, ताकि डिप्लॉयमेंट. इस बारे में ज़्यादा जानने के लिए, मॉडल कार्ड में क्या अंतर है.

ShieldGemma की मदद से अपने मॉडल की सुरक्षा करें

Google Colab (Keras) शुरू करना Google Colab (ट्रांसफ़ॉर्मर) शुरू करना

नीचे दिए गए फ़्रेमवर्क में ShieldGemma मॉडल का इस्तेमाल किया जा सकता है.

एपीआई-आधारित

Google, कॉन्टेंट की सुरक्षा के लिए एपीआई पर आधारित कैटगरी तय करने वाली टेक्नोलॉजी उपलब्ध कराता है. इनका इस्तेमाल इन कामों के लिए किया जा सकता है फ़िल्टर सिस्टम इनपुट और आउटपुट:

  • Perspective API, मुफ़्त में उपलब्ध एक एपीआई है. यह मशीन का इस्तेमाल करता है लर्निंग मॉडल की मदद से, ऑडियंस की दिलचस्पी को मापने के लिए, बातचीत. इससे मिलने वाले स्कोर से यह पता चलता है कि टिप्पणी बुरे बर्ताव वाली, धमकी देने वाली, अपमानजनक या विषय से अलग हो.
  • टेक्स्ट मॉडरेशन सेवा एक Google Cloud API है, जो एक तय सीमा से कम इस्तेमाल करने के लिए, सीमा के अंदर हो और सुरक्षा की सूची के आधार पर किसी दस्तावेज़ का विश्लेषण करने के लिए, मशीन लर्निंग का इस्तेमाल किया जाता है एट्रिब्यूट, जिनमें नुकसान पहुंचा सकने वाली अलग-अलग कैटगरी और विषय शामिल हैं संवेदनशील माना जा सकता है.

इस बात का मूल्यांकन करना ज़रूरी है कि पहले से तैयार क्लासिफ़ायर आपकी नीति का कितना पालन करते हैं ध्यान दें और असफलता के मामलों का अच्छी तरह से आकलन करें. यह भी ज़रूरी है कि ध्यान दें कि ज़्यादा फ़िल्टर करने से अनचाहे नुकसान हो सकते हैं. साथ ही, ऐप्लिकेशन की उपयोगिता है, इसलिए यह ज़रूरी है कि आप ऐसे मामलों में जहां ज़्यादा फ़िल्टर का इस्तेमाल किया जा रहा है. ऐसे आकलन की ज़्यादा जानकारी पाने के लिए तरीकों के बारे में ज़्यादा जानने के लिए, सुरक्षा के लिए मॉडल और सिस्टम का आकलन करें देखें.

सुरक्षा के लिए, पसंद के मुताबिक कैटगरी तय करने वाले एल्गोरिदम बनाएं

ऐसे कई कारण हो सकते हैं, जिनकी वजह से पहले से तैयार सुरक्षा उपाय उनके लिए सही नहीं हो सकते हैं इस्तेमाल का उदाहरण, जैसे कि ऐसी नीति बनाना जो काम नहीं करती या आपको आपने जो डेटा देखा है उससे आपके सिस्टम पर असर पड़ रहा है. इसके तहत, सुरक्षा के उपायों को और बेहतर बनाएं. तय सीमा में ऐसी स्थिति में, एजाइल क्लासिफ़ायर आपकी ट्यूनिंग मॉडल, जैसे कस्टम सुरक्षा उपायों के लिए सुविधाजनक फ़्रेमवर्क जेमा, आपकी ज़रूरतों के हिसाब से. साथ ही, इनकी मदद से यह कंट्रोल किया जा सकता है कि उन्हें किस तरह डिप्लॉय किया जा सकता है.

Gemma Agile क्लासिफ़ायर के ट्यूटोरियल

कोडलैब शुरू करना Google Colab को शुरू करना

एजाइल क्लासिफ़ायर codelab और जेमा को बेहतर बनाने के लिए, LoRA का ट्यूटोरियल इस्तेमाल करें मॉडल, KerasNLP का इस्तेमाल करके कॉन्टेंट मॉडरेशन क्लासिफ़ायर के तौर पर काम करेगा लाइब्रेरी. ETHOS डेटासेट से सिर्फ़ 200 उदाहरणों का इस्तेमाल करके, यह क्लासिफ़ायर को 0.80 F1 स्कोर और ROC-AUC स्कोर मिलता है 0.78 प्रतिशत है, जो कला की आधुनिक स्थिति से तुलना करती है लीडरबोर्ड के नतीजे. जब 800 उदाहरणों के आधार पर ट्रेनिंग दी जाती है, लीडरबोर्ड में दी गई अन्य कैटगरी की तरह ही जेमा आधारित एजाइल क्लासिफ़ायर उपलब्ध है 83.74 का F1 स्कोर और 88.17 का ROC-AUC स्कोर हासिल करता है. आपके पास इस क्लासिफ़ायर को और बेहतर बनाने या अपने हिसाब से बनाने के लिए ट्यूटोरियल निर्देश कस्टम सुरक्षा कैटगरी तय करने की सुविधा.

सुरक्षा के उपाय सेट अप करने के सबसे सही तरीके

सुरक्षा के उपायों के तौर पर, सुरक्षा से जुड़े डेटा की कैटगरी तय करने वाली चीज़ों का इस्तेमाल करने का सुझाव दिया जाता है. हालांकि, लागू किए गए नियमों की वजह से जनरेटिव मॉडल, उपयोगकर्ता, अगर सामग्री ब्लॉक की गई है. ऐप्लिकेशन को इस तरह डिज़ाइन किया जाना चाहिए कि केस. ज़्यादातर लोकप्रिय चैटबॉट पहले से तैयार जवाब देकर ऐसा करते हैं. माफ़ करें, मैं एक लैंग्वेज मॉडल हूं. इसलिए, मैं इस अनुरोध के लिए आपकी कोई मदद नहीं कर सकता").

मददगार और नुकसान पहुंचाने वाले कॉन्टेंट के बीच सही संतुलन बनाएं: इस्तेमाल करते समय सुरक्षा कैटगरी तय करते हैं, तो यह समझना ज़रूरी है कि उनसे गलतियां हो सकती हैं, इसमें दोनों फ़ॉल्स पॉज़िटिव शामिल हैं (उदाहरण के लिए, किसी आउटपुट पर दावा करना असुरक्षित है, जबकि ऐसा है नहीं) और फ़ॉल्स नेगेटिव (किसी आउटपुट को असुरक्षित के तौर पर लेबल न करना). इन्होंने बदलाव किया है F1, Precision, Recall, और AUC-ROC जैसी मेट्रिक की मदद से कैटगरी तय करने वालों का आकलन करते हैं, यह तय कर सकता है कि आपको फ़ॉल्स पॉज़िटिव और फ़ॉल्स को कैसे बदलना है नेगेटिव गड़बड़ियां शामिल हैं. क्लासिफ़ायर के थ्रेशोल्ड को बदलकर, यह ऐसा सटीक बैलेंस होता है जो सटीक नतीजे देते हुए भी ओवर-फ़िल्टरिंग आउटपुट से बचाता है उचित सुरक्षा.

अनजाने में होने वाले भेदभाव के बारे में जानने के लिए, डेटा की कैटगरी तय करने वाले एल्गोरिदम की जांच करें: सुरक्षा से जुड़े डेटा की कैटगरी तय करने वाले एल्गोरिदम, जैसे कि कोई भी अन्य एमएल मॉडल की मदद से, अनजाने में होने वाले पक्षपात (जैसे, सामाजिक-सांस्कृतिक) को बढ़ावा दिया जा सकता है घिसी-पिटी सोच को बढ़ावा दिया जा रहा है. संभावित रूप से, ऐप्लिकेशन का सही तरीके से आकलन करना ज़रूरी है में समस्या होती है. खास तौर पर, कॉन्टेंट की सुरक्षा के लिए डेटा की कैटगरी तय करने वाले एल्गोरिदम पहचान से जुड़े कॉन्टेंट की वजह से ज़्यादा ट्रिगर होने पर, ऑनलाइन अपमानजनक भाषा का लक्ष्य. उदाहरण के लिए, जब Perspective API पहली बार लॉन्च किया गया, लेकिन मॉडल ने टिप्पणियों में बुरे बर्ताव का ज़्यादा स्कोर दिया कुछ आइडेंटिटी ग्रुप का रेफ़रंस देना (ब्लॉग). यह ओवर-ट्रिगर ऐसा इसलिए हो सकता है, क्योंकि जिन टिप्पणियों में किसी व्यक्ति की पहचान की पुष्टि करने वाले शब्दों का इस्तेमाल किया जाता है बार-बार टारगेट किए जाने वाले ग्रुप, जैसे कि "ब्लैक", "मुस्लिम", "नारीवादी", "महिला", "गे", वगैरह) अक्सर बुरे बर्ताव वाले होते हैं. जब डेटासेट के लिए इस्तेमाल किया जाता था ट्रेन की कैटगरी तय करने वाले टूल की मदद से, उन टिप्पणियों की तुलना में बहुत ज़्यादा अंतर होता है जिनमें शब्दों का इस्तेमाल करते हैं, तो कैटगरी तय करने वाले टूल सामान्य तौर पर असुरक्षित माना जा सकता है. Jigsaw की टीम के बारे में जानें कम किया है.

डेवलपर रिसॉर्स