अपने मॉडल की सुरक्षा करें

जनरेटिव आर्टिफ़िशियल इंटेलिजेंस (जेन एआई) वाले प्रॉडक्ट नए हैं और उनका व्यवहार पुराने सॉफ़्टवेयर की तुलना में बहुत अलग हो सकता है. आपके प्रॉडक्ट को जेन एआई की सुविधाओं के गलत इस्तेमाल से बचाने वाली सुरक्षा व्यवस्था को भी इसी तरह बदलना होगा. इस गाइड में बताया गया है कि कॉन्टेंट की नीति का पालन किस तरह किया जा सकता है ताकि जनरेटिव एआई की मदद से काम करने वाले प्रॉडक्ट को सुरक्षित रखा जा सके.

प्रॉडक्ट या सेवा के विज्ञापन दिखाने से जुड़ी नीति का पालन करना

सुरक्षा के लिए ट्यूनिंग और अच्छी तरह से डिज़ाइन किए गए प्रॉम्प्ट टेंप्लेट के बावजूद, आपके जनरेटिव एआई प्रॉडक्ट से ऐसा कॉन्टेंट जनरेट हो सकता है जिससे अनजाने में नुकसान पहुंच सकता है. जनरेटिव एआई वाले प्रॉडक्ट, ज़िम्मेदार मॉडल के व्यवहार को पक्का करने के लिए, अक्सर इनपुट और आउटपुट फ़िल्टर करने पर निर्भर करते हैं. ये तकनीक, मॉडल से मिले डेटा की जांच करती है. साथ ही, इस बात की भी जांच करती है कि मॉडल नीतियों को अक्सर लागू करने के लिए, कॉन्टेंट की कैटगरी तय करने वाला मॉडल बनाने के लिए, सुरक्षा की ट्रेनिंग.

इनपुट क्लासिफ़ायर का इस्तेमाल, ऐसे कॉन्टेंट को फ़िल्टर करने के लिए किया जाता है जो सीधे तौर पर या किसी और तरीके से, आपके मॉडल को ऐसा कॉन्टेंट जनरेट करने के लिए उकसाता है जो आपकी कॉन्टेंट नीतियों का उल्लंघन करता है. इनपुट फ़िल्टर अक्सर उन हमलों को टारगेट करते हैं जो आपकी कॉन्टेंट नीतियों को गच्चा देने की कोशिश करते हैं.

आउटपुट क्लासिफ़ायर, मॉडल आउटपुट को फ़िल्टर करता है. इसकी मदद से, जनरेट किए गए ऐसे कॉन्टेंट की पहचान की जाती है जो आपकी सुरक्षा नीतियों को ध्यान में रखकर बनाया गया है. कॉन्टेंट अस्वीकार करने के व्यवहारों को ध्यान से मॉनिटर करने से, प्रॉम्प्ट की नई कैटगरी दिख सकती हैं. इनका इस्तेमाल, इनपुट फ़िल्टर को बेहतर बनाने या बढ़ाने के लिए किया जा सकता है.

हमारा सुझाव है कि आपके पास ऐसे क्लासिफ़ायर हों जो कॉन्टेंट से जुड़ी सभी नीतियों को कवर करते हों. पहले से तैयार किए गए क्लासिफ़ायर का इस्तेमाल करके, ऐसा किया जा सकता है. इसके अलावा, आपको अपनी खास नीतियों के मुताबिक काम करने वाले कस्टम क्लासिफ़ायर बनाने पड़ सकते हैं.

बैलेंस भी ज़रूरी है. ज़्यादा फ़िल्टर करने से, अनजाने में नुकसान हो सकता है या ऐप्लिकेशन की उपयोगिता कम हो सकती है. इसलिए, उन मामलों की समीक्षा करना न भूलें जिनमें ज़्यादा फ़िल्टरिंग हो रही हो. ज़्यादा जानकारी के लिए, सुरक्षा का आकलन करने से जुड़ी गाइड देखें.

पहले से तैयार कॉन्टेंट से जुड़ी नीति की कैटगरी तय करने वाले ऐप्लिकेशन

कॉन्टेंट को कैटगरी में बांटने वाले पहले से तैयार टूल, मॉडल की सुरक्षा से जुड़ी ट्रेनिंग में एक और लेयर जोड़ते हैं. इससे, नीति के उल्लंघन की संभावना कम हो जाती है. आम तौर पर, ये दो तरह के होते हैं:

  1. खुद से होस्ट की जाने वाली कैटगरी तय करने वाले टूल, जैसे कि ShieldGemma, इन्हें कई अलग-अलग आर्किटेक्चर पर डाउनलोड और होस्ट किया जा सकता है. इनमें क्लाउड भी शामिल हैं प्लैटफ़ॉर्म, जैसे कि Google Cloud, निजी मालिकाना हक वाला हार्डवेयर, और कुछ कैटगरी तय करने वाले टूल मोबाइल ऐप्लिकेशन के लिए उपयोगकर्ता के डिवाइस पर भी चलाया जा सकता है.
  2. एपीआई पर आधारित क्लासिफ़ायर, ज़्यादा वॉल्यूम वाली, कई तरह की नीतियों के तहत, इंतज़ार के समय का अंतर कम कर दिया जाता है. Google, ऐसी तीन सेवाएं उपलब्ध कराता है जो आपके काम की हो सकती हैं:
    • एआई की सुरक्षा की जांच करने वाला टूल, मॉडल के आकलन और निगरानी में मदद करने वाले डैशबोर्ड और नियमों का पालन करने से जुड़े आकलन उपलब्ध कराता है. एआई सेफ़्टी यह टूल ओपन बीटा वर्शन में है. इसके लिए, साइन अप करें, और डेमो देखें.
    • टेक्स्ट मॉडरेशन सेवा, Google Cloud का एक एपीआई है. यह सुरक्षा से जुड़े उल्लंघनों का पता लगाने के लिए टेक्स्ट का विश्लेषण करता है. इसमें नुकसान पहुंचाने वाली कैटगरी और संवेदनशील विषयों का विश्लेषण भी शामिल है. हालांकि, यह विश्लेषण इस्तेमाल की दरों के हिसाब से किया जाता है.
    • Perspective API एक ऐसा एपीआई है जिसे बिना किसी शुल्क के इस्तेमाल किया जा सकता है. यह एपीआई, बातचीत के दौरान की गई किसी खराब टिप्पणी की वजह से पड़ने वाले बुरे असर का अनुमान लगाने और स्कोर देने के लिए, मशीन लर्निंग मॉडल इस्तेमाल करता है. यह स्कोर देता है, ताकि यह पता लगाया जा सके कि कोई टिप्पणी बुरे बर्ताव वाली, धमकी देने वाली, अपमानजनक या विषय से अलग है या नहीं.

इस बात का मूल्यांकन करना ज़रूरी है कि पहले से तैयार क्लासिफ़ायर आपकी नीति का कितना पालन करते हैं ध्यान दें और असफलता के मामलों का अच्छी तरह से आकलन करें.

कॉन्टेंट की नीति के लिए कस्टम क्लासिफ़ायर

कॉन्टेंट की नीति के हिसाब से, पहले से तैयार किए गए क्लासिफ़ायर का इस्तेमाल करना एक बेहतरीन शुरुआत है. हालांकि, इनमें कुछ सीमाएं हैं. जैसे:

  • नीति की एक तय कैटगरी, जो हो सकता है कि आपका पूरा कॉन्टेंट मैप न करे या उसमें शामिल न हो की नीतियों के बारे में ज़्यादा जानें.
  • हार्डवेयर और कनेक्टिविटी से जुड़ी ऐसी ज़रूरी शर्तें जो उस एनवायरमेंट के लिए सही नहीं हो सकतीं जहां आपका जनरेटिव एआई (जीएआई) से चलने वाला ऐप्लिकेशन डिप्लॉय किया जाएगा.
  • कीमत और इस्तेमाल से जुड़ी अन्य पाबंदियां.

कस्टम कॉन्टेंट की नीति की कैटगरी तय करने वाली सुविधाएं, इन सीमाओं को हल करने का एक तरीका हो सकती हैं. और एजाइल क्लासिफ़ायर तरीका के लिए एक कुशल और सुविधाजनक फ़्रेमवर्क बना सकते हैं. यह तरीका, सुरक्षा के मकसद से मॉडल को ट्यून करता है. इसलिए, मॉडल ट्यून करने के बुनियादी तरीकों के बारे में ज़रूर जानें.

SynthID टेक्स्ट वॉटरमार्क की मदद से, एआई से बनाए गए कॉन्टेंट की पहचान करना

जेन एआई पहले बड़े पैमाने पर अलग-अलग तरह का कॉन्टेंट बना सकता है कल्पना भी नहीं की जा सकती. हालांकि, इस तरह के ज़्यादातर इस्तेमाल कानूनी मकसद के लिए किए जाते हैं, लेकिन YouTube पर को चिंता थी कि इससे गलत जानकारी और गलत जानकारी से जुड़ी समस्याएं पैदा हो सकती हैं. वॉटरमार्क लगाने की तकनीक इन संभावित असर को कम करने की एक तकनीक है. वॉटरमार्क जिन लोगों को कोई व्यक्ति नहीं देख सकता उन्हें एआई से बनाए गए कॉन्टेंट पर लागू किया जा सकता है. पहचान करने वाले मॉडल, आर्बिट्रेरी कॉन्टेंट को स्कोर कर सकते हैं. इससे यह पता चलता है कि वॉटरमार्क किया गया है.

SynthID, Google DeepMind की एक टेक्नोलॉजी है. यह एआई से जनरेट किए गए कॉन्टेंट में डिजिटल वॉटरमार्क जोड़कर, उसे वॉटरमार्क करती है और उसकी पहचान करती है. यह वॉटरमार्क, एआई से जनरेट की गई इमेज, ऑडियो, टेक्स्ट या वीडियो में सीधे तौर पर जोड़े जाते हैं. SynthID टेक्स्ट, Hugging Face Transformers में प्रोडक्शन के लिए उपलब्ध है. अपने ऐप्लिकेशन में SynthID का इस्तेमाल करने के तरीके के बारे में ज़्यादा जानने के लिए, रिसर्च पेपर और दस्तावेज़ देखें.

Google Cloud, SynthID वॉटरमार्क लगाने की सुविधाएं देता है अन्य तरीके, जैसे कि इमेज से जनरेट की गई तस्वीरें, शेयर कर सकते हैं.

सुरक्षा से जुड़ी सुविधाएं सेट अप करने के सबसे सही तरीके

सुरक्षा के उपायों के तौर पर, सुरक्षा से जुड़े डेटा की कैटगरी तय करने वाली चीज़ों का इस्तेमाल करने का सुझाव दिया जाता है. हालांकि, अगर कॉन्टेंट ब्लॉक हो जाता है, तो गार्डरेल की वजह से जनरेटिव मॉडल, उपयोगकर्ता के लिए कुछ भी जनरेट नहीं कर पाता. ऐप्लिकेशन को इस तरह डिज़ाइन किया जाना चाहिए कि केस. ज़्यादातर लोकप्रिय चैटबॉट, पहले से तैयार जवाबों की मदद से इस समस्या को हल करते हैं ("माफ़ करें, मैं एक भाषा मॉडल हूं. इस अनुरोध में आपकी मदद नहीं कर सकती").

मददगार और नुकसान पहुंचाने वाले कॉन्टेंट के बीच सही संतुलन बनाएं: इस्तेमाल करते समय सुरक्षा कैटगरी तय करते हैं, तो यह समझना ज़रूरी है कि उनसे गलतियां हो सकती हैं, इसमें दोनों फ़ॉल्स पॉज़िटिव शामिल हैं (उदाहरण के लिए, किसी आउटपुट पर दावा करना असुरक्षित है, जबकि ऐसा है नहीं) और फ़ॉल्स नेगेटिव (किसी आउटपुट को असुरक्षित के तौर पर लेबल न करना). F1, सटीकता, रीकॉल, और AUC-आरओसी जैसी मेट्रिक की मदद से क्लासिफ़ायर का आकलन करके, यह तय किया जा सकता है कि आपको गलत सकारात्मक बनाम गलत नेगेटिव गड़बड़ियों को कैसे बदलना है. क्लासिफ़ायर के थ्रेशोल्ड को बदलकर, एक ऐसा आदर्श संतुलन पाया जा सकता है जो आउटपुट को ज़्यादा फ़िल्टर करने से बचाता है. साथ ही, ज़रूरी सुरक्षा भी देता है.

अनजाने में होने वाले भेदभाव के बारे में जानने के लिए, डेटा की कैटगरी तय करने वाले एल्गोरिदम की जांच करें: सुरक्षा से जुड़े डेटा की कैटगरी तय करने वाले एल्गोरिदम, जैसे कि कोई भी अन्य एमएल मॉडल की मदद से, अनजाने में होने वाले पक्षपात (जैसे, सामाजिक-सांस्कृतिक) को बढ़ावा दिया जा सकता है घिसी-पिटी सोच को बढ़ावा दिया जा रहा है. संभावित रूप से, ऐप्लिकेशन का सही तरीके से आकलन करना ज़रूरी है में समस्या होती है. खास तौर पर, कॉन्टेंट की सुरक्षा के लिए डेटा की कैटगरी तय करने वाले एल्गोरिदम पहचान से जुड़े कॉन्टेंट की वजह से ज़्यादा ट्रिगर होने पर, ऑनलाइन अपमानजनक भाषा का लक्ष्य. उदाहरण के लिए, जब Perspective API पहली बार लॉन्च किया गया, लेकिन मॉडल ने टिप्पणियों में बुरे बर्ताव का ज़्यादा स्कोर दिया कुछ आइडेंटिटी ग्रुप का रेफ़रंस देना (ब्लॉग). यह ओवर-ट्रिगर ऐसा इसलिए हो सकता है, क्योंकि जिन टिप्पणियों में किसी व्यक्ति की पहचान की पुष्टि करने वाले शब्दों का इस्तेमाल किया जाता है बार-बार टारगेट किए जाने वाले ग्रुप, जैसे कि "ब्लैक", "मुस्लिम", "नारीवादी", "महिला", "गे", वगैरह) अक्सर बुरे बर्ताव वाले होते हैं. जब डेटासेट के लिए इस्तेमाल किया जाता था ट्रेन की कैटगरी तय करने वाले टूल की मदद से, उन टिप्पणियों की तुलना में बहुत ज़्यादा अंतर होता है जिनमें शब्दों का इस्तेमाल करते हैं, तो कैटगरी तय करने वाले टूल सामान्य तौर पर असुरक्षित माना जा सकता है. Jigsaw की टीम के बारे में जानें कम किया है.

डेवलपर रिसॉर्स