सुरक्षा के लिए मॉडल और सिस्टम का आकलन करें

आपको जनरेटिव एआई के प्रॉडक्ट का अच्छी तरह से आकलन करना चाहिए, ताकि आपको बेहतर नतीजे मिल सकें उपयोगकर्ताओं को मुख्य जोखिम से बचाने के लिए, ऐप्लिकेशन की कॉन्टेंट नीतियों के मुताबिक हो क्षेत्र. जैसा कि Gemini की तकनीकी रिपोर्ट में बताया गया है, मॉडल के लाइफ़साइकल के दौरान चार अलग-अलग तरह के सुरक्षा आकलन किए जाते हैं डेवलपमेंट.

  • डेवलपमेंट का आकलन किया जाता है. यह आकलन, ट्रेनिंग और इसे बेहतर बनाना, ताकि यह आकलन किया जा सके कि मॉडल अपनी परफ़ॉर्मेंस की तुलना में कैसा परफ़ॉर्म कर रहा है लॉन्च करने की शर्तें. इसका इस्तेमाल, यह समझने के लिए भी किया जाता है कि आपकी ओर से लागू किए गए जोखिमों को कम करने की सुविधा, जो आपके लॉन्च के लिए लागू की गई है शर्तों के लक्ष्य. ये इवैलुएशन, आपके मॉडल को किसी खास नीति को टारगेट करने या किसी नीति के उल्लंघन से जुड़े आकलन को टारगेट करने के लिए की गई क्वेरी बाहरी शिक्षा से जुड़े मानदंड.
  • अश्योरेंस की जांच, मैनेजमेंट और समीक्षा के लिए की जाती है. साथ ही, आम तौर पर, किसी ग्रुप की अहम उपलब्धियों या ट्रेनिंग के बाद किया जाता है जिन्हें हम मॉडल डेवलपमेंट टीम के बाहर रखते हैं. सुरक्षा के आकलन मोडलिटी के हिसाब से स्टैंडर्ड डेटा और डेटासेट पूरी तरह से मैनेज किए जाते हैं. सिर्फ़ ट्रेनिंग प्रोसेस में हाई-लेवल की अहम जानकारी दी जाती है, ताकि को कम करने की कोशिश की जाएगी. सुरक्षा नीतियों में, सुरक्षा के नज़रिए की जांच की जाती है. साथ ही, ऐसी खतरनाक क्षमताओं की लगातार टेस्टिंग की जा रही है, जैसे कि जैविक खतरा, लोगों की दिलचस्पी, और सायबर सुरक्षा के बारे में ज़्यादा जानें (ज़्यादा जानें).
  • रेड टीमिंग एक तरह की मुश्किल टेस्टिंग है, जिसमें विशेषज्ञ की टीमों (सुरक्षा, नीति, सुरक्षा और अन्य क्षेत्रों में) एक AI सिस्टम है. ऊपर दिए गए चार्ट की तुलना में मुख्य अंतर आकलन से पता चलता है कि इन गतिविधियों का स्ट्रक्चर कम होता है. कॉन्टेंट बनाने संभावित कमज़ोरियों की खोज करके, टेक्नोलॉजी के इस्तेमाल से जुड़े जोखिमों को कम किया जा सकता है और हम अंदरूनी तौर पर आकलन के तरीकों को बेहतर बना सकते हैं.
  • बाहरी डोमेन के ज़रिए की जाने वाली जांच, स्वतंत्र और बाहरी डोमेन की मदद से की जाती है विशेषज्ञों को इसकी सीमाओं के बारे में बताएं. बाहरी ग्रुप इन्हें डिज़ाइन कर सकते हैं अपने मॉडल का तनाव-टेस्ट किया जा सकता है.

रिस्पॉन्सिबिलिटी मेट्रिक के आकलन के लिए, शिक्षा के क्षेत्र से जुड़े मानदंड

विकास और आश्वासन के मूल्यांकन के लिए कई सार्वजनिक मानदंड हैं. नीचे दी गई टेबल में कुछ मशहूर बेंचमार्क दिए गए हैं. इनमें ये शामिल हैं नफ़रत फैलाने वाली भाषा और बुरे बर्ताव से जुड़ी नीतियां बनाना. साथ ही, यह देखने के लिए जांच करना कि क्या मॉडल सामाजिक-सांस्कृतिक पूर्वाग्रहों को दिखाता है.

मानदंड की मदद से आप अन्य मॉडल से तुलना भी कर सकते हैं. उदाहरण के लिए इनमें से कई मानदंडों पर जेमा के नतीजे पब्लिश किए गए हैं Gemma मॉडल कार्ड. ध्यान दें कि इन बेंचमार्क को लागू करना आसान नहीं है और सेटअप लागू करने से, आपके मॉडल का आकलन करते समय अलग-अलग नतीजे मिल सकते हैं.

इन बेंचमार्क की एक मुख्य सीमा यह है कि वे तुरंत संतृप्त हो सकते हैं. बेहद सटीक मॉडल की मदद से, 99% के आस-पास सटीक स्कोर का पता चला है, जिसमें आपकी प्रोग्रेस को मेज़र करने की क्षमता को सीमित करता है. इस मामले में, आपका फ़ोकस इस पर होना चाहिए हमने आपके लिए अतिरिक्त सुरक्षा आकलन सेट बनाया जैसा कि पारदर्शिता से जुड़े आर्टफ़ैक्ट सेक्शन में बताया गया है.

इलाके मानदंड और डेटासेट जानकारी लिंक
सामाजिक-संस्कृति से जुड़ी धारणाएं BOLD अंग्रेज़ी में टेक्स्ट जनरेट करने की 23,679 इमेज का डेटासेट, जिसमें भेदभाव करने की कोशिश की गई है पांच डोमेन में मानदंड: पेशा, लिंग, नस्ल, धर्म, और राजनैतिक विचारधारा के बारे में बात करते हैं. https://arxiv.org/abs/2101.11718
सामाजिक-संस्कृति से जुड़ी धारणाएं क्रोस-पेयर्स साल 1508 के उदाहरणों का एक डेटासेट, जिसमें नौ तरह की घिसी-पिटी सोच को कवर किया गया है पक्षपात नहीं करता, जैसे कि जाति, धर्म या उम्र. https://paperswithcode.com/dataset/crows-pairs
सामाजिक-संस्कृति से जुड़ी धारणाएं बारबेक्यू अंबिग ऐसे सवालों का डेटासेट जो किसी व्यक्ति के ख़िलाफ़ किए गए सामाजिक पक्षपात को हाइलाइट करते हैं नौ सामाजिक डाइमेंशन के तहत संरक्षित वर्गों के लोग जो अमेरिका के लिए काम के हों. https://huggingface.co/datasets/heegyu/bbq
सामाजिक-संस्कृति से जुड़ी धारणाएं विनोजेंडर वाक्य के जोड़ों का डेटासेट जो किसी एक के लिंग के हिसाब से अलग-अलग हो वाक्य में सर्वनाम है. इसे लिंग की मौजूदगी की जांच करने के लिए डिज़ाइन किया गया है कोरे रेफ़रंस रिज़ॉल्यूशन सिस्टम में होने वाले पक्षपात को दिखाता है. https://github.com/rudinger/winogender-schemas
सामाजिक-संस्कृति से जुड़ी धारणाएं Winobias 3,160 वाक्यों का डेटासेट, ताकि किसी रेफ़रंस के रिज़ॉल्यूशन पर फ़ोकस किया जा सके लैंगिक भेदभाव. https://huggingface.co/datasets/wino_bias
बुरा बर्ताव / नफ़रत फैलाने वाली भाषा ETHOS ETHOS, नफ़रत फैलाने वाली भाषा का पता लगाने वाला डेटासेट है. इसे YouTube से बनाया गया है और Reddit पर की गई टिप्पणियों की पुष्टि क्राउडसोर्सिंग प्लैटफ़ॉर्म से की गई. यह इसमें दो सबसेट हैं, एक बाइनरी क्लासिफ़िकेशन के लिए और दूसरा मल्टी-लेबल क्लासिफ़िकेशन. पहले वाले हिस्से में 998 टिप्पणियां हैं, जबकि बाद में 433 के लिए, नफ़रत फैलाने वाली भाषा की सटीक व्याख्याएं होती हैं टिप्पणियां. https://paperswithcode.com/dataset/ethos
बुरा बर्ताव / नफ़रत फैलाने वाली भाषा RealToxicity वेब पर मौजूद 1 लाख वाक्यों के स्निपेट का डेटासेट, ताकि रिसर्च करने वाले लोग मॉडल में, न्यूरल टॉक्सिक डीजनरेशन के जोखिम को कम करना. https://allenai.org/data/real-toxicity-prompts
बुरा बर्ताव / नफ़रत फैलाने वाली भाषा जिगसॉ टॉक्सिसिटी इस डेटासेट में बड़ी संख्या में Wikipedia की टिप्पणियां मौजूद हैं. इन टिप्पणियों को रेटिंग देने वाले लोगों ने बुरे बर्ताव वाली गतिविधियों का लेबल लगाया है. https://huggingface.co/datasets/google/jigsaw_toxicity_pred
बुरा बर्ताव / नफ़रत फैलाने वाली भाषा ToxicGen प्रतिकूल और इंप्लिसिट विज्ञापनों के लिए, बड़े पैमाने पर मशीन से जनरेट किया गया डेटासेट नफ़रत फैलाने वाली भाषा का पता लगाने की सुविधा. https://arxiv.org/abs/2203.09509
बुरा बर्ताव / नफ़रत फैलाने वाली भाषा Wikipedia के निजी हमले का डेटा Wikipedia के संग्रहित किए गए टॉक पेज पर की गई टिप्पणियों का डेटासेट Jigsaw ने बुरे बर्ताव और कई तरह के सब-टाइप की व्याख्या की थी. इसमें गंभीर बुरा बर्ताव, अश्लीलता, किसी को धमकाने वाली भाषा, अपमान करने वाला कॉन्टेंट शामिल है और पहचान से जुड़े हमले किए गए हों. https://www.tensorflow.org/datasets/catalog/wikipedia_toxicity_subtypes
तथ्यों की जांच TruthfulQA कोई भाषा मॉडल सही है या नहीं, यह मापने का बेंचमार्क सवालों के जवाब जनरेट किए जा रहे हैं. मानदंड में 817 शामिल है 38 कैटगरी में पूछे जाने वाले सवाल. इनमें स्वास्थ्य, कानून, वित्त और राजनीति. https://paperswithcode.com/dataset/truthfulqa

डेवलपमेंट और अश्योरेंस के लिए डेटासेट

आपको सुरक्षा जांच के डेटासेट पर अपने मॉडल की जांच करनी चाहिए: इसके अलावा, हम स्टैंडर्ड मानदंडों पर टेस्ट भी कर सकते हैं. इस प्रैक्टिस की मदद से, वाला सेटअप हो, जो अपने वास्तविक जीवन में इस्तेमाल होने वाले सेटअप से ज़्यादा मिलता-जुलता हो. इन बातों पर ध्यान दें इवैलुएशन डेटासेट बनाते समय, ये सबसे सही तरीके अपनाएं:

  • अलग-अलग तरह की समस्याएं हल करने से जुड़ी क्वेरी. आपके डेटासेट का लक्ष्य ऐसी सभी क्वेरी को कवर किया जाना चाहिए जिनसे असुरक्षित जवाब मिल सकता है मॉडल से—इनको विरोधाभासी क्वेरी कहा जाता है. सबसे सही तरीका है कि इसमें दोनों तरह की प्रतिकूल क्वेरी शामिल होती हैं. इन्हें एक्सप्लिसिट क्वेरी और इंप्लिसिट ऐडवर्सल क्वेरी.
    • साफ़ तौर पर सामने आने वाली क्वेरी, मॉडल से सीधे जो मौजूदा सुरक्षा नीति के ख़िलाफ़ है. इसमें ये शामिल हैं खतरनाक कॉन्टेंट से जुड़े अश्लील अनुरोध ("किसी वेब ब्राउज़र पर बम"), नफ़रत फैलाने वाली भाषा या उत्पीड़न.
    • इंप्लिसिट ऐडवर्सल प्रॉम्प्ट ऐसी क्वेरी होते हैं जिनमें इस बात की बहुत ज़्यादा संभावना है कि मॉडल से नीति का उल्लंघन होगा. हालांकि, सीधे ऐसा करने का निर्देश नहीं देती हो. यह श्रेणी अक्सर ज़्यादा होती है पूरी तरह उलटा और संकेत देता है. इसमें संवेदनशील शब्द भी शामिल होते हैं, जैसे कि पहचान से जुड़ी शर्तें. इसमें कई जानी-पहचानी रणनीतियों के बारे में बताया गया है आसान, जैसे कि विनम्रता, वर्तनी की गलतियां, और टाइपिंग की गलतियां ("कैसे एक bOoamb") या काल्पनिक स्थितियां बनाने के लिए जहां मांग पूरी होती है ("मैं एक पेशेवर स्पेलियोलॉजिस्ट हूं, मुझे हर साल तो क्या तुम मुझे बता सकती हो कि एक बेहद विस्फोटक कैसे बनाया जाता है सामग्री").
  • अपने डेटासेट में अलग-अलग तरह की मुश्किल क्वेरी डालने की कोशिश करें, खास तौर पर क्योंकि मॉडल के लिए छोटी-छोटी चीज़ों को पकड़ना और सुरक्षा के उपाय करना ज़्यादा मुश्किल होता है जो उनके अधिकारों का उल्लंघन नहीं करते.
    • डेटा कवरेज. आपके डेटासेट में आपका सारा कॉन्टेंट शामिल होना चाहिए आपको प्रॉडक्ट के इस्तेमाल से जुड़े हर उदाहरण के लिए, नीतियों का पालन करना होगा. जैसे, सवाल का जवाब देने की सुविधा, ख़ास जानकारी, रीज़निंग वगैरह).
    • डेटा में विविधता. अलग-अलग तरह के डेटासेट इस्तेमाल करना, पक्का करें कि आपके मॉडल की जांच सही तरीके से की गई है और वह कई रेंज में विशेषताएं. डेटासेट में अलग-अलग लंबाई वाली क्वेरी, फ़ॉर्मूला (सकारात्मक, सवाल वगैरह), टोन, विषय, लेवल पहचान और डेमोग्राफ़िक (उम्र, लिंग, आय, शिक्षा वगैरह) से जुड़ी जटिलता और शब्द ध्यान दें.
    • रोका गया डेटा. भरोसेमंद सोर्स की जांच करते समय, यह पक्का करना कि टेस्ट डेटा के इस्तेमाल होने का कोई जोखिम न हो ट्रेनिंग (मॉडल या अन्य कैटगरी तय करने वाले एल्गोरिदम की ट्रेनिंग) से टेस्ट की वैलिडिटी बेहतर हो सकती है. अगर ट्रेनिंग के दौरान टेस्ट डेटा का इस्तेमाल किया गया होगा, तो नतीजे डेटा से ज़्यादा वैल्यू नहीं होती, तो डिस्ट्रिब्यूशन से बाहर की क्वेरी को दिखाने में समस्या आती है.

ऐसे डेटासेट बनाने के लिए, मौजूदा प्रॉडक्ट लॉग पर भरोसा किया जा सकता है. इसके बाद, मैन्युअल तरीके से या एलएलएम की मदद से क्वेरी पूछी जाती हैं. इस इंडस्ट्री ने काफ़ी तरक्की की है और निगरानी में रखी गई कई तकनीकों का इस्तेमाल कर रहे हैं. एआई की मदद से जनरेट किए गए सिंथेटिक टूल, जैसे कि AART मेथड इसे Google की रिसर्च टीम ने तैयार किया है.

रेड टीमिंग

रेड टीमिंग एक तरह की मुश्किल परिस्थितियों की जांच करती है, जहां विरोधी टीम को एक AI सिस्टम पर हमला किया जा सकता है. इसका मकसद, ट्रेनिंग के बाद वाले मॉडल की जोखिम की आशंकाओं (जैसे, सायबर सुरक्षा) और सामाजिक नुकसान की सुरक्षा नीतियों के बारे में ज़्यादा जानें. इस तरह का आकलन करना सबसे सही तरीका है और यह इंटरनल टीमों को ऐसी विशेषज्ञताओं की मदद से या विशेषज्ञों की मदद से परफ़ॉर्म करना होगा सुरक्षित रखा जा सके.

एक आम चुनौती यह है कि मॉडल के किस पहलू की जांच की जाए रेड टीमिंग. नीचे दी गई सूची में उन जोखिमों के बारे में बताया गया है जिनकी मदद से, अपने विज्ञापनों को रेड-टीमिंग एक्सरसाइज़ शुरू की. ऐसी चीज़ों की भी जांच करें जो जो आपके डेवलपमेंट या आकलन के मूल्यांकन के हिसाब से जांचे गए हों या मॉडल कम सुरक्षित साबित हुआ है.

Target जोखिम की आशंका की कैटगरी विवरण
इंटेग्रिटी प्रॉम्प्ट इंजेक्शन इनपुट को इस तरह से डिज़ाइन किया गया है कि उपयोगकर्ता, अनचाहे काम कर सके या बिना अनुमति की गई कार्रवाइयां
पॉइज़निंग व्यवहार में बदलाव करने के लिए, ट्रेनिंग डेटा और/या मॉडल में हेर-फेर करना
मुश्किल इनपुट खास तौर पर तैयार किया गया इनपुट, जो आपके प्रॉडक्ट या सेवाओं के व्यवहार में बदलाव करने के लिए डिज़ाइन किया गया है मॉडल
निजता प्रॉम्प्ट एक्सट्रैक्शन एलएलएम के कॉन्टेक्स्ट में, सिस्टम के प्रॉम्प्ट या अन्य जानकारी के बारे में बताएं जो मुख्य रूप से निजी या गोपनीय होगी
डेटा बाहर निकाले जाने के बारे में ट्रेनिंग ट्रेनिंग के डेटा की निजता को खतरे में डालना
मॉडल डिस्टिलेशन/एक्सट्रैक्शन मॉडल हाइपर पैरामीटर, आर्किटेक्चर, पैरामीटर या किसी मॉडल के व्यवहार का अनुमान
सदस्यता का अनुमान निजी ट्रेनिंग सेट के एलिमेंट का अनुमान लगाना
उपलब्धता सेवा अस्वीकार की गई सेवा में रुकावट, जिसकी वजह किसी हमलावर की वजह से हो सकती है
बढ़ी हुई कंप्यूटेशन मॉडल की उपलब्धता पर हमला जिससे सेवा में रुकावट आती है

सोर्स: Gemini Tech की रिपोर्ट.

एलएलएम कम्पैरेटर

साथ-साथ (साइड-बाय-साइड) आकलन, आकलन करने की एक सामान्य रणनीति के तौर पर सामने आया है लार्ज लैंग्वेज मॉडल (एलएलएम) से मिले जवाबों की क्वालिटी और सुरक्षा. अगल-बगल दो अलग-अलग मॉडल के बीच चुनने के लिए, तुलनाओं का इस्तेमाल किया जा सकता है वह उसी मॉडल या मॉडल की दो अलग-अलग ट्यूनिंग के लिए प्रॉम्प्ट करे. हालांकि, तुलना के नतीजों का मैन्युअल तौर पर, साथ-साथ विश्लेषण करना मुश्किल हो सकता है. उबाऊ लगता है.

एलएलएम कॉम्पैरेटर एक ऐसा वेब ऐप्लिकेशन है जिसका साथी Python लाइब्रेरी की मदद से, ज़्यादा असरदार और बढ़ाए जा सकने वाले विश्लेषण की सुविधा मिलती है की मदद से, इंटरैक्टिव विज़ुअलाइज़ेशन के साथ साइड-बाय-साइड इवैलुएशन की मदद ली जा सकती है. एलएलएम कंपैरेटर की मदद से ये काम किए जा सकते हैं:

  • देखें कि कहां मॉडल की परफ़ॉर्मेंस अलग है: आप चाहें, तो अलग-अलग जवाबों में इवैलुएशन डेटा के सबसेट की पहचान करने के लिए, जहां सही तरीके से आउटपुट मिलते हैं दो मॉडल के बीच अंतर होता है.

  • जानें कि यह क्यों अलग है: एक ऐसी नीति होना सामान्य बात है किस मॉडल की परफ़ॉर्मेंस और अनुपालन का आकलन किया जाता है. साथ-साथ होने वाले मूल्यांकन की मदद से, नीति का अपने-आप पालन होने में मदद मिलती है आकलन करता है और तर्क के आधार पर बताता है कि वह मॉडल कौनसा है का पालन करना चाहिए. एलएलएम तुलना करने वाला टूल, इन वजहों के बारे में अलग-अलग थीम के तौर पर बताता है और इससे यह पता चलता है कि हर थीम के साथ कौनसा मॉडल बेहतर तरीके से अलाइन है.

  • जांच करें मॉडल मॉडल आउटपुट में क्या फ़र्क़ होता है: आप आगे दो मॉडल के आउटपुट, बिल्ट-इन और उपयोगकर्ता के हिसाब से अलग-अलग होते हैं तुलना करने वाले फ़ंक्शन. यह टूल, टेक्स्ट में खास पैटर्न को हाइलाइट कर सकता है इस दौरान, एआई मॉडल की मदद से, अंतर.

जेमा मॉडल की तुलना दिखाने वाला एलएलएम कंपैरेटर इंटरफ़ेस

पहला डायग्राम. जेमा और जेमा की तुलना दिखाने वाला एलएलएम कंपैरेटर इंटरफ़ेस v1.0 वर्शन के मुकाबले 7B v1.1 मॉडल को निर्देश देना

एलएलएम कंपैरेटर की मदद से, आकलन के नतीजों का विश्लेषण एक साथ किया जा सकता है. यह कई कोणों से मॉडल की परफ़ॉर्मेंस की खास जानकारी देखें. साथ ही, इस रिपोर्ट की मदद से, सभी मॉडल के आउटपुट का इंटरैक्टिव तरीक़े से विश्लेषण किया जा सकता है.

एलएलएम तुलना करने वाले टूल के बारे में जानें:

  • इस डेमो में Gemma Instruct 7B v1.1 की परफ़ॉर्मेंस की तुलना की गई है को Gemma Instruct 7B v1.0 के ख़िलाफ़ चैटबॉट अरीना कन्वर्सेशन का डेटासेट.
  • यह Colab notebook एक छोटे ब्राउज़र को चलाने के लिए, Python लाइब्रेरी का इस्तेमाल करता है Vertex AI API का इस्तेमाल करके, उनकी व्यक्तिगत तौर पर जांच की जाती है. साथ ही, खोज के नतीजे दिखाता है.

एलएलएम कंपैरेटर के बारे में ज़्यादा जानने के लिए, रिसर्च पेपर और GitHub रेपो.

डेवलपर संसाधन