सुरक्षा की सेटिंग

इस गाइड में, Gemini API के लिए उपलब्ध सुरक्षा सेटिंग के बारे में जानकारी दी गई है. इन्हें ज़रूरत के हिसाब से बदला जा सकता है. प्रोटोटाइपिंग चरण के दौरान, चार डाइमेंशन पर सुरक्षा सेटिंग में बदलाव किए जा सकते हैं. इससे यह जांच की जा सकती है कि आपके ऐप्लिकेशन को ज़्यादा या कम सीमित कॉन्फ़िगरेशन की ज़रूरत है या नहीं. डिफ़ॉल्ट रूप से, सुरक्षा सेटिंग किसी भी डाइमेंशन में असुरक्षित होने की मध्यम या ज़्यादा संभावना वाले कॉन्टेंट (इसमें संकेत भी शामिल हैं) को ब्लॉक करती हैं. यह बेसलाइन सुरक्षा, इस्तेमाल किए जाने वाले ज़्यादातर मामलों में काम करती है. इसलिए, आपको सुरक्षा सेटिंग में सिर्फ़ तब बदलाव करना चाहिए, जब आपके ऐप्लिकेशन के लिए इसकी लगातार ज़रूरत हो.

सुरक्षा फ़िल्टर

Gemini API में सुरक्षा से जुड़े अडजस्ट किए जा सकने वाले फ़िल्टर और पहले से मौजूद सुरक्षा सुविधाएं उपलब्ध होती हैं. इनकी मदद से, बच्चों को नुकसान पहुंचाने वाले कॉन्टेंट का खतरा भी कम हो जाता है. जैसे, बच्चों की सुरक्षा को खतरे में डालने वाला कॉन्टेंट. इस तरह के नुकसान को हमेशा ब्लॉक किया जाता है और इनमें बदलाव नहीं किया जा सकता.

सुरक्षा के लिए, अडजस्ट किए जा सकने वाले फ़िल्टर में इन कैटगरी को शामिल किया गया है:

  • उत्पीड़न
  • नफ़रत फैलाने वाली भाषा
  • सेक्शुअल ऐक्ट दिखाने वाली इमेज
  • खतरनाक चीज़ों के विज्ञापन

इन सेटिंग की मदद से आप यानी डेवलपर यह तय कर सकते हैं कि आपके इस्तेमाल के उदाहरण के लिए क्या सही है. उदाहरण के लिए, अगर वीडियो गेम वाला डायलॉग बनाया जा रहा है, तो ऐसे ज़्यादा कॉन्टेंट को अनुमति दें जिसे गेम के माहौल के हिसाब से, खतरनाक माना जाता है. यहां इस्तेमाल के कुछ ऐसे अन्य मामलों के उदाहरण दिए गए हैं जिनमें इन सुरक्षा सेटिंग में कुछ बदलाव करने की ज़रूरत हो सकती है:

इस्तेमाल का उदाहरण कैटगरी
उत्पीड़न विरोधी ट्रेनिंग ऐप्लिकेशन नफ़रत फैलाने वाली भाषा, अश्लील सेक्शुअल ऐक्ट
पटकथा लेखक साफ़ तौर पर सेक्शुअल ऐक्ट दिखाने वाला कॉन्टेंट, खतरनाक
बुरे बर्ताव की कैटगरी तय करने वाला एल्गोरिदम उत्पीड़न, खतरनाक

प्रायिकता बनाम गंभीरता

Gemini API, कॉन्टेंट के असुरक्षित होने की संभावना के आधार पर और उसकी गंभीरता नहीं के आधार पर कॉन्टेंट को ब्लॉक करता है. इस पर ध्यान देना ज़रूरी है, क्योंकि कुछ कॉन्टेंट के असुरक्षित होने की संभावना कम होती है, भले ही नुकसान की गंभीरता ज़्यादा हो. उदाहरण के लिए, वाक्यों की तुलना करना:

  1. रोबोट ने मुझे मुक्का मार दिया.
  2. रोबोट ने मुझे मारपीट कर दी.

पहले वाक्य के असुरक्षित होने की संभावना ज़्यादा हो सकती है, लेकिन हो सकता है कि हिंसा के मामले में वाक्य 2 को ज़्यादा गंभीरता माना जाए.

इसे देखते हुए, हर डेवलपर के लिए यह ज़रूरी है कि वे इस बात की सावधानी से जांच करें और इस बात पर विचार करें कि असली उपयोगकर्ताओं को होने वाले नुकसान को कम करते हुए, उनके मुख्य इस्तेमाल के उदाहरणों को सुधारने के लिए, किस लेवल पर ब्लॉक किया जाना चाहिए.

सुरक्षा सेटिंग

सुरक्षा सेटिंग, जनरेटिव सेवा को भेजे गए अनुरोध का हिस्सा होती हैं. एपीआई से किए गए हर अनुरोध के लिए, सेटिंग में बदलाव किया जा सकता है. यहां दी गई टेबल में उन कैटगरी की सूची दी गई है जिन्हें सेट किया जा सकता है. साथ ही, हर कैटगरी में होने वाले नुकसान के बारे में जानकारी दी गई है.

कैटगरी जानकारी
उत्पीड़न पहचान और/या सुरक्षित एट्रिब्यूट को टारगेट करने वाली नेगेटिव या नुकसान पहुंचाने वाली टिप्पणियां.
नफ़रत फैलाने वाली भाषा असभ्य, अपमानजनक या धर्म का अपमान करने वाला कॉन्टेंट.
सेक्शुअल ऐक्ट दिखाने वाली इमेज ऐसा कॉन्टेंट जिसमें सेक्शुअल ऐक्ट या अन्य भद्दा कॉन्टेंट के बारे में बताया गया हो.
खतरनाक चीज़ों के विज्ञापन नुकसान पहुंचाने वाली गतिविधियों का प्रचार करता है, उन्हें लागू करने में मदद करता है या उन्हें बढ़ावा देता है.

ये परिभाषाएं एपीआई के रेफ़रंस में भी हैं. Gemini के मॉडल सिर्फ़ HARM_CATEGORY_HARASSMENT, HARM_CATEGORY_HATE_SPEECH, HARM_CATEGORY_SEXUALLY_EXPLICIT, और HARM_CATEGORY_DANGEROUS_CONTENT के साथ काम करते हैं. अन्य कैटगरी का इस्तेमाल, PaLM 2 (लेगसी) मॉडल करता है.

नीचे दी गई टेबल में, ब्लॉक करने की उन सेटिंग के बारे में बताया गया है जिन्हें हर कैटगरी के लिए अडजस्ट किया जा सकता है. उदाहरण के लिए, अगर आपने नफ़रत फैलाने वाली भाषा की कैटगरी के लिए, ब्लॉक करने की सेटिंग को कुछ लोगों को ब्लॉक करें पर सेट किया है, तो ऐसी हर चीज़ को ब्लॉक कर दिया जाएगा जिसमें नफ़रत फैलाने वाली भाषा से जुड़ा कॉन्टेंट होने की संभावना ज़्यादा है. हालांकि, कम संभावना वाली किसी भी चीज़ की अनुमति है.

अगर इस नीति को सेट नहीं किया जाता है, तो सभी कैटगरी के लिए, कुछ लोगों को ब्लॉक करें डिफ़ॉल्ट सेटिंग होती है.

थ्रेशोल्ड (Google AI Studio) थ्रेशोल्ड (एपीआई) ब्यौरा
किसी को ब्लॉक न करें BLOCK_NONE असुरक्षित कॉन्टेंट होने की संभावना चाहे जैसी भी हो, हमेशा दिखाएं
कुछ को ब्लॉक करें BLOCK_ONLY_HIGH असुरक्षित कॉन्टेंट की संभावना ज़्यादा होने पर ब्लॉक करें
कुछ को ब्लॉक करें BLOCK_MEDIUM_AND_ABOVE असुरक्षित कॉन्टेंट की संभावना कम या ज़्यादा होने पर ब्लॉक करें
ज़्यादातर को ब्लॉक करें BLOCK_LOW_AND_ABOVE असुरक्षित कॉन्टेंट दिखने की संभावना कम, कम या ज़्यादा होने पर ब्लॉक करें
HARM_BLOCK_THRESHOLD_UNSPECIFIED थ्रेशोल्ड तय नहीं किया गया है. डिफ़ॉल्ट थ्रेशोल्ड का इस्तेमाल करके ब्लॉक करें

जनरेटिव सेवा से किए गए हर अनुरोध के लिए, इन सेटिंग को सेट किया जा सकता है. ज़्यादा जानकारी के लिए, HarmBlockThreshold एपीआई रेफ़रंस देखें.

सुरक्षा से जुड़े सुझाव

generateContent, GenerateContentResponse दिखाता है, जिसमें सुरक्षा से जुड़ा सुझाव शामिल होता है.

तुरंत सुझाव/राय देने या शिकायत करने की सुविधा promptFeedback में शामिल है. अगर promptFeedback.blockReason को सेट किया गया है, तो इसका मतलब है कि प्रॉम्प्ट का कॉन्टेंट ब्लॉक किया गया है.

जवाब देने वाले व्यक्ति के सुझाव, शिकायत या राय को finishReason और safetyRatings में शामिल किया जाता है. अगर जवाब वाला कॉन्टेंट ब्लॉक किया गया था और finishReason को SAFETY था, तो ज़्यादा जानकारी के लिए, safetyRatings की जांच करें. सुरक्षा रेटिंग में कैटगरी और नुकसान की कैटगरी तय करने की संभावना शामिल होती है. ब्लॉक किया गया कॉन्टेंट वापस नहीं भेजा जाता है.

दिखाई गई संभावना, ब्लॉक कॉन्फ़िडेंस लेवल के मुताबिक है, जैसा कि इस टेबल में दिखाया गया है:

प्रॉबेबिलिटी ब्यौरा
लचीला कॉन्टेंट के असुरक्षित होने की संभावना बहुत कम है
कम कॉन्टेंट के असुरक्षित होने की संभावना बहुत कम होती है
मीडियम कॉन्टेंट के असुरक्षित होने की संभावना थोड़ी-बहुत है
ज़्यादा कॉन्टेंट के असुरक्षित होने की संभावना काफ़ी ज़्यादा होती है

उदाहरण के लिए, अगर उत्पीड़न की कैटगरी की ज़्यादा संभावना की वजह से कॉन्टेंट को ब्लॉक किया गया है, तो सुरक्षा रेटिंग HARASSMENT के बराबर होगी और नुकसान की संभावना को HIGH पर सेट किया जाएगा.

Google AI Studio में सुरक्षा की सेटिंग

Google AI Studio में सुरक्षा सेटिंग में बदलाव भी किया जा सकता है, लेकिन उन्हें बंद नहीं किया जा सकता. ऐसा करने के लिए, सेटिंग चलाएं में जाकर, सुरक्षा सेटिंग में बदलाव करें पर क्लिक करें:

सुरक्षा सेटिंग का बटन

हर सेटिंग को अडजस्ट करने के लिए नॉब का इस्तेमाल करें:

सुरक्षा सेटिंग का बटन

अगर कॉन्टेंट ब्लॉक है, तो आपको कॉन्टेंट नहीं वाला मैसेज दिखेगा. ज़्यादा जानकारी देखने के लिए, पॉइंटर को कोई कॉन्टेंट नहीं पर दबाकर रखें और सुरक्षा पर क्लिक करें.

कोड के उदाहरण

इस सेक्शन में, Python क्लाइंट लाइब्रेरी का इस्तेमाल करके, कोड में सुरक्षा सेटिंग इस्तेमाल करने का तरीका बताया गया है.

अनुरोध का उदाहरण

नीचे एक Python कोड स्निपेट दिया गया है. इसमें, GenerateContent कॉल में सुरक्षा सेटिंग सेट करने का तरीका बताया गया है. इससे नुकसान की कैटगरी Harassment और Hate speech को BLOCK_LOW_AND_ABOVE पर सेट कर दिया जाएगा. ये ऐसे कॉन्टेंट को ब्लॉक कर देती हैं जिसमें उत्पीड़न या नफ़रत फैलाने वाली भाषा का इस्तेमाल किए जाने की संभावना कम या ज़्यादा होती है.

from google.generativeai.types import HarmCategory, HarmBlockThreshold

model = genai.GenerativeModel(model_name='gemini-pro-vision')
response = model.generate_content(
    ['Do these look store-bought or homemade?', img],
    safety_settings={
        HarmCategory.HARM_CATEGORY_HATE_SPEECH: HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
        HarmCategory.HARM_CATEGORY_HARASSMENT: HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
    }
)

जवाब का उदाहरण

जवाब से सुरक्षा से जुड़े सुझाव को पार्स करने के लिए, नीचे एक कोड स्निपेट दिखाया गया है.

try:
  print(response.text)
except ValueError:
  # If the response doesn't contain text, check if the prompt was blocked.
  print(response.prompt_feedback)
  # Also check the finish reason to see if the response was blocked.
  print(response.candidates[0].finish_reason)
  # If the finish reason was SAFETY, the safety ratings have more details.
  print(response.candidates[0].safety_ratings)

अगले चरण

  • पूरे एपीआई के बारे में ज़्यादा जानने के लिए, एपीआई का रेफ़रंस देखें.
  • एलएलएम के साथ डेवलप करते समय, सुरक्षा से जुड़ी ज़रूरी बातों के बारे में जानने के लिए, सुरक्षा से जुड़े दिशा-निर्देश देखें.
  • Jigsaw टीम से, संभावना बनाम गंभीरता का आकलन करने के बारे में ज़्यादा जानें
  • Perspective API जैसे सुरक्षा समाधान में योगदान देने वाले प्रॉडक्ट के बारे में ज़्यादा जानें.
  • इन सुरक्षा सेटिंग का इस्तेमाल करके, बुरे बर्ताव की कैटगरी तय करने वाला टूल बनाया जा सकता है. शुरू करने के लिए, कैटगरी तय करने का उदाहरण देखें.