इस गाइड में, Gemini API के लिए उपलब्ध सुरक्षा सेटिंग के बारे में जानकारी दी गई है. इन्हें ज़रूरत के हिसाब से बदला जा सकता है. प्रोटोटाइपिंग चरण के दौरान, चार डाइमेंशन पर सुरक्षा सेटिंग में बदलाव किए जा सकते हैं. इससे यह जांच की जा सकती है कि आपके ऐप्लिकेशन को ज़्यादा या कम सीमित कॉन्फ़िगरेशन की ज़रूरत है या नहीं. डिफ़ॉल्ट रूप से, सुरक्षा सेटिंग किसी भी डाइमेंशन में असुरक्षित होने की मध्यम या ज़्यादा संभावना वाले कॉन्टेंट (इसमें संकेत भी शामिल हैं) को ब्लॉक करती हैं. यह बेसलाइन सुरक्षा, इस्तेमाल किए जाने वाले ज़्यादातर मामलों में काम करती है. इसलिए, आपको सुरक्षा सेटिंग में सिर्फ़ तब बदलाव करना चाहिए, जब आपके ऐप्लिकेशन के लिए इसकी लगातार ज़रूरत हो.
सुरक्षा फ़िल्टर
Gemini API में सुरक्षा से जुड़े अडजस्ट किए जा सकने वाले फ़िल्टर और पहले से मौजूद सुरक्षा सुविधाएं उपलब्ध होती हैं. इनकी मदद से, बच्चों को नुकसान पहुंचाने वाले कॉन्टेंट का खतरा भी कम हो जाता है. जैसे, बच्चों की सुरक्षा को खतरे में डालने वाला कॉन्टेंट. इस तरह के नुकसान को हमेशा ब्लॉक किया जाता है और इनमें बदलाव नहीं किया जा सकता.
सुरक्षा के लिए, अडजस्ट किए जा सकने वाले फ़िल्टर में इन कैटगरी को शामिल किया गया है:
- उत्पीड़न
- नफ़रत फैलाने वाली भाषा
- सेक्शुअल ऐक्ट दिखाने वाली इमेज
- खतरनाक चीज़ों के विज्ञापन
इन सेटिंग की मदद से आप यानी डेवलपर यह तय कर सकते हैं कि आपके इस्तेमाल के उदाहरण के लिए क्या सही है. उदाहरण के लिए, अगर वीडियो गेम वाला डायलॉग बनाया जा रहा है, तो ऐसे ज़्यादा कॉन्टेंट को अनुमति दें जिसे गेम के माहौल के हिसाब से, खतरनाक माना जाता है. यहां इस्तेमाल के कुछ ऐसे अन्य मामलों के उदाहरण दिए गए हैं जिनमें इन सुरक्षा सेटिंग में कुछ बदलाव करने की ज़रूरत हो सकती है:
इस्तेमाल का उदाहरण | कैटगरी |
---|---|
उत्पीड़न विरोधी ट्रेनिंग ऐप्लिकेशन | नफ़रत फैलाने वाली भाषा, अश्लील सेक्शुअल ऐक्ट |
पटकथा लेखक | साफ़ तौर पर सेक्शुअल ऐक्ट दिखाने वाला कॉन्टेंट, खतरनाक |
बुरे बर्ताव की कैटगरी तय करने वाला एल्गोरिदम | उत्पीड़न, खतरनाक |
प्रायिकता बनाम गंभीरता
Gemini API, कॉन्टेंट के असुरक्षित होने की संभावना के आधार पर और उसकी गंभीरता नहीं के आधार पर कॉन्टेंट को ब्लॉक करता है. इस पर ध्यान देना ज़रूरी है, क्योंकि कुछ कॉन्टेंट के असुरक्षित होने की संभावना कम होती है, भले ही नुकसान की गंभीरता ज़्यादा हो. उदाहरण के लिए, वाक्यों की तुलना करना:
- रोबोट ने मुझे मुक्का मार दिया.
- रोबोट ने मुझे मारपीट कर दी.
पहले वाक्य के असुरक्षित होने की संभावना ज़्यादा हो सकती है, लेकिन हो सकता है कि हिंसा के मामले में वाक्य 2 को ज़्यादा गंभीरता माना जाए.
इसे देखते हुए, हर डेवलपर के लिए यह ज़रूरी है कि वे इस बात की सावधानी से जांच करें और इस बात पर विचार करें कि असली उपयोगकर्ताओं को होने वाले नुकसान को कम करते हुए, उनके मुख्य इस्तेमाल के उदाहरणों को सुधारने के लिए, किस लेवल पर ब्लॉक किया जाना चाहिए.
सुरक्षा सेटिंग
सुरक्षा सेटिंग, जनरेटिव सेवा को भेजे गए अनुरोध का हिस्सा होती हैं. एपीआई से किए गए हर अनुरोध के लिए, सेटिंग में बदलाव किया जा सकता है. यहां दी गई टेबल में उन कैटगरी की सूची दी गई है जिन्हें सेट किया जा सकता है. साथ ही, हर कैटगरी में होने वाले नुकसान के बारे में जानकारी दी गई है.
कैटगरी | जानकारी |
---|---|
उत्पीड़न | पहचान और/या सुरक्षित एट्रिब्यूट को टारगेट करने वाली नेगेटिव या नुकसान पहुंचाने वाली टिप्पणियां. |
नफ़रत फैलाने वाली भाषा | असभ्य, अपमानजनक या धर्म का अपमान करने वाला कॉन्टेंट. |
सेक्शुअल ऐक्ट दिखाने वाली इमेज | ऐसा कॉन्टेंट जिसमें सेक्शुअल ऐक्ट या अन्य भद्दा कॉन्टेंट के बारे में बताया गया हो. |
खतरनाक चीज़ों के विज्ञापन | नुकसान पहुंचाने वाली गतिविधियों का प्रचार करता है, उन्हें लागू करने में मदद करता है या उन्हें बढ़ावा देता है. |
ये परिभाषाएं एपीआई के रेफ़रंस में भी हैं. Gemini के मॉडल सिर्फ़ HARM_CATEGORY_HARASSMENT
,
HARM_CATEGORY_HATE_SPEECH
, HARM_CATEGORY_SEXUALLY_EXPLICIT
, और
HARM_CATEGORY_DANGEROUS_CONTENT
के साथ काम करते हैं. अन्य कैटगरी का इस्तेमाल, PaLM 2
(लेगसी) मॉडल करता है.
नीचे दी गई टेबल में, ब्लॉक करने की उन सेटिंग के बारे में बताया गया है जिन्हें हर कैटगरी के लिए अडजस्ट किया जा सकता है. उदाहरण के लिए, अगर आपने नफ़रत फैलाने वाली भाषा की कैटगरी के लिए, ब्लॉक करने की सेटिंग को कुछ लोगों को ब्लॉक करें पर सेट किया है, तो ऐसी हर चीज़ को ब्लॉक कर दिया जाएगा जिसमें नफ़रत फैलाने वाली भाषा से जुड़ा कॉन्टेंट होने की संभावना ज़्यादा है. हालांकि, कम संभावना वाली किसी भी चीज़ की अनुमति है.
अगर इस नीति को सेट नहीं किया जाता है, तो सभी कैटगरी के लिए, कुछ लोगों को ब्लॉक करें डिफ़ॉल्ट सेटिंग होती है.
थ्रेशोल्ड (Google AI Studio) | थ्रेशोल्ड (एपीआई) | ब्यौरा |
---|---|---|
किसी को ब्लॉक न करें | BLOCK_NONE | असुरक्षित कॉन्टेंट होने की संभावना चाहे जैसी भी हो, हमेशा दिखाएं |
कुछ को ब्लॉक करें | BLOCK_ONLY_HIGH | असुरक्षित कॉन्टेंट की संभावना ज़्यादा होने पर ब्लॉक करें |
कुछ को ब्लॉक करें | BLOCK_MEDIUM_AND_ABOVE | असुरक्षित कॉन्टेंट की संभावना कम या ज़्यादा होने पर ब्लॉक करें |
ज़्यादातर को ब्लॉक करें | BLOCK_LOW_AND_ABOVE | असुरक्षित कॉन्टेंट दिखने की संभावना कम, कम या ज़्यादा होने पर ब्लॉक करें |
HARM_BLOCK_THRESHOLD_UNSPECIFIED | थ्रेशोल्ड तय नहीं किया गया है. डिफ़ॉल्ट थ्रेशोल्ड का इस्तेमाल करके ब्लॉक करें |
जनरेटिव सेवा से किए गए हर अनुरोध के लिए, इन सेटिंग को सेट किया जा सकता है.
ज़्यादा जानकारी के लिए, HarmBlockThreshold
एपीआई रेफ़रंस देखें.
सुरक्षा से जुड़े सुझाव
generateContent
, GenerateContentResponse
दिखाता है, जिसमें सुरक्षा से जुड़ा सुझाव शामिल होता है.
तुरंत सुझाव/राय देने या शिकायत करने की सुविधा
promptFeedback
में शामिल है.
अगर promptFeedback.blockReason
को सेट किया गया है, तो इसका मतलब है कि प्रॉम्प्ट का कॉन्टेंट ब्लॉक किया गया है.
जवाब देने वाले व्यक्ति के सुझाव, शिकायत या राय को
finishReason
और
safetyRatings
में शामिल किया जाता है. अगर
जवाब वाला कॉन्टेंट ब्लॉक किया गया था और finishReason
को SAFETY
था, तो ज़्यादा जानकारी के लिए, safetyRatings
की जांच करें. सुरक्षा रेटिंग में कैटगरी और नुकसान की कैटगरी तय करने की
संभावना शामिल होती है. ब्लॉक किया गया कॉन्टेंट
वापस नहीं भेजा जाता है.
दिखाई गई संभावना, ब्लॉक कॉन्फ़िडेंस लेवल के मुताबिक है, जैसा कि इस टेबल में दिखाया गया है:
प्रॉबेबिलिटी | ब्यौरा |
---|---|
लचीला | कॉन्टेंट के असुरक्षित होने की संभावना बहुत कम है |
कम | कॉन्टेंट के असुरक्षित होने की संभावना बहुत कम होती है |
मीडियम | कॉन्टेंट के असुरक्षित होने की संभावना थोड़ी-बहुत है |
ज़्यादा | कॉन्टेंट के असुरक्षित होने की संभावना काफ़ी ज़्यादा होती है |
उदाहरण के लिए, अगर उत्पीड़न की कैटगरी की ज़्यादा संभावना की वजह से कॉन्टेंट को ब्लॉक किया गया है, तो सुरक्षा रेटिंग HARASSMENT
के बराबर होगी और नुकसान की संभावना को HIGH
पर सेट किया जाएगा.
Google AI Studio में सुरक्षा की सेटिंग
Google AI Studio में सुरक्षा सेटिंग में बदलाव भी किया जा सकता है, लेकिन उन्हें बंद नहीं किया जा सकता. ऐसा करने के लिए, सेटिंग चलाएं में जाकर, सुरक्षा सेटिंग में बदलाव करें पर क्लिक करें:
हर सेटिंग को अडजस्ट करने के लिए नॉब का इस्तेमाल करें:
अगर कॉन्टेंट ब्लॉक है, तो आपको
कॉन्टेंट नहीं वाला मैसेज दिखेगा. ज़्यादा जानकारी देखने के लिए, पॉइंटर को कोई कॉन्टेंट नहीं पर दबाकर रखें और सुरक्षा पर क्लिक करें.कोड के उदाहरण
इस सेक्शन में, Python क्लाइंट लाइब्रेरी का इस्तेमाल करके, कोड में सुरक्षा सेटिंग इस्तेमाल करने का तरीका बताया गया है.
अनुरोध का उदाहरण
नीचे एक Python कोड स्निपेट दिया गया है. इसमें, GenerateContent
कॉल में सुरक्षा सेटिंग सेट करने का तरीका बताया गया है. इससे नुकसान की कैटगरी Harassment
और Hate speech
को BLOCK_LOW_AND_ABOVE
पर सेट कर दिया जाएगा. ये ऐसे कॉन्टेंट को ब्लॉक कर देती हैं जिसमें उत्पीड़न या नफ़रत फैलाने वाली भाषा का इस्तेमाल किए जाने की संभावना कम या ज़्यादा होती है.
from google.generativeai.types import HarmCategory, HarmBlockThreshold
model = genai.GenerativeModel(model_name='gemini-pro-vision')
response = model.generate_content(
['Do these look store-bought or homemade?', img],
safety_settings={
HarmCategory.HARM_CATEGORY_HATE_SPEECH: HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
HarmCategory.HARM_CATEGORY_HARASSMENT: HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
}
)
जवाब का उदाहरण
जवाब से सुरक्षा से जुड़े सुझाव को पार्स करने के लिए, नीचे एक कोड स्निपेट दिखाया गया है.
try:
print(response.text)
except ValueError:
# If the response doesn't contain text, check if the prompt was blocked.
print(response.prompt_feedback)
# Also check the finish reason to see if the response was blocked.
print(response.candidates[0].finish_reason)
# If the finish reason was SAFETY, the safety ratings have more details.
print(response.candidates[0].safety_ratings)
अगले चरण
- पूरे एपीआई के बारे में ज़्यादा जानने के लिए, एपीआई का रेफ़रंस देखें.
- एलएलएम के साथ डेवलप करते समय, सुरक्षा से जुड़ी ज़रूरी बातों के बारे में जानने के लिए, सुरक्षा से जुड़े दिशा-निर्देश देखें.
- Jigsaw टीम से, संभावना बनाम गंभीरता का आकलन करने के बारे में ज़्यादा जानें
- Perspective API जैसे सुरक्षा समाधान में योगदान देने वाले प्रॉडक्ट के बारे में ज़्यादा जानें.
- इन सुरक्षा सेटिंग का इस्तेमाल करके, बुरे बर्ताव की कैटगरी तय करने वाला टूल बनाया जा सकता है. शुरू करने के लिए, कैटगरी तय करने का उदाहरण देखें.