إعدادات الأمن الشخصي

نظرة عامة

يوضِّح هذا الدليل إعدادات الأمان القابلة للتعديل في PaLM API والمتاحة لخدمة الرسائل النصية. خلال مرحلة إنشاء النماذج الأولية، يمكنك ضبط إعدادات الأمان على ستّة أبعاد للتقييم السريع لما إذا كان تطبيقك يتطلب ضبطًا أكثر أو أقل تقييدًا. تحظر إعدادات الأمان تلقائيًا المحتوى الذي يُحتمل أن يكون غير آمن متوسطًا و/أو مرتفعًا في جميع الأبعاد الست. تم تصميم نظام الأمان الأساسي هذا ليعمل في معظم حالات الاستخدام، لذا يجب عدم ضبط إعدادات السلامة إلا إذا كان مطلوبًا باستمرار في تطبيقك.

فلاتر الأمان

بالإضافة إلى فلاتر الأمان القابلة للتعديل، تتضمّن PaLM API أساليب حماية مدمجة من الأضرار الأساسية، مثل المحتوى الذي يعرّض الأطفال للخطر. يتم دائمًا حظر هذه الأنواع من الضرر ولا يمكن تعديلها.

تشمل فلاتر السلامة القابلة للتعديل الفئات التالية:

  • محتوى ازدرائي
  • لغة غير لائقة
  • محتوى جنسي
  • محتوى عنيف
  • المراكز الطبية
  • الفئات الخطيرة

تتيح لك هذه الإعدادات، بصفتك مطوّر البرامج، تحديد الإجراءات الملائمة لحالة الاستخدام. على سبيل المثال، إذا كنت تنشئ حوارًا للعبة فيديو، فمن المقبول السماح بعرض مزيد من المحتوى المصنّف على أنه عنيف أو خطير بسبب طبيعة اللعبة. فيما يلي بعض الأمثلة على حالات الاستخدام الأخرى التي قد تحتاج إلى بعض المرونة في إعدادات الأمان هذه:

حالة الاستخدام الفئة
تطبيق تدريبي ضد التحرش محتوى ازدرائي أو جنسي أو غير لائق
دراسة الفحص الطبي المراكز الطبية
كاتب السيناريو محتوى عنيف أو جنسي أو طبي أو خطير
مصنِّف اللغة غير اللائقة غير لائق، ازدرائي

الاحتمالية مقابل الخطورة

تحظر PaLM API المحتوى بناءً على احتمال أن يكون المحتوى غير آمن وليس درجة الخطورة. من المهم أخذ هذا في الاعتبار لأن بعض المحتوى قد لا يكون آمنًا على الرغم من أن خطورة الضرر قد لا تزال عالية. على سبيل المثال، مقارنة الجمل:

  1. لقد لكم الروبوت.
  2. ضربني الروبوت لأعلى.

قد تزيد احتمالية أن تكون الجملة 1 غير آمنة، ولكن ننصحك باعتبارها على درجة أعلى من الخطورة في ما يتعلّق بالعنف.

وبالنظر إلى ذلك، من المهم أن يختبر كل مطوّر بعناية ويدرس مستوى الحظر المناسب لدعم حالات الاستخدام الرئيسية مع تقليل الضرر الذي يحدث للمستخدمين النهائيين.

إعدادات الأمان

تُعدّ إعدادات الأمان جزءًا من الطلب الذي ترسله إلى خدمة الرسائل النصية. ويمكن تعديلها لكل طلب ترسله إلى واجهة برمجة التطبيقات. يسرد الجدول التالي الفئات التي يمكنك تعيينها ويصف نوع الضرر الذي تشمله كل فئة.

الفئات الأوصاف
محتوى ازدرائي تعليقات سلبية أو ضارة تستهدِف الهوية و/أو السمات المحمية
لغة غير لائقة محتوى فظ أو مُهين أو يتضمّن لغة نابية
محتوى جنسي يحتوي على إشارات إلى أفعال جنسية أو محتوى بذيء آخر.
محتوى عنيف تصف السيناريوهات التي تصوّر العنف ضد فرد أو مجموعة، أو أوصاف عامة للإرهاب الدموي.
الفئات الخطيرة يروّج لأفعال ضارّة أو يسهّل تنفيذها أو يشجّع عليها
المراكز الطبية المحتوى المرتبط بمواضيع طبية

يمكنك أيضًا الاطّلاع على هذه التعريفات في مرجع واجهة برمجة التطبيقات.

يوضّح الجدول التالي إعدادات الحظر التي يمكنك ضبطها لكل فئة. على سبيل المثال، عند ضبط إعداد الحظر على حظر عدد قليل للفئة محتوى ازدرائي، يتم حظر كل المحتوى الذي يُحتمل أن يكون ازدرائيًا. ولكن يُسمح بأي شيء له احتمال أقل.

وإذا لم يتم ضبط السياسة، سيكون إعداد الحظر التلقائي هو حظر بعض المستخدمين أو حظر معظم المستخدمين بناءً على فئة السياسة.

الحدّ (استوديو Google AI) الحد (واجهة برمجة التطبيقات) الوصف
عدم حظر أي شيء BLOCK_NONE العرض دائمًا بغض النظر عن احتمالية توفُّر محتوى غير آمن
حظر عدد قليل BLOCK_ONLY_HIGH الحظر في حال وجود احتمال كبير لمحتوى غير آمن
حظر بعض العناصر (الخيار التلقائي للمحتوى الجنسي أو الذي يتضمّن مشاهد عنف أو مشاهد خطيرة أو طبية) BLOCK_MEDIUM_AND_ABOVE الحظر في حال كان احتمال متوسط أو مرتفع لمحتوى غير آمن
حظر معظم المستخدمين (الخيار التلقائي للازدراء واللغة غير اللائقة) BLOCK_LOW_AND_ABOVE الحظر في حال وجود احتمال منخفض أو متوسط أو مرتفع لمحتوى غير آمن
HARM_BLOCK_THRESHOLD_UNSPECIFIED لم يتم تحديد الحدّ الأدنى، حظر باستخدام الحدّ التلقائي

ويمكنك ضبط هذه الإعدادات لكل طلب ترسله إلى خدمة النصوص. يمكنك الاطّلاع على مرجع واجهة برمجة التطبيقات HarmBlockThreshold لمعرفة التفاصيل.

ملاحظات حول الأمان

إذا تم حظر المحتوى، يتضمّن الردّ من واجهة برمجة التطبيقات سبب حظره في الحقل ContentFilter.reason. أما إذا كان السبب متعلقًا بالسلامة، فإن الاستجابة تحتوي أيضًا على حقل SafetyFeedback الذي يتضمّن إعدادات السلامة التي تم استخدامها لهذا الطلب بالإضافة إلى تقييم للسلامة. يتضمن تصنيف السلامة فئة الضرر واحتمالية تصنيفه. ولا يتم عرض المحتوى الذي تم حظره.

يتوافق الاحتمال الناتج مع مستويات ثقة الحظر كما هو موضح في الجدول التالي:

الاحتمالية الوصف
غير مكتمل هناك احتمال ضئيل أن يكون غير آمن
درجة التزام منخفضة هناك احتمال ضئيل بأن يكون المحتوى غير آمن
تفاعُل متوسط من المحتمل أن يكون المحتوى غير آمن بدرجة متوسطة
درجة التزام عالية هناك احتمال كبير بأن يكون المحتوى غير آمن

على سبيل المثال، إذا تم حظر المحتوى بسبب وجود احتمال كبير لفئة اللغة غير اللائقة، سيتم ضبط فئة الأمان المعروض على TOXICITY وسيتم ضبط احتمالية الضرر على HIGH.

إعدادات الأمان في "استوديو Google AI"

يمكنك ضبط هذه الإعدادات في Google AI Studio أيضًا. في إعدادات التشغيل، انقر على تعديل إعدادات الأمان:

زر إعدادات الأمان

واستخدِم المقابض لضبط كل إعداد:

زر إعدادات الأمان

ستظهر رسالة لا يتوفّر محتوى إذا تم حظر المحتوى. للاطّلاع على مزيد من التفاصيل، مرِّر مؤشر الماوس فوق بدون محتوى وانقر على الأمان.

أمثلة على الرموز البرمجية

يوضح هذا القسم كيفية استخدام إعدادات الأمان في الرمز البرمجي باستخدام مكتبة برامج لغة python.

مثال على الطلب

في ما يلي مقتطف رمز بلغة python يعرض كيفية ضبط إعدادات الأمان في مكالمة GenerateText. يؤدي ذلك إلى ضبط فئتَي الضرر Derogatory وViolence على BLOCK_LOW_AND_ABOVE، ما يؤدي إلى حظر أي محتوى يُرجّح أن يكون عنيفًا أو ازدرائيًا بدرجة منخفضة أو أعلى.

completion = genai.generate_text(
    model=model,
    prompt=prompt,
    safety_settings=[
        {
            "category": safety_types.HarmCategory.HARM_CATEGORY_DEROGATORY,
            "threshold": safety_types.HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
        },
        {
            "category": safety_types.HarmCategory.HARM_CATEGORY_VIOLENCE,
            "threshold": safety_types.HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
        },
    ]
)

مثال على الردّ

فيما يلي مقتطف رمز لتحليل تعليقات الأمان من الاستجابة. تجدر الإشارة إلى أن ملاحظات السلامة ستكون فارغة ما لم يكن سبب الحظر أحد أبعاد السلامة.

# First check the content filter reason
for filter in completion.filters:
    print(filter["reason"])

# If any of the reason is "safety", then the safety_feedback field will be
# populated
for feedback in completion.safety_feedback:
    print(feedback["rating"])
    print(feedback["setting"])s

الخطوات التالية

  • راجع مرجع واجهة برمجة التطبيقات لمعرفة المزيد حول واجهة برمجة التطبيقات الكاملة.
  • راجِع إرشادات الأمان للحصول على نظرة عامة على اعتبارات الأمان عند التطوير باستخدام النماذج اللغوية الكبيرة.
  • اطّلع على مزيد من المعلومات حول تقييم الاحتمالات مقابل الخطورة من فريق Jigsaw
  • يمكنك الاطّلاع على المزيد من المعلومات حول المنتجات التي تساهم في تعزيز حلول الأمان، مثل Perspective API.
  • ويمكنك استخدام إعدادات الأمان هذه لإنشاء مصنِّف لمستوى اللغة غير اللائقة. انظر مثال التصنيف للبدء.