تقييم المخاطر ووضع سياسات الأمان

تحدد سياسات أمان المحتوى أنواع المحتوى الضار الذي لا يُسمح به على أي منصة على الإنترنت. قد تكون على دراية بسياسات المحتوى في المنصات مثل YouTube أو Google Play. تتشابه سياسات المحتوى على تطبيقات الذكاء الاصطناعي التوليدي: فهي تحدّد نوع المحتوى الذي يجب ألا ينشئه تطبيقك، وترشدك إلى كيفية تحسين النماذج وإجراءات الوقاية المناسبة التي يجب إضافتها.

يجب أن تعكس سياساتك حالة استخدام تطبيقك. على سبيل المثال، قد يتضمّن منتج الذكاء الاصطناعي التوليدي الذي يهدف إلى تقديم أفكار للأنشطة العائلية استنادًا إلى اقتراحات المنتدى سياسة تمنع إنشاء محتوى يضمّ مشاهد عنيفة بطبيعته، لأنّه قد يكون ضارًا للمستخدمين. وعلى العكس من ذلك، قد يرغب التطبيق الذي يلخص أفكار قصص الخيال العلمي التي اقترحها المستخدمون في السماح بتوليد أعمال عنف، لأنه موضوع العديد من القصص من هذا النوع.

يجب أن تحظر سياسات الأمان إنشاء محتوى ضارّ للمستخدمين أو غير قانوني، ويجب أن تحدد أنواع المحتوى الذي يتم إنشاؤه والذي يتوافق مع هذا الشرط في تطبيقك. يمكنك أيضًا تضمين استثناءات للمحتوى التعليمي أو الوثائقي أو العلمي أو الفني الذي قد يُعتبر ضارًا.

إنّ تحديد سياسات واضحة بمستوى شديد من التفاصيل، بما في ذلك الاستثناءات المنطبقة على السياسة مع تقديم أمثلة، هو أمر أساسي لإنشاء منتج مسؤول. يتم استخدام سياساتك في كل خطوة من خطوات تطوير النموذج. بالنسبة لتنظيف البيانات أو وضع علامات عليها، يمكن أن تؤدي عدم الدقة إلى بيانات مصنفة بشكل خاطئ أو الإفراط في الإزالة أو الإزالة مما سيؤثر على استجابات سلامة النموذج. لأغراض التقييم، ستؤدي السياسات غير المحددة بوضوح إلى حدوث تباين كبير بين المقيّمين، ما يزيد من صعوبة معرفة ما إذا كان نموذجك يستوفي معايير السلامة لديك.

السياسات الافتراضية (للتوضيح فقط)

في ما يلي بعض الأمثلة على السياسات التي قد تفكر في استخدامها لتطبيقك، بشرط أن تتطابق مع حالة الاستخدام.

فئة السياسة السياسة
معلومات حسّاسة تكشف عن الهويّة (SPII) لن يقرأ التطبيق معلومات حساسة أو معلومات تحديد هوية شخصية (مثل البريد الإلكتروني أو رقم بطاقة الائتمان أو رقم التأمين الاجتماعي لشخص عادي).
كلام يحض على الكراهية لن ينشئ التطبيق محتوًى سلبيًا أو ضارًا يستهدف الهوية و/أو سمات محمية (على سبيل المثال، الافتراءات العرقية والترويج للتمييز، والتحريض على العنف ضدّ مجموعات محمية).
التحرش لن يُنشئ التطبيق محتوى ضارًا أو مخيفًا أو مسيئًا يستهدف فردًا آخر (على سبيل المثال، التهديدات الجسدية وإنكار الأحداث المأساوية والاستخفاف بضحايا العنف).
المحتوى الخطير لن يقدّم التطبيق تعليمات أو نصائح حول إيذاء النفس و/أو الآخرين (مثل الوصول إلى الأسلحة النارية والأجهزة المتفجّرة أو بنائها أو الترويج للإرهاب أو تعليمات الانتحار).
محتوى جنسي فاضح لن ينشئ التطبيق محتوى يتضمن إشارات إلى الأفعال الجنسية أو المحتوى البذيء الآخر (على سبيل المثال، الأوصاف الجنسية التصويرية، أو المحتوى الذي يهدف إلى الإثارة).
إتاحة الوصول إلى السلع والخدمات الضارة لن يُنشئ التطبيق محتوى يروّج أو يتيح الوصول إلى سلع وخدمات وأنشطة قد تضرّ (مثل تسهيل الوصول إلى الترويج للمقامرة والمستحضرات الصيدلانية والألعاب النارية والخدمات الجنسية).
المحتوى الضارّ لن ينشئ التطبيق تعليمات لتنفيذ أنشطة غير قانونية أو مخادعة (مثل إنشاء عمليات تصيّد احتيالي أو محتوى غير مرغوب فيه أو محتوى يهدف إلى الطلب الجماعي وطرق إزالة القيود).

موارد المطوِّرين

أمثلة على سياسات الذكاء الاصطناعي التوليدي: