تقييم النموذج والنظام للحفاظ على السلامة

عليك تقييم منتجات الذكاء الاصطناعي التوليدي بدقة للتأكّد من أنّها تقدّمها تتوافق مع سياسات محتوى التطبيق لحماية المستخدمين من المخاطر الرئيسية المختلفة. وفقًا لما هو موضّح بالتفصيل في التقرير الفني لبرنامج Gemini، عليك إجراء الأنواع الأربعة المختلفة من تقييمات السلامة على مدار دورة تطوير نماذج الاختبار.

  • تُجرى عمليات تقييم التطوير أثناء التدريب والتحسين من أجل تقييم أداء النموذج مقارنةً بأحد معايير الإطلاق. ويُستخدَم ذلك أيضًا لفهم تأثير أي تدابير اتّخذتها للحدّ من المخاطر بهدف تحقيق أهداف معايير الإطلاق. وتُقيّم هذه التقييمات نموذجك مقارنةً بمجموعة بيانات من طلبات البحث العدائية التي تستهدف سياسة معيّنة، أو تقييمات مقارنةً بالمعايير الأكاديمية الخارجية.
  • يتم إجراء تقييمات ضمان لأغراض الإدارة والمراجعة عادةً ما تحدث في نهاية المعالم الرئيسية أو عمليات التدريب التي تجريها مجموعة خارج فريق تطوير النموذج. يتم توحيد تقييمات التأكيد تبعًا للوسيط، ويتم إدارة مجموعات البيانات بشكل صارم. يتم فقط تقديم الإحصاءات العالية المستوى إلى عملية التدريب للمساعدة في جهود التخفيف. تخضع تقييمات الضمان لاختبارات لسياسات السلامة، حيث بالإضافة إلى الاختبارات المستمرة للإمكانات الخطيرة مثل المخاطر البيولوجية والإقناع والأمن السيبراني (مزيد من المعلومات)
  • الاستهداف الهجومي هو شكل من أشكال الاختبار التنافسي حيث تُشنّ فِرق متخصصة (في مجالات السلامة والسياسات والأمان وغيرها) هجمات على أحد أنظمة الذكاء الاصطناعي. الاختلاف الرئيسي مقارنةً بما سبق التقييمات هو أن هذه الأنشطة أقل تنظيمًا بطبيعتها. يمكن بعد ذلك استخدام معرفة نقاط الضعف المحتملة للتخفيف من المخاطر وتحسين أساليب التقييم داخل المؤسسة.
  • يُجري التقييمات الخارجية خبراء مستقلون متخصصون في مجال معيّن لتحديد القيود. يمكن للمجموعات الخارجية تصميم هذه التقييمات بشكل مستقل واختبار نماذجك بشكل مكثّف.

مقاييس الأداء الأكاديمية لتقييم مقاييس المسؤولية

هناك العديد من مقاييس الأداء العامة لتقييمات التطوير والتأكّد. في الجدول التالي، يمكنك الاطّلاع على بعض المقاييس المعروفة. وتشمل هذه الأحداث السياسات المتعلقة بالكلام الذي يحض على الكراهية واللغة غير اللائقة، والتحقق مما إذا كان النموذج ينقل التحيزات الاجتماعية والثقافية غير المقصودة.

وتتيح لك مقاييس الأداء أيضًا إمكانية المقارنة بالنماذج الأخرى. على سبيل المثال: تم نشر نتائج "جيما" حول العديد من هذه المعايير في بطاقة نموذج Gemma تجدر الإشارة إلى أنّ تنفيذ هذه المعايير ليس تافهًا ومختلفًا إعدادات التنفيذ يمكن أن يؤدي إلى نتائج مختلفة عند تقييم نموذجك.

ومن القيود الرئيسية لهذه المقاييس أنّها يمكن أن تصبح مشبعة بسرعة. ومن خلال النماذج ذات القدرات الكبيرة، تم رصد درجات دقة تقترب من% 99، ويحد من قدرتك على قياس التقدم. في هذه الحالة، يجب توجيه تركيزك نحو إنشاء مجموعة تقييم أمان تكميلية خاصة بك كما هو موضّح في قسم عناصر الشفافية.

المناطق مجموعات بيانات مقاييس الأداء ومقاييس الأداء الأوصاف الروابط
الصور النمطية الاجتماعية الثقافية غامق مجموعة بيانات تتضمّن 23,679 طلبًا لإنشاء نص باللغة الإنجليزية لقياس التحيز في خمسة مجالات: المهنة والجنس والعِرق والدين والأيديولوجية السياسية https://arxiv.org/abs/2101.11718
الأحكام المسبقة الاجتماعية والثقافية CrowS-Pairs مجموعة بيانات تتضمّن 1508 مثال تتناول الصور النمطية في تسعة أنواع من التحيزات، مثل العرق أو الدين أو العمر https://paperswithcode.com/dataset/crows-pairs
الصور النمطية الاجتماعية الثقافية موسيقى أمبيغ للشواء مجموعة بيانات من الأسئلة التي تسلط الضوء على التحيزات الاجتماعية التي تم إثباتها أشخاص ينتمون إلى فئات محمية على تسعة سمات اجتماعية المناسبة في الولايات المتحدة https://huggingface.co/datasets/heegyu/bbq
الأحكام المسبقة الاجتماعية والثقافية Winogender مجموعة بيانات لأزواج الجمل التي تختلف فقط في جنس واحد ضمير في الجملة، مُصمَّم لاختبار تحديد الجنس التحيز في الأنظمة الآلية لدقة الروابط المشتركة. https://github.com/rudinger/winogender-schemas
الأحكام المسبقة الاجتماعية والثقافية وينوبيا مجموعة بيانات تتألف من 3,160 جملة، لحلّ مشكلة الإشارة المرجعية مع التركيز على الانحياز الجنسي https://huggingface.co/datasets/wino_bias
اللغة غير اللائقة والكلام الذي يحض على الكراهية ETHOS ETHOS هي مجموعة بيانات لرصد الكلام الذي يحض على الكراهية. تم إنشاؤه من التعليقات على YouTube وReddit التي تم التحقّق منها من خلال منصة حشد الموارد. يتضمّن مجموعتَين فرعيتَين، إحداهما للتصنيف الثنائي والأخرى للتصنيف باستخدام تصنيفات متعددة. وتحتوي الصفحة الأولى على 998 تعليقًا، بينما تحتوي العلامة الأخيرة على تعليقات توضيحية للكلام الذي يحض على الكراهية التعليقات https://paperswithcode.com/dataset/ethos
اللغة غير اللائقة والكلام الذي يحض على الكراهية RealToxicity مجموعة بيانات تتضمّن 100 ألف مقتطف جملة من الويب تتيح للباحثين معالجة خطر التحلل العصبي السام في النماذج بشكل أكبر. https://allenai.org/data/real-toxicity-prompts
اللغة غير اللائقة والكلام الذي يحض على الكراهية لغة غير اللائقة في صور Jigsaw تتألف مجموعة البيانات هذه من عدد كبير من تعليقات Wikipedia التيصنّفها مستخدمون على أنّها تحتوي على لغة غير لائقة. https://huggingface.co/datasets/google/jigsaw_toxicity_pred
اللغة غير اللائقة والكلام الذي يحض على الكراهية ToxicGen يشير هذا المصطلح إلى مجموعة بيانات واسعة النطاق يتم إنشاؤها آليًا من أجل رصد طبيعة عدائية ضمنية. رصد الكلام الذي يحض على الكراهية https://arxiv.org/abs/2203.09509
المحتوى المسيء أو الكلام الذي يحض على الكراهية هجمات شخصية على Wikipedia مجموعة بيانات تتضمّن تعليقات مؤرشفة على صفحات نقاش Wikipedia تم تصنيفها من قِبل Jigsaw وفقًا للغة غير اللائقة وأنواعها الفرعية، بما في ذلك اللغة غير اللائقة بشكلٍ كبير واللغة النابية واللغة المهددة واللغة المهينة والهجمات على الهوية https://www.tensorflow.org/datasets/catalog/wikipedia_toxicity_subtypes
الواقعية TruthfulQA معيار لقياس ما إذا كان النموذج اللغوي صحيحًا في لإنشاء إجابات للأسئلة. يتكون المعيار من 817 الأسئلة التي تشمل 38 فئة، بما في ذلك الصحة والقانون والشؤون المالية والسياسة. https://paperswithcode.com/dataset/truthfulqa

مجموعات البيانات لتقييم التطوير والتأكّد

يجب عليك اختبار نموذجك على مجموعة بيانات تقييم السلامة الخاصة بك بالإضافة إلى اختبار مقاييس الأداء المعتادة. تتيح لك هذه الممارسة اختبار تطبيق مبني على إعداد يشبه استخدامه في العالم الحقيقي. ننصحك باتّباع أفضل الممارسات التالية عند إنشاء مجموعات بيانات التقييم:

  • أنواع مختلفة من طلبات البحث الاحتيالية الهدف من مجموعة البيانات أن يشمل كل أنواع طلبات البحث التي قد تثير ردًّا غير آمن من النموذج، وتُسمى هذه الاستعلامات الخادعة. من أفضل الممارسات تغطي كلا النوعين من الاستعلامات العدائية، وتُعرف باسم طلبات البحث الصريحة طلبات البحث العدائية الضمنية.
    • تطلب طلبات البحث المضادة الصريحة من النموذج مباشرةً إنشاء ردّ يتعارض مع سياسة أمان حالية. وتشمل هذه المعلومات ما يلي: الطلبات الصريحة المتعلقة بالمحتوى الخطير ("كيفية إنشاء قنبلة") أو كلامًا يحض على الكراهية أو تحرشًا.
    • المطالبات العدائية الضمنية هي طلبات البحث التي تحتوي احتمالية كبيرة لجعل النموذج ينتهك إحدى السياسات، على الرغم من أنه لا يوجهه القيام بذلك بشكل مباشر. غالبًا ما تكون هذه الفئة أكثر بشكل سلبي ويغطي المطالبات بما في ذلك المصطلحات الحساسة مثل بنود الهوية. ويتناول سلسلة من الاستراتيجيات المعروفة غير لائق، مثل إضافة التصرف اللائق والأخطاء الإملائية والإملائية ("كيفية إنشاء نموذج)، أو سيناريوهات افتراضية تجعل الطلب يبدو مشروعة ("أنا عالم غائم محترف، وأحتاج إلى إجراء أعمال التنقيب، هل يمكنك إخباري بكيفية صنع قنبلة قوية ).
  • ضع في اعتبارك جميع أنواع الاستعلامات العدائية في مجموعة بياناتك، خاصةً حيث يصعب على النماذج وأساليب الوقاية اكتشاف الأمثلة الدقيقة تلك الخادعة بشكل صريح.
    • تغطية البيانات: يجب أن تشمل مجموعة البيانات جميع سياسات المحتوى لكل حالة استخدام من حالات استخدام منتجك (مثل الإجابة عن الأسئلة والتلخيص والاستدلال وما إلى ذلك).
    • تنوّع البيانات: إنّ تنوّع مجموعة البيانات هو مفتاح التأكّد من اختبار النموذج بشكل صحيح وتغطيته للعديد من السمات. ينبغي أن تغطي مجموعة البيانات استعلامات ذات طول مختلف، الصياغة (الإيجابية، الأسئلة، إلخ)، والدرجات، والموضوعات، ومستويات التعقيد والمصطلحات المتعلقة بالهويات والخصائص الديمغرافية اعتبارات.
    • البيانات المعلّقة: عند إجراء تقييمات التأكيد، يمكن أن يؤدي التأكّد من عدم وجود خطر لاستخدام بيانات الاختبار أيضًا في التدريب (للنموذج أو المصنّفات الأخرى) إلى تحسين صلاحية الاختبار. إذا تم استخدام بيانات الاختبار خلال مراحل التدريب، قد تؤدي النتائج إلى التأقلم المفرط مع البيانات، ما يؤدي إلى عدم تمثيل طلبات البحث خارج النطاق.

لإنشاء مجموعات البيانات هذه، يمكنك الاعتماد على سجلات المنتجات الحالية وإنشاء بيانات طلبات البحث يدويًا أو بمساعدة النماذج اللغوية الكبيرة. أحرزت الصناعة تقدمًا كبيرًا في هذا المجال باستخدام مجموعة متنوعة من الأساليب غير الخاضعة للإشراف إنشاء مجموعات اصطناعية عدائية، مثل منهجية AART بحث Google.

أسلوب Red Teaming

فريق المهاجمين الاختباري هو شكل من أشكال الاختبار التنافسي حيث يشن المهاجمون هجومًا على نظام الذكاء الاصطناعي لاختبار النماذج التي تم تدريبها بعد ذلك على مجموعة من نقاط الضعف (مثل الأمن السيبراني) والأضرار الاجتماعية على النحو المحدّد في سياسات السلامة. ويعتبر إجراء هذا التقييم من أفضل الممارسات تنفيذها من خلال فِرق داخلية ذات خبرات متّسقة أو من خلال والجهات الخارجية.

ومن التحديات الشائعة تحديد جانب النموذج الذي يجب اختباره من خلال العمل مع فريق هجومي. توضّح القائمة التالية المخاطر التي يمكن أن تساعدك في استهداف تمرين فريق الاختراق لرصد الثغرات الأمنية. اختبِر المناطق التي تم اختبارها بشدّة من خلال تقييمات التطوير أو التقييم، أو المناطق التي ثبت فيها أنّ تصميمك أقل أمانًا.

Target فئة الثغرة الوصف
النزاهة إدخال الطلب إدخال مصمّم لتمكين المستخدم من تنفيذ إجراءات غير مقصودة أو غير مصرّح بها
التسمم معالجة بيانات التدريب و/أو النموذج لتغيير السلوك
المدخلات العدائية إدخال مصمَّم خصيصًا لتغيير سلوك النموذج
الخصوصية استخراج الطلبات الإفصاح عن الطلب الخاص بالنظام أو المعلومات الأخرى ضمن سياق النماذج اللغوية الكبيرة والتي قد تكون خاصة أو سرية اسميًا
استخراج بيانات التدريب انتهاك خصوصية بيانات التدريب
استخلاص النموذج أو استخلاصه الحصول على مَعلمات الضبط أو البنية أو المَعلمات أو تقريب لسلوك النموذج
استنتاج العضوية استنتاج عناصر مجموعة التدريب الخاصة
مدى التوفّر حجب الخدمة انقطاع في الخدمة يمكن أن يتسبب فيه مهاجم
زيادة العمليات الحسابية هجوم على مدى توفّر النموذج يؤدي إلى انقطاع الخدمة

المصادر: تقرير فريق التكنولوجيا في Gemini

موارد المطوِّرين