وضع إجراءات وقاية للمدخلات والمخرجات

غالبًا ما تعتمد تطبيقات الذكاء الاصطناعي التوليدي على فلترة بيانات المدخلات والمخرجات، ويُشار إليها أحيانًا باسم safeguards، للمساعدة في ضمان اتّباع نموذج مسؤول. تتحقّق تقنيات فلترة الإدخال والإخراج من البيانات التي تدخل في النموذج أو تخرج منه.

عوامل وقاية ومصنّفات أمان جاهزة

حتى مع الضبط السابق لمراعاة السلامة ونموذج طلب جيد التصميم، لا يزال من الممكن أن يعرض النموذج محتوى يؤدي إلى ضرر غير مقصود. ولتحسين هذا الأمر، يمكن أن تضيف أدوات تصنيف المحتوى طبقة حماية أخرى. يمكن تطبيق مُصنِّفات المحتوى على كلٍ من المدخلات والمخرجات.

تُستخدَم مصنِّفات الإدخال عادةً لفلترة المحتوى الذي لا يُقصد استخدامه في التطبيق والذي قد يتسبب في انتهاك نموذجك لسياسات الأمان. غالبًا ما تستهدف فلاتر الإدخال الهجمات الخادعة التي تحاول التحايل على سياسات المحتوى. وبإمكان مصنِّفات النتائج فلترة مخرجات النماذج بشكل أكبر، مما قد يؤدي إلى جذب الأجيال غير المقصودة التي قد تنتهك سياسات السلامة المتّبعة لديك. ويُنصح باستخدام أدوات تصنيف تغطي كل سياسات المحتوى الخاصة بك.

طوّرت Google أدوات تصنيف جاهزة لسلامة المحتوى يمكن استخدامها لفلترة المدخلات والمخرجات:

  • Perspective API هي واجهة برمجة تطبيقات مجانية تستخدم نماذج تعلُّم الآلة لتقييم التأثير المحتمَل لتعليق ما في محادثة ما. يشير هذا المصطلح إلى نتائج توضّح احتمالية ما إذا كان التعليق يتضمّن لغة غير لائقة أو تهديدًا أو مهينًا أو خارجًا عن الموضوع وما إلى ذلك.
  • خدمة الإشراف على النصوص هي واجهة برمجة تطبيقات في Google Cloud متاحة للاستخدام أقل من حد أقصى لاستخدام هذه الواجهة وتستخدم تقنيات تعلُّم الآلة لتحليل مستند بالاستناد إلى قائمة من سمات الأمان، بما في ذلك مختلف الفئات والمواضيع التي قد تتسبّب بضرر والتي قد تكون حساسة.

ومن المهم تقييم مدى تلبية المصنِّفات الجاهزة لأهداف السياسة وتقييمها نوعيًا لحالات الفشل. من المهم أيضًا ملاحظة أنّ الفلترة الزائدة قد تؤدي أيضًا إلى ضرر غير مقصود، وكذلك تقليل فائدة التطبيق، ما يعني أنّه من المهم أيضًا مراجعة الحالات التي قد تحدث فيها عمليات فلترة زائدة. لمزيد من التفاصيل حول طُرق التقييم هذه، يُرجى الاطّلاع على تقييم النموذج والنظام للحفاظ على السلامة.

إنشاء أدوات تصنيف أمان مخصّصة

إذا لم تكن سياستك مشمولة بواجهة برمجة تطبيقات جاهزة أو إذا كنت تريد إنشاء مصنِّفك الخاص، ستوفر أساليب الضبط الفعالة للمعلَمات مثل ضبط الطلب وLoRA إطارًا عمليًا. وباستخدام هذه الطرق، وبدلاً من ضبط النموذج بأكمله، يمكنك استخدام كمية محدودة من البيانات لتدريب مجموعة صغيرة من المعلمات المهمة للنموذج. وهذا يتيح لنموذجك أن يتعلم سلوكيات جديدة، مثل التصنيف حسب حالة استخدام الأمان الجديدة، مع القليل نسبيًا من بيانات التدريب والقوة الحوسبية. يتيح لك هذا النهج تطوير أدوات أمان مخصصة للمستخدمين ومهامك.

لتوضيح آلية عمل ذلك، يعرض الدرس التطبيقي حول الترميز الرمز البرمجي اللازم لإعداد "مصنِّف رشيق". يعرض الدرس التطبيقي حول الترميز خطوات نقل البيانات وتنسيقها بما يتوافق مع النموذج اللغوي الكبير (LLM) والتدريب على أوزان LoRA، ثم تقييم النتائج. تتيح "جيما" إمكانية إنشاء هذه المصنِّفات القوية باستخدام بضعة أسطر من الرموز. للحصول على نظرة عامة أكثر تفصيلاً، تعرض ورقة البحث لدينا "نحو مصنفات النص باستخدام أجايل للجميع" كيف يمكنك استخدام هذه التقنيات لتدريب مجموعة متنوعة من مهام السلامة لتحقيق أحدث الأداء الفني من خلال بضع مئات من الأمثلة التدريبية فقط.

في هذا المثال البرنامج التعليمي، يمكنك تدريب مصنف للكلام الذي يحض على الكراهية باستخدام مجموعة بيانات ETHOS، وهي مجموعة بيانات متاحة للجمهور لرصد الكلام الذي يحض على الكراهية، وهي تستند إلى تعليقات YouTube وReddit. عند تدريبه على نموذج جيما الأصغر، على 200 مثال فقط (أقل بقليل من 1⁄4 مجموعة البيانات) فإنه يحقق درجة F1 بقيمة: 0.80 وROC-AUC من 0.78. تُقارَن هذه النتيجة بشكل إيجابي بحالة النتائج الحديثة الواردة في قائمة الصدارة هذه. عند تدريب المصنِّف الرشيق والمستند إلى "جيما" على 800 مثال، مثل المصنِّفات الأخرى في قائمة الصدارة، حقّق المصنِّف الصائب والمستنِد إلى "جيما" نتيجة F1 بقيمة 83.74 ودرجة ROC-AUC التي تساوي 88.17. يمكنك استخدام هذا المصنِّف بشكل غير تقليدي أو تعديله باستخدام البرنامج التعليمي Gemma Agile Classifier.

البرامج التعليمية حول أداة Gemma Agile Classifier

بدء درس تطبيقي حول الترميز بدء استخدام Google Colab

أفضل الممارسات لإعداد إجراءات الوقاية

ويُنصح بشدة باستخدام أدوات تصنيف السلامة. ومع ذلك، يمكن أن تؤدي القيود المفروضة على الحماية إلى عدم إنتاج النموذج التوليدي لأي شيء للمستخدم إذا تم حظر المحتوى. يجب تصميم التطبيقات للتعامل مع هذه الحالة. تتعامل معظم برامج تتبُّع الدردشة الشهيرة مع هذا الأمر من خلال تقديم إجابات جاهزة ("أنا نموذج لغوي، لا يمكنني مساعدتك في هذا الطلب").

تحقيق التوازن الصحيح بين الفائدة وعدم الضرر: عند استخدام أدوات تصنيف الأمان، من المهم أن تفهم أنّها سترتكب أخطاءً، بما في ذلك النتائج الموجبة الخاطئة (مثلاً، الادّعاء بأنّ إحدى النتائج غير آمنة إذا لم تكن كذلك) والنتائج السلبية الخاطئة (عدم تصنيف أحد المخرجات على أنّه غير آمن، في حال كان غير آمن). ومن خلال تقييم المصنِّفات باستخدام مقاييس مثل F1 والدقة والتذكر وAUC-ROC، يمكنك تحديد الطريقة التي تريد بها مقايضة الأخطاء الموجبة الخاطئة مقابل الأخطاء السلبية الخاطئة. من خلال تغيير الحدّ الأدنى للمصنِّفات، يمكنك تحقيق توازن مثالي يتجنّب الإفراط في الفلترة حسب النتائج مع الحفاظ على السلامة المناسبة في الوقت نفسه.

التحقق من المصنِّفات بحثًا عن أي انحيازات غير مقصودة: يمكن أن تنشر مصنِّفات الأمان، مثل أي نموذج آخر لتعلُّم الآلة، حالات انحياز غير مقصودة، مثل الصور النمطية الاجتماعية والثقافية. تحتاج التطبيقات إلى تقييمها بشكل مناسب لمعرفة السلوكيات التي يُحتمل أن تكون إشكالية. على وجه الخصوص، يمكن لأدوات تصنيف أمان المحتوى أن تتزايد بشكل مفرط في المحتوى المرتبط بالهويات التي غالبًا ما تستهدف لغة مسيئة على الإنترنت. على سبيل المثال، عند إطلاق Perspective API لأول مرة، عرض النموذج درجات أعلى من اللغة غير اللائقة في التعليقات مع الإشارة إلى مجموعات هوية معيَّنة (blog). وقد يكون مثل هذا السلوك المفرِط في التعليقات بسبب التعليقات التي تشير إلى عبارات متعلقة بالهوية في مجموعات مستهدفة بشكل متكرر (على سبيل المثال، كلمات مثل "أسود" أو "مسلم" أو "نسوي" أو "امرأة" أو "مثلي" وما إلى ذلك) غالبًا ما تكون لغة غير لائقة بطبيعتها. عندما تكون مجموعات البيانات المستخدمة لتدريب المصنِّفات بها اختلالات كبيرة في التعليقات التي تحتوي على كلمات معيّنة، يمكن أن تفرط المصنِّفات في تعميم جميع التعليقات التي تتضمّن هذه الكلمات باعتبارها على الأرجح غير آمنة. اقرأ كيف تخفي فريق Jigsaw هذا التحيز غير المقصود.

مصادر للمطوِّرين