وضع إجراءات وقاية للمدخلات والمخرجات

غالبًا ما تعتمد تطبيقات الذكاء الاصطناعي التوليدي على فلترة بيانات الإدخالات والمخرجات التي يُشار إليها أحيانًا باسم تدابير الوقاية، للمساعدة في ضمان تقديم نموذج مسؤول السلوك. تتحقّق أساليب فلترة الإدخال والمخرجات من البيانات التي يتم نقلها إلى من النموذج يتوافق مع السياسات التي التحديد لتطبيقك.

الوقاية الجاهزة

وحتى مع الضبط المسبق للأمان ونموذج المطالبة المصمم جيدًا، من من الممكن لنموذجك لإصدار محتوى يؤدي إلى حدوث ضرر غير مقصود. لتحسين هذا الأمر، يمكن أن تضيف مصنِّفات المحتوى طبقة إضافية من حماية البيانات. يمكن تطبيق مصنِّفات المحتوى على كلٍّ من مصادر الإدخال والمخرجات.

تُستخدَم مصنِّفات الإدخال عادةً لفلترة المحتوى الذي لا يُقصد منه استخدامها في تطبيقك وقد تتسبب في انتهاك نموذجك سياسات السلامة. تستهدف فلاتر الإدخال غالبًا هجمات خداعية تحاول التحايل على سياسات المحتوى يمكن لمصنِّفات الإخراج فلترة النموذج بشكل أكبر والقضاء على الأجيال غير المقصودة التي قد تنتهك سياسات الأمان لديك. ننصحك باستخدام مصنِّفات تغطّي جميع سياسات المحتوى.

توفّر Google أدوات تصنيف مستندة إلى واجهة برمجة التطبيقات للحفاظ على أمان المحتوى، ويمكن استخدامها من أجل فلترة مدخلات ومخرجات النظام:

  • Perspective API هي واجهة برمجة تطبيقات مجانية تستخدم الأجهزة نماذج تعليمية لتقييم التأثير الملحوظ الذي قد يحدثه تعليق على محادثة. فهي توفر درجات تحدد احتمالية ما إذا كان يكون التعليق غير لائق أو تهديدي أو مهين أو خارج الموضوع.
  • خدمة الإشراف على الرسائل النصية هي إحدى واجهات Google Cloud API التي متاحة للاستخدام دون حد معيّن للاستخدام التعلم الآلي لتحليل مستند وفقًا لقائمة من بما في ذلك الفئات والمواضيع المختلفة التي قد تكون ضارة حساسًا.

من المهم تقييم مدى توافق المصنِّفات الجاهزة مع سياستك. وأهدافه، وتقييم حالات الفشل نوعيًا. من المهم أيضًا أن ولاحظ أن الإفراط في التصفية يمكن أن يؤدي أيضًا إلى ضرر غير مقصود وكذلك تقليل فائدة التطبيق، مما يعني أنه من المهم أيضًا مراجعة الحالات التي قد يحدث فيها إفراط في التصفية. لمزيد من التفاصيل حول عملية التقييم هذه يُرجى الاطّلاع على تقييم النموذج والنظام للتأكّد من الأمان.

إنشاء مصنِّفات أمان مخصّصة

هناك العديد من الأسباب التي قد تجعل الوقاية الجاهزة غير مناسبة حالة استخدامك، مثل وجود سياسة غير مدعومة، أو تريد يمكنك تعزيز حماية نظامك باستخدام البيانات التي لاحظت أنّها تؤثر في نظامك. ضِمن في هذه الحالة، توفر مصنِّفات أجايل مقياسًا فعالاً لإنشاء إجراءات وقاية مخصَّصة من خلال ضبط النماذج، مثل جيما، لتناسب احتياجاتك. كما أنها تسمح لك بالتحكم الكامل في مكان وكيفية نشرها.

البرامج التعليمية الخاصة بمصنِّف Gemma Agile

بدء الدرس التطبيقي حول الترميز بدء Google Colab

يميّز المصنِّفات المرنة codelab برنامج تعليمي استخدام LoRA لتحسين Gemma ليكون بمثابة مصنِّف للإشراف على المحتوى باستخدام KerasNLP المكتبة. باستخدام 200 مثال فقط من مجموعة بيانات EHOS، حقّق المصنِّف نتيجة F1 تبلغ 0.80 ونتيجة RoC-AUC من 0.78، والتي تقارن بشكل إيجابي بالأحدث نتائج قوائم الصدارة وعند تدريبه على 800 مثال، مثل المصنِّفات الأخرى على قائمة الصدارة، يستخدم المصنِّف الرشيق المستند إلى "جيما" حقّق نتيجة F1 بلغت 83.74 ودرجة ROC-AUC لـ 88.17. يمكنك تكييف تعليمات تعليمية لتحسين هذا المصنِّف أو لإنشاء تصنيفك الخاص إجراءات الوقاية الخاصة بأداة تصنيف الأمان المخصّصة

أفضل الممارسات لإعداد إجراءات الوقاية

وننصح بشدة باستخدام أدوات تصنيف السلامة كإجراء وقائي. ومع ذلك، أن هذه القيود قد تؤدي إلى عدم إنتاج النموذج التوليدي لأي شيء المستخدم، إذا كان المحتوى محظورًا. يجب تصميم التطبيقات لمعالجة هذه المشكلة. الحالة. تتعامل معظم برامج تتبع المحادثات الشائعة مع هذا من خلال تقديم إجابات جاهزة ("أنا عذرًا، أنا نموذج لغوي، ولا يمكنني مساعدتك في هذا الطلب").

تحقيق التوازن الصحيح بين الفائدة والضرر: عند استخدام مصنِّفات الأمان، ينبغي أن تفهم أنهم يرتكبون أخطاءً، بما في ذلك النتائج الموجبة الخاطئة (على سبيل المثال، الادعاء بأن أحد المخرجات غير آمن في حال كان not) والعناصر السالبة الخاطئة (عدم تصنيف الناتج على أنه غير آمن، عندما يكون كذلك). من وتقييم المصنِّفات باستخدام مقاييس مثل F1 والدقة والتذكر وAUC-ROC، يمكنك تحديد كيف تريد التمييز بين موجب خاطئ وخطأ من الأخطاء السلبية. ومن خلال تغيير حد المصنِّفات، فإنك تساعد في إيجاد التوازن المثالي الذي يتجنب المخرجات المفرطة في التصفية مع الاستمرار في توفير الأمان المناسب.

التحقّق من المصنِّفات بحثًا عن أي التحيّزات غير المقصودة: أدوات تصنيف الأمان، مثل أي آخر من نماذج تعلُّم الآلة، إلى نشر الانحيازات غير المقصودة، مثل المحتوى الاجتماعي الثقافي والصور النمطية. ينبغي تقييم الطلبات بشكل مناسب للتأكد من والسلوكيات الإشكالية. وعلى وجه الخصوص، يمكن لمصنِّفات أمان المحتوى المحتوى المرتبط بالهويات التي تظهر بشكل متكرر اللغة المسيئة التي تستهدفه على الإنترنت. على سبيل المثال، عندما تم إطلاق Perspective API تم إطلاق النموذج لأوّل مرّة، فنحصل على نتائج أعلى من اللغة غير اللائقة في التعليقات. الإشارة إلى مجموعات هويات معيّنة (مدونة). يؤدي هذا الإفراط في لأن التعليقات التي تشير إلى مصطلحات الهوية تتضمن معلومات الفئات المستهدفة بشكل متكرر (على سبيل المثال، كلمات مثل "أسود" أو "مسلم" أو "مناصر للمرأة" "امرأة" و"مثلي" وما إلى ذلك) غالبًا ما تكون لغة غير لائقة. عندما تُستخدم مجموعات البيانات تنطوي مصنِّفات التدريب على اختلالات كبيرة في التعليقات التي تحتوي على يمكن للمصنِّفات الإفراط في تعميم جميع التعليقات التي تتضمّن تلك الكلمات، لاحتمال أن تكون غير آمنة. الاطّلاع على طريقة فريق Jigsaw التخفيف من هذا التحيز غير المقصود.

مصادر للمطوِّرين