غالبًا ما تعتمد تطبيقات الذكاء الاصطناعي التوليدي على فلترة بيانات الإدخالات والمخرجات التي يُشار إليها أحيانًا باسم تدابير الوقاية، للمساعدة في ضمان تقديم نموذج مسؤول السلوك. تتحقّق أساليب فلترة الإدخال والمخرجات من البيانات التي يتم نقلها إلى من النموذج يتوافق مع السياسات التي التحديد لتطبيقك. تُستخدَم عادةً مصنِّفات الإدخال لفلترة البيانات. المحتوى غير المعدّ لاستخدامه في تطبيقك والذي قد قد تؤدي إلى انتهاك النموذج لسياسات الأمان لديك. تستهدف فلاتر الإدخال غالبًا الهجمات الخادعة التي تحاول التحايل على سياسات المحتوى لديك. نتيجة واحدة تعمل المصنِّفات مع فلتر إضافي في التدريب على الأمان. إخراج النموذج، وتسجيل المخرجات التي قد تنتهك سياسات الأمان لديك. ننصحك باستخدام مصنِّفات تغطّي جميع سياسات المحتوى.
الوقاية الجاهزة
وحتى مع الضبط المسبق للأمان ونموذج المطالبة المصمم جيدًا، من من الممكن لنموذجك لإصدار محتوى يؤدي إلى حدوث ضرر غير مقصود. يمكن أن تضيف مصنِّفات المحتوى الجاهز طبقة حماية إضافية إلى من أجل تعزيز هذه الاحتمالية في أنواع معيّنة من انتهاكات السياسات.
ShieldGemma
ShieldGemma هي مجموعة من الأدوات المفتوحة الجاهزة نماذج مصنِّف محتوى الأوزان، التي تستند إلى Gemma 2، والتي يمكنها تحديد ما إذا كان المحتوى الذي يقدمه المستخدم أو المحتوى الذي ينشئه النموذج أو المختلط ينتهك سياسة أمان المحتوى. تم تدريب ShieldGemma على رصد أربعة أضرار (جنسية) والمحتوى الخطير والمضايقات والكلام الذي يحض على الكراهية) ويندرج ضمن ثلاث فئات المتغيرات من فئة الحجم - 2B و9B و27B - التي تسمح لك بما يلي: تحقيق التوازن بين السرعة والأداء وإمكانية التعميم لتلبية احتياجاتك خلال النشر. راجِع بطاقة النموذج للاطّلاع على مزيد من المعلومات عن الفرق بين هذه الصيغ.
حماية نماذجك باستخدام ShieldGemma
بدء Google Colab (Keras) | بدء Google Colab (المحولات) |
يمكنك استخدام نماذج ShieldGemma في أُطر العمل التالية.
- KerasNLP، مع نقاط فحص للنماذج متاحة من Kaggle: ننصحك بالاطّلاع على للبدء، يُرجى استخدام ShieldGemma في Keras Colab.
- تطبيقات تحويل الوجه عناق، مع توفُّر نقاط فحص للنماذج من Hugging Face Hub ننصحك بالاطّلاع على يُرجى ShieldGemma في Transformers Colab للحصول على البدء.
مستندة إلى واجهة برمجة التطبيقات
توفّر Google أدوات تصنيف مستندة إلى واجهة برمجة التطبيقات للحفاظ على أمان المحتوى، ويمكن استخدامها من أجل فلترة مدخلات ومخرجات النظام:
- Perspective API هي واجهة برمجة تطبيقات مجانية تستخدم الأجهزة نماذج تعليمية لتقييم التأثير الملحوظ الذي قد يحدثه تعليق على محادثة. فهي توفر درجات تحدد احتمالية ما إذا كان يكون التعليق غير لائق أو تهديدي أو مهين أو خارج الموضوع.
- خدمة الإشراف على الرسائل النصية هي إحدى واجهات Google Cloud API التي متاحة للاستخدام دون حد معيّن للاستخدام التعلم الآلي لتحليل مستند وفقًا لقائمة من بما في ذلك الفئات والمواضيع المختلفة التي قد تكون ضارة حساسًا.
من المهم تقييم مدى توافق المصنِّفات الجاهزة مع سياستك. وأهدافه، وتقييم حالات الفشل نوعيًا. من المهم أيضًا أن ولاحظ أن الإفراط في التصفية يمكن أن يؤدي أيضًا إلى ضرر غير مقصود وكذلك تقليل فائدة التطبيق، مما يعني أنه من المهم أيضًا مراجعة الحالات التي قد يحدث فيها إفراط في التصفية. لمزيد من التفاصيل حول عملية التقييم هذه يُرجى الاطّلاع على تقييم النموذج والنظام للتأكّد من الأمان.
إنشاء مصنِّفات أمان مخصّصة
هناك العديد من الأسباب التي قد تجعل الوقاية الجاهزة غير مناسبة حالة استخدامك، مثل وجود سياسة غير مدعومة، أو تريد يمكنك تعزيز حماية نظامك باستخدام البيانات التي لاحظت أنّها تؤثر في نظامك. ضِمن في هذه الحالة، توفر مصنِّفات أجايل مقياسًا فعالاً لإنشاء إجراءات وقاية مخصَّصة من خلال ضبط النماذج، مثل جيما، لتناسب احتياجاتك. كما أنها تسمح لك بالتحكم الكامل في مكان وكيفية نشرها.
البرامج التعليمية الخاصة بمصنِّف Gemma Agile
بدء الدرس التطبيقي حول الترميز | بدء Google Colab |
يميّز المصنِّفات المرنة codelab برنامج تعليمي استخدام LoRA لتحسين Gemma ليكون بمثابة مصنِّف للإشراف على المحتوى باستخدام KerasNLP المكتبة. باستخدام 200 مثال فقط من مجموعة بيانات EHOS، حقّق المصنِّف نتيجة F1 تبلغ 0.80 ونتيجة RoC-AUC من 0.78، والتي تقارن بشكل إيجابي بالأحدث نتائج قوائم الصدارة وعند تدريبه على 800 مثال، مثل المصنِّفات الأخرى على قائمة الصدارة، يستخدم المصنِّف الرشيق المستند إلى "جيما" حقّق نتيجة F1 بلغت 83.74 ودرجة ROC-AUC لـ 88.17. يمكنك تكييف تعليمات تعليمية لتحسين هذا المصنِّف أو لإنشاء تصنيفك الخاص إجراءات الوقاية الخاصة بأداة تصنيف الأمان المخصّصة
أفضل الممارسات لإعداد إجراءات الوقاية
وننصح بشدة باستخدام أدوات تصنيف السلامة كإجراء وقائي. ومع ذلك، أن هذه القيود قد تؤدي إلى عدم إنتاج النموذج التوليدي لأي شيء المستخدم، إذا كان المحتوى محظورًا. يجب تصميم التطبيقات لمعالجة هذه المشكلة. الحالة. تتعامل معظم برامج تتبع المحادثات الشائعة مع هذا من خلال تقديم إجابات جاهزة ("أنا عذرًا، أنا نموذج لغوي، ولا يمكنني مساعدتك في هذا الطلب").
تحقيق التوازن الصحيح بين الفائدة والضرر: عند استخدام مصنِّفات الأمان، ينبغي أن تفهم أنهم يرتكبون أخطاءً، بما في ذلك النتائج الموجبة الخاطئة (على سبيل المثال، الادعاء بأن أحد المخرجات غير آمن في حال كان not) والعناصر السالبة الخاطئة (عدم تصنيف الناتج على أنه غير آمن، عندما يكون كذلك). من وتقييم المصنِّفات باستخدام مقاييس مثل F1 والدقة والتذكر وAUC-ROC، يمكنك تحديد كيف تريد التمييز بين موجب خاطئ وخطأ من الأخطاء السلبية. ومن خلال تغيير حد المصنِّفات، فإنك تساعد في إيجاد التوازن المثالي الذي يتجنب المخرجات المفرطة في التصفية مع الاستمرار في توفير الأمان المناسب.
التحقّق من المصنِّفات بحثًا عن أي التحيّزات غير المقصودة: أدوات تصنيف الأمان، مثل أي آخر من نماذج تعلُّم الآلة، إلى نشر الانحيازات غير المقصودة، مثل المحتوى الاجتماعي الثقافي والصور النمطية. ينبغي تقييم الطلبات بشكل مناسب للتأكد من والسلوكيات الإشكالية. وعلى وجه الخصوص، يمكن لمصنِّفات أمان المحتوى المحتوى المرتبط بالهويات التي تظهر بشكل متكرر اللغة المسيئة التي تستهدفه على الإنترنت. على سبيل المثال، عندما تم إطلاق Perspective API تم إطلاق النموذج لأوّل مرّة، فنحصل على نتائج أعلى من اللغة غير اللائقة في التعليقات. الإشارة إلى مجموعات هويات معيّنة (مدونة). يؤدي هذا الإفراط في لأن التعليقات التي تشير إلى مصطلحات الهوية تتضمن معلومات الفئات المستهدفة بشكل متكرر (على سبيل المثال، كلمات مثل "أسود" أو "مسلم" أو "مناصر للمرأة" "امرأة" و"مثلي" وما إلى ذلك) غالبًا ما تكون لغة غير لائقة. عندما تُستخدم مجموعات البيانات تنطوي مصنِّفات التدريب على اختلالات كبيرة في التعليقات التي تحتوي على يمكن للمصنِّفات الإفراط في تعميم جميع التعليقات التي تتضمّن تلك الكلمات، لاحتمال أن تكون غير آمنة. الاطّلاع على طريقة فريق Jigsaw التخفيف من هذا التحيز غير المقصود.
مصادر للمطوِّرين
- Perspective API: لتحديد المحتوى غير اللائق.
- خدمة الإشراف على النصوص: لعملاء Google Cloud.