حماية نماذجك

تعد منتجات الذكاء الاصطناعي التوليدي (GenAI) جديدة نسبيًا يمكن أن تختلف سلوكياتهم أكثر من أشكال البرامج السابقة. تدابير الوقاية التي تحمي منتجك من إساءة استخدام إمكانات الذكاء الاصطناعي التوليدي، يجب أن تتكيف مع لطيف. يوضّح هذا الدليل كيفية استخدام الامتثال لسياسة المحتوى. مربّعات الاختيار وأدوات إضافة العلامات المائية لحماية منتجاتك المستندة إلى الذكاء الاصطناعي التوليدي

الامتثال لسياسة المحتوى

حتى مع وجود ضبط مسبق للأمان ومصمم جيدًا نموذج الطلب: يمكن استخدامه للذكاء الاصطناعي التوليدي المنتج لإخراج محتوى يؤدي إلى حدوث ضرر غير مقصود. غالبًا ما تعتمد منتجات الذكاء الاصطناعي التوليدي على فلترة المدخلات والمخرجات لضمان سلوك النموذج المسؤول. تتحقّق هذه التقنيات من امتثال البيانات التي تدخل إلى النموذج أو تخرج منه لسياساتك، وذلك غالبًا من خلال إجراء تدريب إضافي على الأمان لإنشاء نموذج لتصنيف المحتوى.

تُستخدَم مصنِّفات الإدخال لفلترة المحتوى المباشر أو الذي قد يكون وحث النموذج على إنشاء محتوى ينتهك سياسات المحتوى غالبًا ما تستهدف فلاتر الإدخال هجمات التصيُّد التي تحاول التحايل على سياسات المحتوى.

تعمل مصنِّفات الإخراج على فلترة مخرجات النموذج، ورصد المحتوى الذي يتم إنشاؤه والذي ينتهك سياسات الأمان لديك. يمكن أن تؤدي المراقبة الدقيقة لسلوكيات رفض المحتوى إلى الكشف عن فئات جديدة من الطلبات التي يمكن استخدامها لتحسين فلاتر الإدخال أو زيادتها.

ننصحك باستخدام تصنيفات تغطّي جميع سياسات المحتوى لديك. قد تتمكّن من تحقيق ذلك باستخدام المصنّفات الجاهزة، أو قد تحتاج إلى إنشاء مصنّفات مخصّصة متوافقة مع سياساتك المحدّدة.

يُعدّ التوازن أيضًا عاملاً رئيسيًا. وقد ينتج عن الاستخدام المفرط للفلاتر ضررًا غير مقصود أو تقليل فائدة التطبيق تأكد من مراجعة الحالات التي قد تنطوي فيها التصفية يحدث بالفعل. يمكنك الاطّلاع على دليل تقييم الأمان للمزيد من المعلومات.

مصنِّفات سياسة المحتوى الجاهز

تضيف مصنِّفات المحتوى الجاهزة طبقة حماية إضافية إلى تدريب حول الأمان الكامن في النموذج، مما يخفف من احتمالية حدوث أنواع انتهاكات السياسة. وتأتي هذه الرسائل بشكل عام بطريقتَين:

  1. يمكن للمصنِّفات التي تتم استضافتها ذاتيًا، مثل ShieldGemma، تنزيلها واستضافتها على مجموعة متنوعة من البُنى، بما في ذلك Cloud مثل Google Cloud والأجهزة المملوكة للقطاع الخاص وبعض المصنِّفات يمكنها حتى العمل على الجهاز لتطبيقات الأجهزة المحمولة.
  2. يتم توفير المصنِّفات المستندة إلى واجهة برمجة التطبيقات كخدمات تقدم كميات كبيرة من وقت الاستجابة المنخفض مقابل مجموعة متنوعة من السياسات. توفّر Google ثلاث خدمات قد تهمّك:
    • توفّر منصة Checks AI Safety تقييمات للامتثال ولوحات المعلومات التي تدعم تقييم ومراقبة النماذج. أمان الذكاء الاصطناعي في إصدار تجريبي مفتوح، يُرجى الاشتراك في الأخبار والوصول إليها والعروض التوضيحية.
    • خدمة الإشراف على الرسائل النصية هي إحدى خدمات Google Cloud API يحلّل النصوص بحثًا عن انتهاكات السلامة، بما في ذلك الفئات الضارة ومواضيع حساسة، وتخضع لمعدلات الاستخدام.
    • Perspective API هي واجهة برمجة تطبيقات مجانية تستخدم الأجهزة نماذج تعليمية لتقييم التأثير الملحوظ الذي قد يحدثه تعليق على محادثة. ويوفر درجات توضح احتمالية إذا كان التعليق غير لائق أو تهديدي أو مهين أو خارج عن الموضوع

من المهم تقييم مدى توافق المصنِّفات الجاهزة مع سياستك. وأهدافه، وتقييم حالات الفشل نوعيًا.

مصنِّفات سياسة المحتوى المخصّص

تعتبر مصنِّفات سياسة المحتوى الجاهزة بداية ممتازة، إلا أنها بما في ذلك:

  • تصنيف ثابت للسياسات قد لا يرتبط بجميع سياسات المحتوى أو لا يشملها
  • متطلبات الأجهزة والاتصال التي قد لا تكون مناسبة للبيئة التي سيتم نشر تطبيقك المستنِد إلى الذكاء الاصطناعي التوليدي فيها
  • الأسعار والقيود الأخرى المفروضة على الاستخدام

قد تكون فئات سياسة المحتوى المخصّصة إحدى الطرق لحلّ هذه القيود، وتقدّم طريقة الفئات المرنة إطار عمل فعالًا ومرنًا لإنشائها. بما أنّ هذه الطريقة تعمل على ضبط نموذج لأغراض السلامة، احرص على مراجعة أساسيات ضبط النموذج.

تحديد المحتوى من إنشاء الذكاء الاصطناعي باستخدام علامات مائية نصية من SynthID

يمكن للذكاء الاصطناعي التوليدي إنشاء مجموعة أكبر من المحتوى المتنوّع للغاية على نطاقٍ لم يسبق له مثيل. على الرغم من أنّ معظم هذا الاستخدام يكون لأغراض مشروعة، إلا أنّ هناك قلقًا بشأن احتمال أن يؤدي ذلك إلى نشر معلومات خاطئة ومشاكل في تحديد المصدر. ويُعد وضع العلامات المائية أحد الأساليب للتخفيف من هذه التأثيرات المحتملة. العلامات المائية غير المرئية للأشخاص يمكن تطبيقها على المحتوى الذي يتم إنشاؤه عبر الذكاء الاصطناعي تصنيف المحتوى العشوائي لنماذج الكشف للإشارة إلى احتمال قد تم وضع علامة مائية عليها.

SynthID هي تكنولوجيا من Google DeepMind تضيف علامات مائية إلى المحتوى الذي يتم إنشاؤه باستخدام الذكاء الاصطناعي وتصنّفه، وذلك من خلال تضمين علامات مائية رقمية مباشرةً في الصور أو الملفات الصوتية أو النصوص أو الفيديوهات التي تم إنشاؤها باستخدام الذكاء الاصطناعي. نص SynthID هو المتاحة للإنتاج في Hugging Face Transformers، اطلع على ورقة البحث والمستندات لمعرفة المزيد حول كيفية استخدام SynthID في تطبيقك.

توفّر Google Cloud إمكانات إضافة علامة مائية باستخدام SynthID لأنواع بيانات أخرى، مثل الصور التي تم إنشاؤها باستخدام Imagen، لعملاء Vertex AI.

أفضل الممارسات لإعداد إجراءات الوقاية

وننصح بشدة باستخدام أدوات تصنيف السلامة كإجراء وقائي. ومع ذلك، يمكن أن تؤدي حدود المحتوى إلى عدم إنتاج النموذج التوليدي أي محتوى للمستخدم إذا تم حظر المحتوى. يجب تصميم التطبيقات لمعالجة هذه المشكلة. الحالة. تتعامل معظم برامج المحادثة الشائعة مع هذه المشكلة من خلال تقديم إجابات جاهزة ("عذراً، أنا نموذج لغوي، لا يمكنني مساعدتك في هذا الطلب").

تحقيق التوازن الصحيح بين المساعدة وعدم إلحاق الضرر: عند استخدام أدوات تصنيف السلامة، من المهم معرفة أنّها سترتكب أخطاء، بما في ذلك النتائج الإيجابية الزائفة (مثل الادعاء بأنّ النتيجة غير آمنة عندما تكون غير آمنة) والنتائج السلبية الزائفة (عدم تصنيف النتيجة على أنّها غير آمنة عندما تكون كذلك). من وتقييم المصنِّفات باستخدام مقاييس مثل F1 والدقة والتذكر وAUC-ROC، يمكنك تحديد كيف تريد مقايضة بين موجب خاطئ وخطأ من الأخطاء السلبية. ومن خلال تغيير حد المصنِّفات، فإنك تساعد في إيجاد التوازن المثالي الذي يتجنب المخرجات المفرطة في التصفية مع الاستمرار في توفير الأمان المناسب.

التحقّق من المصنِّفات بحثًا عن أي التحيّزات غير المقصودة: أدوات تصنيف الأمان، مثل أي آخر من نماذج تعلُّم الآلة، إلى نشر الانحيازات غير المقصودة، مثل المحتوى الاجتماعي الثقافي والصور النمطية. يجب تقييم التطبيقات بشكلٍ مناسب بحثًا عن السلوكيات التي يُحتمل أن تؤدي إلى مشاكل. على وجه الخصوص، يمكن أن تؤدي أدوات تصنيف أمان المحتوى إلى الاستجابة بشكل مفرط للمحتوى المرتبط بهويات تشكل غالباً هدفًا للغة المسيئة على الإنترنت. على سبيل المثال، عندما تم إطلاق Perspective API تم إطلاق النموذج لأوّل مرّة، فنحصل على نتائج أعلى من حيث اللغة غير اللائقة في التعليقات. الإشارة إلى مجموعات هويات معيّنة (مدونة). يمكن أن يحدث هذا السلوك المفرط في التحفيز لأنّ التعليقات التي تشير إلى مصطلحات الهوية للمجموعات التي يتم استهدافها بشكل متكرر (مثل كلمات مثل "أسود" و"مسلم" و"نسوية" و"امرأة" و"مثلي الجنس" وما إلى ذلك) تكون في أغلب الأحيان مسيئة بطبيعتها. عندما تتضمّن مجموعات البيانات المستخدَمة لتدريب الأدوات المصنّفة اختلالات كبيرة في التعليقات التي تحتوي على كلمات معيّنة، يمكن للأدوات المصنّفة التعميم بشكل مفرط واعتبار أنّ جميع التعليقات التي تحتوي على هذه الكلمات قد تكون غير آمنة. اطّلِع على كيفية تخفيف فريق Jigsaw لهذا الانحياز غير المقصود.

مصادر للمطوِّرين