SynthID: أدوات لإضافة العلامات المائية واكتشاف النص الذي تم إنشاؤه باستخدام النموذج اللغوي الكبير (LLM)

يمكن للذكاء الاصطناعي التوليدي (GenAI) إنشاء مجموعة أوسع من البيانات محتوى متنوع على نطاق واسع لم يسبق له تخيله. على الرغم من أنّ غالبية حالات الاستخدام هذه تكون لأغراض مشروعة، إلا أنّ هناك قلقًا من أنّها قد تساهم في نشر معلومات مضلِّلة ومشاكل تحديد مصدر غير صحيح. يُعد وضع العلامات المائية أحد أساليب والتخفيف من هذه التأثيرات المحتملة. العلامات المائية التي لا يلاحظها البشر يمكن تطبيقها على محتوى من إنشاء الذكاء الاصطناعي، ويمكن لنماذج الكشف تسجيل تقييمات عشوائية للإشارة إلى احتمال إضافة علامات مائية إليه.

SynthID هي تقنية من Google DeepMind تضيف علامات مائية إلى المحتوى الذي يتم إنشاؤه باستخدام الذكاء الاصطناعي وتصنّفه، وذلك من خلال تضمين علامات مائية رقمية مباشرةً في الصور أو الملفات الصوتية أو النصوص أو الفيديوهات التي أنشأها الذكاء الاصطناعي. نص SynthID مفتوح المصدر. لإتاحة العلامات المائية لإنشاء النصوص للمطورين. يمكنك قراءة المستند في مقالة Nature للحصول على نموذج تقني أكثر اكتمالاً ووصف الطريقة.

يتوفّر تطبيق SynthID Text على مستوى الإنتاج في Hugging Face Transformers v4.46.0 والإصدارات الأحدث، ويمكنك تجربته في مساحة SynthID Text الرسمية. يتوفّر أيضًا على GitHub تطبيق مرجعي قد يكون مفيدًا لمشرفي المحتوى المفتوحة المصدر والمساهمين الذين يريدون استخدام هذه التقنية في إطارات عمل أخرى.

تطبيق العلامة المائية

من الناحية العملية، SynthID Text هو عبارة عن وحدة معالجة للسجلّات، ويتم تطبيقها على مسار إنشاء النموذج بعد Top-K وTop-P، وتعمل على تعزيز سجلّات النموذج باستخدام دالة g شبه عشوائية لتشفير معلومات وضع العلامة المائية بطريقة توازن بين جودة الإنشاء و إمكانية رصد العلامة المائية. اطّلِع على التقرير للحصول على ووصفًا تقنيًا للخوارزمية وتحليلات مدى اختلاف تؤثر قيم التهيئة في الأداء.

يتم ضبط العلامات المائية لمَعلمة الدالة g وكيفية تطبيقها أثناء الإنشاء. يجب أن يحتوي كل نموذج تستخدمه على إعدادات خاصة بالعلامة المائية يجب تخزينها بأمان وبشكل خاص، وإلا قد يتم نسخ علامتك المائية بسهولة من قِبل الآخرين.

يجب تحديد مَعلمتَين في كلّ إعدادات وضع العلامة المائية:

  • المعلَمة keys هي قائمة بالأعداد الصحيحة الفريدة والعشوائية التي تُستخدَم في تحسب درجات دالة g عبر مفردات النموذج. يحدّد طول هذه القائمة عدد طبقات العلامة المائية التي يتم تطبيقها. اطّلِع على الملحق C.1 في الورقة للحصول على مزيد من التفاصيل.
  • تُستخدَم مَعلمة ngram_len لتحقيق التوازن بين القوة والقابلية للرصد. كلما زادت القيمة، زادت إمكانية اكتشاف العلامة المائية تكون أكثر هشاشة للتغيرات. وتكون القيمة التلقائية الجيدة هي 5.

يمكنك ضبط العلامة المائية بشكلٍ أكبر استنادًا إلى احتياجات الأداء:

  • يتم إعداد جدول أخذ العينات بواسطة موقعَين، هما: sampling_table_size sampling_table_seed تريد استخدام sampling_table_size بقيمة لا تقل عن \( 2^{16} \) لضمان استخدام دالة g غير متحيزة وثابتة عند جمع العيّنات، ولكن اعلم أن حجم جدول العينات يؤثر على مقدار الذاكرة المطلوبة في وقت الاستنتاج. يمكنك استخدام أي عدد صحيح تريده لسمة sampling_table_seed.
  • لا يتم وضع علامة مائية على n-grams المتكرّرة في الرموز المميّزة context_history_size السابقة لتحسين إمكانية رصدها.

لا يلزم إجراء تدريب إضافي لإنشاء نص باستخدام نص SynthID. باستخدام نماذجك، إعدادات وضع العلامات المائية التي يتم تمريرها إلى بنية النموذج طريقة .generate() لتفعيل نص SynthID معالِج البيانات. يمكنك الاطّلاع على مشاركة مدونة ومساحة للاطّلاع على أمثلة عن الرموز البرمجية فيديو يعرض كيفية إضافة علامة مائية في مكتبة Transformers.

رصد العلامات المائية والتحقّق منها

إنّ رصد العلامة المائية يعتمد على الاحتمالية. يتم توفير أداة كاشف بايز مع ميزات تحويل الوجه المعانقة مفعّلة GitHub. ويمكن لأداة الرصد هذه إخراج ثلاثة أنواع من الرصد المحتمل. الحالات - التي تحمل علامة مائية أو ليست علامات مائية أو غير مؤكدة - والسلوك يمكن تخصيصهما عن طريق تعيين قيمتين للحد. يُرجى الاطّلاع على الملحق C.8 في الورقة لمزيد من التفاصيل.

يمكنك ضبط الحدود الدنيا لتحقيق معدّل معيّن للنتائج الإيجابية الزائفة والنتائج السلبية الزائفة في مجموعة من الطلبات أو المدة. راجِع الملحق C.8 في الورقة لمزيد من التفاصيل.

بعد الاستعانة بجهاز رصد مدرَّب، يمكنك اختيار ما إذا كان سيتم كشفه أو كيفية الكشف عنه. والمستخدمين لديك، والجمهور بشكل عام.

  • لا يؤدي خيار الخصوصية الكاملة إلى إزالة أداة رصد الأصوات أو إظهارها بأي شكل من الأشكال.
  • لا يؤدي الخيار شبه خاص إلى إزالة أداة الكشف، ولكنه يعرضها من خلال واجهة برمجة تطبيقات.
  • يتيح الخيار عام إمكانية تنزيل أداة الكشف واستخدامها من قِبل الآخرين.

عليك أنت ومؤسستك تحديد نهج التحقّق من المعلِنين. الأنسب لاحتياجاتك، استنادًا إلى قدرتك على دعم البنية التحتية والعمليات.

القيود

علامات SynthID النصية فعّالة في بعض عمليات التحويل، مثل اقتصاص الأجزاء من النص، أو تعديل بضع كلمات، أو إعادة صياغة خفيفة - ولكن هذه الطريقة قيودها.

  • يكون تطبيق العلامة المائية أقل فعالية في الردود على الأسئلة التي تتطلب تقديم الحقائق، لأنّه ليس هناك فرصة كبيرة لزيادة معدّل إنشاء المحتوى بدون خفض الدقة.
  • يمكن أن تنخفض درجات الثقة في أداة الكشف بشكل كبير عند استخدام نص من إنشاء الذكاء الاصطناعي تتم إعادة كتابته أو ترجمتها إلى لغة أخرى

لا تمثّل تقنية SynthID Text حلاً مباشرًا لمنع الجهات المعادية من إلحاق الضرر. ويزيد ذلك من صعوبة استخدام المحتوى الذي تم إنشاؤه عبر الذكاء الاصطناعي بحثًا عن أي محتوى ضار. ويمكن دمجها مع أساليب أخرى لتقديم تغطية أفضل على مستوى مختلف أنواع المحتوى والمنصات