يمكن للذكاء الاصطناعي التوليدي إنشاء مجموعة أوسع من المحتوى المتنوع للغاية على نطاق لم يكن متوقّعًا من قبل. على الرغم من أنّ غالبية حالات الاستخدام هذه تكون لأغراض مشروعة، إلا أنّ هناك قلقًا من أنّها قد تساهم في نشر معلومات مضلِّلة ومشاكل تحديد مصدر غير صحيح. تشكّل وضع العلامة المائية أحد الأساليب التي تساعد في التخفيف من هذه التأثيرات المحتملة. يمكن تطبيق علامات مائية غير مرئية للبشر على المحتوى من إنشاء الذكاء الاصطناعي، ويمكن لنماذج رصد المحتوى منح تقييمات لمحتوى عشوائي للإشارة إلى احتمالية وضع علامة مائية عليه.
SynthID هي تقنية من Google DeepMind تُستخدَم لوضع علامات مائية على المحتوى الذي يتم إنشاؤه باستخدام الذكاء الاصطناعي وتحديد مصدره، وذلك من خلال تضمين علامات مائية رقمية مباشرةً في الصور أو الملفات الصوتية أو النصوص أو الفيديوهات التي يتم إنشاؤها باستخدام الذكاء الاصطناعي. تم إتاحة SynthID Text مفتوح المصدر لإتاحة وضع العلامات المائية لإنشاء النصوص للمطوّرين. يمكنك قراءة المستند في Nature للحصول على وصف فني كامل عن الطريقة.
يتوفّر تطبيق SynthID Text على مستوى الإنتاج في Hugging Face Transformers v4.46.0 والإصدارات الأحدث، ويمكنك تجربته في مساحة SynthID Text الرسمية. يتوفّر أيضًا على GitHub تطبيق مرجعي قد يكون مفيدًا لمشرفي المحتوى المفتوحة المصدر والمساهمين الذين يريدون استخدام هذه التقنية في إطارات عمل أخرى.
تطبيق العلامة المائية
من الناحية العملية، SynthID Text هو عبارة عن وحدة معالجة للسجلّات، ويتم تطبيقها على مسار إنشاء النموذج بعد Top-K وTop-P، وتعمل على تعزيز سجلّات النموذج باستخدام دالة g شبه عشوائية لتشفير معلومات وضع العلامة المائية بطريقة تساعدك في تحديد ما إذا كان النموذج قد أنشأ النص، بدون التأثير بشكل كبير في جودة النص. اطّلِع على المقالة للحصول على وصف فني كامل للخوارزمية وتحليلات عن كيفية تأثير قيم الضبط المختلفة في الأداء.
يتم ضبط العلامات المائية لإعداد مَعلمات للدالة g وطريقة تطبيقها أثناء الإنشاء. يجبتخزين كل إعدادات وضع العلامة المائية التي تستخدمها بأمان وبشكل خاص، وإلا قد يتم نسخ علامتك المائية بسهولة من قِبل الآخرين.
يجب تحديد مَعلمتَين في كلّ إعدادات وضع العلامة المائية:
- المَعلمة
keys
هي قائمة بأرقام صحيحة عشوائية وفريدة تُستخدَم للقيام بحساب نتائج الدالة g في جميع مفردات النموذج. يحدّد طول هذه القائمة عدد طبقات العلامة المائية التي يتم تطبيقها. اطّلِع على الملحق C.1 في الورقة للحصول على مزيد من التفاصيل. - تُستخدَم المَعلمة
ngram_len
لتحقيق التوازن بين المتانة وإمكانية رصد العلامة المائية، فكلما كانت القيمة أكبر، كان من الأسهل رصد العلامة المائية، ولكن مع التكلفة المتمثّلة في التعرّض بشكل أكبر للتغييرات. وتكون القيمة التلقائية الجيدة هي 5.
يمكنك ضبط العلامة المائية بشكلٍ أكبر استنادًا إلى احتياجات الأداء:
- يتمّ إعداد جدول عيّنات باستخدام سمتَين، وهما
sampling_table_size
وsampling_table_seed
. تريد استخدامsampling_table_size
لا يقل عن 216 لضمان الحصول على دالة g غير متحيّزة ومستقرة عند أخذ العيّنات، ولكن عليك الانتباه إلى أنّ حجم جدول أخذ العيّنات يؤثر في مقدار الذاكرة المطلوبة في وقت الاستنتاج. يمكنك استخدام أي عدد صحيح تريده لسمةsampling_table_seed
. - لا يتم وضع علامة مائية على n-grams المتكرّرة في الرموز المميّزة ال
context_history_size
السابقة لتحسين إمكانية رصدها.
لا يلزم إجراء تدريب إضافي لإنشاء نص يتضمّن علامة مائية لنص SynthID باستخدام نماذجك، ما عليك سوى تحديد
إعدادات إضافة العلامة المائية التي يتم تمريرها إلى .generate()
في النموذج لتفعيل معالج سجلّات الأركان الأساسية لنص SynthID. يمكنك الاطّلاع على مشاركة المدونة وSpace للحصول على أمثلة على الرموز البرمجية التي توضّح كيفية تطبيق علامة مائية في مكتبة Transformers.
رصد العلامة المائية والتحقّق منها
إنّ رصد العلامة المائية يعتمد على الاحتمالية. يتوفّر أداة رصد باستخدام نموذج بايزي مع Hugging Face Transformers وعلى GitHub. يمكن أن يعرض هذا الكاشف ثلاث حالات محتملة للرصد: تم وضع علامة مائية أو لم يتم وضع علامة مائية أو غير مؤكد، ويمكن تخصيص السلوك من خلال ضبط قيمتَي حدّ لتحقيق معدّل محدّد للخطأ الإيجابي والمخطأ السلبي. يُرجى الاطّلاع على الملحق C.8 في الورقة لمزيد من التفاصيل.
يمكن للنماذج التي تستخدم أداة تقسيم الكلمات نفسها أيضًا مشاركة إعدادات وضع العلامة المائية و أداة رصدها، وبالتالي مشاركة علامة مائية شائعة، ما دامت مجموعة تدريب أداة الرصد تتضمّن أمثلة من جميع النماذج التي تشارك العلامة المائية.
بعد أن يكون لديك نظام رصد مدرَّب، يمكنك اختيار ما إذا كنت تريد إظهاره للمستخدمين والجمهور بشكل عام، وكيفية إظهاره.
- لا يؤدي خيار الخصوصية الكاملة إلى إزالة أداة رصد الأصوات أو إظهارها بأي شكل من الأشكال.
- لا يؤدي الخيار شبه خاص إلى إزالة أداة الكشف، ولكنه يعرضها من خلال واجهة برمجة تطبيقات.
- يؤدي خيار الإصدار العلني إلى إتاحة أداة رصد الفيروسات للآخرين لتنزيلها واستخدامها.
عليك أنت ومؤسستك تحديد منهج التحقّق من رصد التهديدات الذي يناسب احتياجاتك، استنادًا إلى قدرتك على إتاحة البنية الأساسية والعمليات المرتبطة.
القيود
إنّ علامات مائية النص SynthID مقاومة لبعض عمليات التحويل، مثل اقتصاص أجزاء من النص أو تعديل بعض الكلمات أو إعادة الصياغة بشكل بسيط، ولكن لهذه الطريقة قيود.
- يكون تطبيق العلامة المائية أقل فعالية في الردود على الأسئلة التي تتطلب تقديم الحقائق، لأنّه ليس هناك فرصة كبيرة لتحسين عملية الإنشاء بدون خفض الدقة.
- يمكن أن تنخفض بشكل كبير نتائج ثقة أداة الرصد عندما يتم إعادة كتابة نص أنشأه الذكاء الاصطناعي بدقة أو ترجمته إلى لغة أخرى.
لا تمثّل تقنية SynthID Text حلاً مباشرًا لمنع الجهات المعادية من إلحاق الضرر بمستخدمي الإنترنت. ومع ذلك، يمكن أن تصعِّب هذه الميزة استخدام المحتوى من إنشاء الذكاء الاصطناعي لأغراض ضارّة، ويمكن دمجها مع طرق أخرى لتوفير تغطية أفضل على مستوى أنواع المحتوى والمنصّات.