SynthID: ابزارهایی برای واترمارکینگ و تشخیص متن تولید شده توسط LLM

هوش مصنوعی مولد (GenAI) می‌تواند مجموعه وسیع‌تری از محتوای بسیار متنوع را در مقیاس‌هایی که قبلا تصور نمی‌شد تولید کند. در حالی که اکثر این استفاده برای مقاصد قانونی است، نگرانی وجود دارد که می تواند به مشکلات اطلاعات نادرست و نادرست کمک کند. واترمارکینگ یکی از تکنیک‌های کاهش این اثرات بالقوه است. واترمارک‌هایی که برای انسان غیرقابل تشخیص هستند را می‌توان برای محتوای تولید شده توسط هوش مصنوعی اعمال کرد و مدل‌های تشخیص می‌توانند محتوای دلخواه را برای نشان دادن احتمال واترمارک شدن آن نشان دهند.

SynthID یک فناوری از Google DeepMind است که محتوای تولید شده توسط هوش مصنوعی را با قرار دادن واترمارک دیجیتال مستقیماً در تصاویر، صدا، متن یا ویدیوی تولید شده توسط هوش مصنوعی واترمارک می کند و شناسایی می کند. SynthID Text منبع باز شده است تا واترمارکینگ برای تولید متن در دسترس توسعه دهندگان باشد. برای توضیحات فنی کاملتر روش می توانید مقاله را در نیچر بخوانید.

یک پیاده‌سازی در سطح تولید از SynthID Text در Hugging Face Transformers نسخه 4.46.0+ موجود است که می‌توانید آن را در فضای متن رسمی SynthID امتحان کنید. یک پیاده‌سازی مرجع نیز در GitHub موجود است که ممکن است برای نگهبانان منبع باز و مشارکت‌کنندگانی که به دنبال آوردن این تکنیک به چارچوب‌های دیگر هستند مفید باشد.

برنامه واترمارک

در عمل، SynthID Text یک پردازشگر لاجیت است که بعد از Top-K و Top-P روی خط لوله تولید مدل شما اعمال می شود، که با استفاده از یک تابع g شبه تصادفی، لاجیت های مدل را تقویت می کند تا اطلاعات واترمارکینگ را به گونه ای رمزگذاری کند که به شما کمک کند تعیین کنید آیا متن بدون تأثیر قابل توجهی بر کیفیت متن توسط مدل شما ایجاد شد. برای توضیح فنی کامل الگوریتم و تجزیه و تحلیل چگونگی تأثیر مقادیر مختلف پیکربندی بر عملکرد، مقاله را ببینید.

واترمارک ها برای پارامترسازی تابع g و نحوه اعمال آن در طول تولید پیکربندی شده اند. هر پیکربندی واترمارکی که استفاده می‌کنید باید به‌طور ایمن و خصوصی ذخیره شود ، در غیر این صورت ممکن است واترمارک شما به‌طور بی‌اهمیت توسط دیگران قابل تکرار باشد.

در هر پیکربندی واترمارکینگ باید دو پارامتر تعریف کنید:

  • پارامتر keys فهرستی از اعداد صحیح تصادفی و منحصر به فرد است که برای محاسبه امتیازات تابع g در واژگان مدل استفاده می شود. طول این لیست تعیین می کند که چند لایه واترمارک اعمال شود. برای جزئیات بیشتر به پیوست C.1 در مقاله مراجعه کنید.
  • پارامتر ngram_len برای متعادل کردن استحکام و قابلیت تشخیص استفاده می شود. هرچه این مقدار بزرگتر باشد، واترمارک قابل تشخیص تر خواهد بود، به قیمت شکننده تر شدن تغییرات. طول 5 یک مقدار پیش فرض خوب است.

همچنین می‌توانید واترمارک را بر اساس نیازهای عملکرد خود پیکربندی کنید:

  • یک جدول نمونه‌برداری با دو ویژگی sampling_table_size و sampling_table_seed پیکربندی می‌شود. شما می خواهید از اندازه sampling_table_size استفاده کنید\( 2^{16} \) برای اطمینان از یک تابع g بی طرفانه و پایدار هنگام نمونه برداری، اما توجه داشته باشید که اندازه جدول نمونه بر مقدار حافظه مورد نیاز در زمان استنتاج تأثیر می گذارد. می توانید از هر عدد صحیحی که دوست دارید به عنوان sampling_table_seed استفاده کنید.
  • n- گرم های مکرر در توکن های context_history_size قبلی برای بهبود قابلیت تشخیص واترمارک نمی شوند.

برای تولید متن با واترمارک SynthID Text با استفاده از مدل‌های شما، هیچ آموزش اضافی لازم نیست، فقط یک پیکربندی واترمارکینگ که به روش .generate() مدل منتقل می‌شود تا پردازنده SynthID Text logits را فعال کند. برای نمونه کدهایی که نحوه اعمال واترمارک در کتابخانه Transformers را نشان می دهد، پست وبلاگ و Space را ببینید.

تشخیص واترمارک و قابلیت تأیید

تشخیص واترمارک احتمالی است. یک آشکارساز بیزی با ترانسفورماتورهای صورت در آغوش گرفته و در GitHub ارائه شده است. این آشکارساز می‌تواند سه حالت تشخیص احتمالی را تولید کند - واترمارک شده، بدون واترمارک یا نامشخص - و رفتار را می‌توان با تنظیم دو مقدار آستانه برای دستیابی به نرخ مثبت کاذب و منفی کاذب خاص سفارشی کرد. برای جزئیات بیشتر به پیوست C.8 در مقاله مراجعه کنید.

مدل‌هایی که از توکنایزر یکسانی استفاده می‌کنند، می‌توانند پیکربندی واترمارک و آشکارساز را نیز به اشتراک بگذارند، بنابراین یک واترمارک مشترک را به اشتراک می‌گذارند، تا زمانی که مجموعه آموزشی آشکارساز شامل نمونه‌هایی از همه مدل‌هایی باشد که واترمارک مشترک دارند.

هنگامی که یک آشکارساز آموزش دیده دارید، می توانید انتخاب کنید که آیا و چگونه آن را در معرض دید کاربران خود و عموم مردم قرار دهید.

  • گزینه کاملاً خصوصی به هیچ وجه آشکارساز را آزاد یا در معرض دید قرار نمی دهد.
  • گزینه نیمه خصوصی آشکارساز را آزاد نمی کند، اما آن را از طریق یک API آشکار می کند.
  • گزینه عمومی آشکارساز را برای دانلود و استفاده دیگران آزاد می کند.

شما و سازمانتان باید بر اساس توانایی شما در پشتیبانی از زیرساخت ها و فرآیندهای مرتبط، تصمیم بگیرید که کدام رویکرد تأیید تشخیص برای نیازهای شما بهترین است.

محدودیت ها

واترمارک های متنی SynthID برای برخی از تبدیل ها قوی هستند - برش قطعات متن، اصلاح چند کلمه یا بازنویسی ملایم - اما این روش محدودیت هایی دارد.

  • کاربرد واترمارک روی پاسخ‌های واقعی کمتر مؤثر است، زیرا فرصت کمتری برای افزایش تولید بدون کاهش دقت وجود دارد.
  • هنگامی که یک متن تولید شده توسط هوش مصنوعی به طور کامل بازنویسی شود یا به زبان دیگری ترجمه شود، امتیازات اطمینان آشکارساز را می توان تا حد زیادی کاهش داد.

SynthID Text برای متوقف کردن مستقیم دشمنان با انگیزه از ایجاد آسیب طراحی نشده است. با این حال، می‌تواند استفاده از محتوای تولید شده توسط هوش مصنوعی را برای اهداف مخرب سخت‌تر کند، و می‌توان آن را با روش‌های دیگر ترکیب کرد تا پوشش بهتری در انواع محتوا و پلتفرم‌ها ایجاد کند.