محصولات هوش مصنوعی مولد (GenAI) نسبتا جدید هستند و رفتارهای آنها می تواند بیشتر از نرم افزارهای قبلی متفاوت باشد. ضمانتهایی که از محصول شما در برابر سوء استفاده از قابلیتهای GenAI محافظت میکنند، باید در نوع خود سازگار شوند. این راهنما توضیح میدهد که چگونه میتوانید از چککنندههای انطباق خطمشی محتوا و ابزارهای واترمارک برای محافظت از محصولات دارای GenAI خود استفاده کنید.
مطابقت با خط مشی محتوا
حتی با تنظیم قبلی برای ایمنی و یک الگوی سریع طراحی شده، این امکان برای محصول GenAI شما وجود دارد که محتوایی را تولید کند که منجر به آسیب ناخواسته شود. محصولات GenAI اغلب به فیلتر ورودی و خروجی برای اطمینان از رفتار مدل مسئولانه متکی هستند. این تکنیکها بررسی میکنند که دادههای وارد شده به مدل یا خروجی از آن با خطمشیهای شما مطابقت دارد، اغلب با انجام آموزشهای ایمنی اضافی برای ایجاد یک مدل طبقهبندیکننده محتوا.
طبقهبندیکننده ورودی برای فیلتر کردن محتوایی استفاده میشود که مستقیماً است یا ممکن است باعث شود مدل شما محتوایی تولید کند که خطمشیهای محتوای شما را نقض میکند. فیلترهای ورودی اغلب حملات خصمانه ای را هدف قرار می دهند که سعی در دور زدن خط مشی های محتوای شما دارند.
طبقهبندیکننده خروجی خروجی مدل را فیلتر میکند و محتوای تولید شده را که خطمشیهای ایمنی شما را نقض میکند، میگیرد. نظارت دقیق بر رفتارهای رد محتوای شما می تواند دسته های جدیدی از اعلان ها را نشان دهد که می توانند برای تقویت یا بهبود فیلترهای ورودی استفاده شوند.
توصیه می شود طبقه بندی کننده هایی داشته باشید که تمام خط مشی های محتوای شما را پوشش دهد. ممکن است بتوانید با استفاده از طبقهبندیکنندههای آماده به این هدف دست یابید، یا ممکن است لازم باشد طبقهبندیکنندههای سفارشی ایجاد کنید که از سیاستهای خاص شما پشتیبانی میکنند.
تعادل نیز کلیدی است. فیلتر بیش از حد می تواند منجر به آسیب ناخواسته شود، یا کاربرد برنامه را کاهش دهد. مواردی را که ممکن است فیلتر بیش از حد اتفاق بیفتد را حتما بررسی کنید. برای اطلاعات بیشتر به راهنمای ارزیابی ایمنی مراجعه کنید.
طبقه بندی خط مشی محتوای آماده
طبقهبندیکنندههای محتوای آماده، یک لایه حفاظتی اضافی به آموزش ایمنی ذاتی مدل اضافه میکنند، که احتمال بروز انواع خاصی از نقض خطمشی را کاهش میدهد. آنها به طور کلی در دو نوع هستند:
- طبقهبندیکنندههای خود میزبان مانند ShieldGemma را میتوان در معماریهای مختلفی دانلود و میزبانی کرد، از جمله پلتفرمهای ابری مانند Google Cloud، سختافزارهای خصوصی، و برخی طبقهبندیکنندهها حتی میتوانند روی دستگاه برای برنامههای تلفن همراه اجرا شوند.
- طبقهبندیکنندههای مبتنی بر API بهعنوان خدماتی ارائه میشوند که طبقهبندی با حجم بالا و تأخیر کم را در برابر انواع سیاستها ارائه میکنند. گوگل سه سرویس ارائه می دهد که ممکن است مورد علاقه باشد:
- چکهای AI Safety ارزیابیهای انطباق و داشبوردهایی را ارائه میکند که از ارزیابی و نظارت مدل پشتیبانی میکنند. ابزار ایمنی هوش مصنوعی در نسخه بتا باز است، برای اخبار، دسترسی و دموها ثبت نام کنید .
- سرویس تعدیل نوشتار یک API Google Cloud است که متن را برای نقض ایمنی، از جمله دستههای مضر و موضوعات حساس، مشروط به نرخ استفاده ، تجزیه و تحلیل میکند.
- Perspective API یک API رایگان است که از مدلهای یادگیری ماشینی استفاده میکند تا تأثیر درک شده را که ممکن است یک نظر بر روی یک مکالمه داشته باشد، ارزیابی میکند. این امتیازاتی را ارائه می دهد که احتمال سمی، تهدیدآمیز، توهین آمیز یا خارج از موضوع بودن یک نظر را نشان می دهد.
ارزیابی اینکه طبقهبندیکنندههای آماده چقدر به اهداف خطمشی شما میرسند و موارد شکست را بهطور کیفی ارزیابی میکنند، مهم است.
طبقه بندی خط مشی محتوای سفارشی
طبقهبندیهای خطمشی محتوای آماده یک شروع عالی هستند، اما محدودیتهایی دارند، از جمله:
- یک طبقهبندی خطمشی ثابت که ممکن است به همه خطمشیهای محتوای شما نگاشت یا پوشش داده نشود.
- سخت افزار و الزامات اتصال که ممکن است برای محیطی که برنامه مجهز به GenAI شما در آن مستقر می شود مناسب نباشد.
- قیمت گذاری و سایر محدودیت های استفاده
طبقهبندیکنندههای خطمشی محتوای سفارشی ممکن است یکی از راههای رفع این محدودیتها باشد و روش طبقهبندیکننده چابک چارچوبی کارآمد و انعطافپذیر برای ایجاد آنها فراهم میکند. از آنجایی که این روش یک مدل را برای اهداف ایمنی تنظیم می کند، حتماً اصول تنظیم مدل را مرور کنید.
محتوای تولید شده توسط هوش مصنوعی را با واترمارک SynthID Text شناسایی کنید
GenAI می تواند مجموعه وسیع تری از محتوای بسیار متنوع را در مقیاس هایی که قبلا تصور نمی شد تولید کند. در حالی که اکثر این استفاده برای مقاصد قانونی است، نگرانی وجود دارد که می تواند به مشکلات اطلاعات نادرست و نادرست کمک کند. واترمارکینگ یکی از تکنیکهای کاهش این اثرات بالقوه است. واترمارکهایی که برای انسان غیرقابل تشخیص هستند را میتوان برای محتوای تولید شده توسط هوش مصنوعی اعمال کرد و مدلهای تشخیص میتوانند محتوای دلخواه را برای نشان دادن احتمال واترمارک شدن آن نشان دهند.
SynthID یک فناوری Google DeepMind است که محتوای تولید شده توسط هوش مصنوعی را با جاسازی واترمارک های دیجیتال مستقیماً در تصاویر، صدا، متن یا ویدیو تولید شده توسط هوش مصنوعی واترمارک می کند و شناسایی می کند. SynthID Text برای تولید در Hugging Face Transformers موجود است، مقاله تحقیقاتی و اسناد را بررسی کنید تا درباره نحوه استفاده از SynthID در برنامه خود بیشتر بدانید.
Google Cloud قابلیتهای واترمارک SynthID را برای سایر روشها، مانند تصاویر ایجاد شده توسط Imagen ، برای مشتریان Vertex AI فراهم میکند.
بهترین شیوه ها برای تنظیم پادمان ها
استفاده از طبقهبندیکنندههای ایمنی بهعنوان محافظ به شدت توصیه میشود. با این حال، در صورت مسدود شدن محتوا، نردههای محافظ میتوانند باعث شوند که مدل تولیدی چیزی برای کاربر تولید نکند. برنامه ها باید برای رسیدگی به این مورد طراحی شوند. اکثر چتباتهای محبوب با ارائه پاسخهای آماده ("متاسفم، من یک مدل زبان هستم، نمیتوانم با این درخواست کمکی به شما کنم") این کار را انجام میدهند.
تعادل مناسب بین مفید بودن و بیضرر بودن را بیابید : هنگام استفاده از طبقهبندیکنندههای ایمنی، مهم است که بدانیم آنها اشتباهاتی را مرتکب میشوند، از جمله موارد مثبت کاذب (مثلاً ادعای ناامن بودن خروجی در حالی که اینطور نیست) و منفی کاذب (عدم برچسبگذاری خروجی). به عنوان ناامن، وقتی که باشد). با ارزیابی طبقهبندیکنندهها با معیارهایی مانند F1، Precision، Recall و AUC-ROC، میتوانید تعیین کنید که چگونه میخواهید خطاهای مثبت کاذب را با خطاهای منفی کاذب معاوضه کنید. با تغییر آستانه طبقهبندیکنندهها، به یافتن یک تعادل ایدهآل کمک میکنید که از فیلتر کردن بیش از حد خروجیها جلوگیری میکند و در عین حال ایمنی مناسب را فراهم میکند.
طبقهبندیکنندههای خود را برای سوگیریهای ناخواسته بررسی کنید: طبقهبندیکنندههای ایمنی، مانند هر مدل ML دیگری، میتوانند سوگیریهای ناخواسته مانند کلیشههای اجتماعی-فرهنگی را منتشر کنند. برنامه ها باید به طور مناسب برای رفتارهای بالقوه مشکل ساز ارزیابی شوند. به طور خاص، طبقهبندیکنندههای ایمنی محتوا میتوانند محتوای مرتبط با هویتهایی را که اغلب هدف زبان توهینآمیز آنلاین هستند، بیش از حد فعال کنند. به عنوان مثال، زمانی که Perspective API برای اولین بار راه اندازی شد، این مدل امتیازات سمیت بالاتری را در نظرات ارجاع به گروه های هویتی خاص ( وبلاگ ) نشان داد. این رفتار بیش از حد تحریک کننده می تواند اتفاق بیفتد زیرا نظراتی که اصطلاحات هویتی را برای گروه های هدف بیشتر ذکر می کنند (به عنوان مثال، کلماتی مانند "سیاه پوست"، "مسلمان"، "فمینیست"، "زن"، "گی و غیره) اغلب سمی هستند. در طبیعت هنگامی که مجموعه دادههای مورد استفاده برای آموزش طبقهبندیکنندهها دارای عدم تعادل قابل توجهی برای نظرات حاوی کلمات خاص هستند، طبقهبندیکنندهها میتوانند بیش از حد تعمیم دهند و همه نظرات با آن کلمات را به احتمال زیاد ناامن در نظر بگیرند. بخوانید چگونه تیم Jigsaw این تعصب ناخواسته را کاهش داد .
منابع توسعه دهنده
- SynthID : ابزارهایی برای واترمارک گذاری و شناسایی محتوای تولید شده توسط هوش مصنوعی.
- ایمنی هوش مصنوعی را بررسی می کند : مطابقت با ایمنی هوش مصنوعی.
- Perspective API : برای شناسایی محتوای سمی.
- سرویس تعدیل متن : برای مشتریان Google Cloud.