ریسک ها را ارزیابی کنید و سیاست های ایمنی را تنظیم کنید

خط‌مشی‌های ایمنی محتوا تعریف می‌کنند که چه نوع محتوای مضری در یک پلتفرم آنلاین مجاز نیست. ممکن است با خط‌مشی‌های محتوای پلتفرم‌هایی مانند YouTube یا Google Play آشنا باشید. خط‌مشی‌های محتوا برای برنامه‌های هوش مصنوعی مولد مشابه هستند: آن‌ها تعریف می‌کنند که برنامه شما چه نوع محتوایی را تولید نمی‌کند و نحوه تنظیم مدل‌ها و موارد حفاظتی مناسب را راهنمایی می‌کند.

خط‌مشی‌های شما باید منعکس کننده موارد استفاده برنامه شما باشد. به عنوان مثال، یک محصول مولد هوش مصنوعی که برای ارائه ایده‌هایی برای فعالیت‌های خانوادگی بر اساس پیشنهادات جامعه طراحی شده است، ممکن است خط‌مشی داشته باشد که تولید محتوای خشونت‌آمیز را ممنوع می‌کند، زیرا می‌تواند برای کاربران مضر باشد. برعکس، برنامه‌ای که ایده‌های داستان علمی تخیلی پیشنهاد شده توسط کاربران را خلاصه می‌کند ممکن است بخواهد اجازه تولید خشونت را بدهد، زیرا موضوع داستان‌های بسیاری در این ژانر است.

خط‌مشی‌های ایمنی شما باید تولید محتوای مضر برای کاربران یا غیرقانونی را ممنوع کند و باید مشخص کند که چه نوع محتوای تولید شده با آن نوار برای برنامه شما مطابقت دارد. همچنین ممکن است بخواهید استثناهایی را برای محتوای آموزشی، مستند، علمی یا هنری در نظر بگیرید که در غیر این صورت ممکن است مضر تلقی شوند.

تعریف خط مشی های روشن با سطح جزئیات بسیار دقیق، از جمله استثنائات خط مشی با مثال، برای ساختن یک محصول مسئولیت پذیر ضروری است. خط مشی های شما در هر مرحله از توسعه مدل شما استفاده می شود. برای تمیز کردن یا برچسب‌گذاری داده‌ها، عدم دقت می‌تواند منجر به برچسب‌گذاری نادرست داده‌ها، حذف بیش از حد یا حذف کمتر داده شود که بر پاسخ‌های ایمنی مدل شما تأثیر می‌گذارد. برای اهداف ارزیابی، خط‌مشی‌های نامشخص منجر به واریانس بین ارزیاب‌ها می‌شود و تشخیص اینکه آیا مدل شما با استانداردهای ایمنی شما مطابقت دارد یا نه.

خط مشی های فرضی (فقط برای مثال)

در زیر نمونه‌هایی از خط‌مشی‌هایی است که می‌توانید برای برنامه‌تان استفاده کنید، مشروط بر اینکه با مورد استفاده شما مطابقت داشته باشند.

دسته سیاست خط مشی
اطلاعات حساس شخصی قابل شناسایی (SPII) برنامه اطلاعات حساس و قابل شناسایی شخصی (به عنوان مثال، ایمیل، شماره کارت اعتباری، یا شماره تامین اجتماعی یک فرد خصوصی) را بازگو نمی کند.
سخنان تنفرآمیز این برنامه محتوای منفی یا مضری را تولید نمی کند که هویت و/یا ویژگی های محافظت شده را هدف قرار دهد (به عنوان مثال، توهین های نژادی، ترویج تبعیض، دعوت به خشونت علیه گروه های محافظت شده).
آزار و اذیت این برنامه محتوای مخرب، ارعاب‌کننده، قلدری یا توهین‌آمیز با هدف قرار دادن فرد دیگری تولید نمی‌کند (مثلاً تهدیدات فیزیکی، انکار رویدادهای غم‌انگیز، تحقیر قربانیان خشونت).
محتوای خطرناک این برنامه دستورالعمل ها یا توصیه هایی در مورد آسیب رساندن به خود و/یا دیگران (به عنوان مثال، دسترسی یا ساختن سلاح گرم و مواد منفجره، ترویج تروریسم، دستورالعمل های خودکشی) تولید نمی کند.
صریح جنسی این برنامه محتوایی تولید نخواهد کرد که حاوی ارجاع به اعمال جنسی یا سایر محتوای زشت باشد (به عنوان مثال، توضیحات گرافیکی جنسی، محتوایی با هدف ایجاد برانگیختگی).
فعال کردن دسترسی به کالاها و خدمات مضر این برنامه محتوایی تولید نمی‌کند که کالاها، خدمات و فعالیت‌های بالقوه مضر را تبلیغ یا امکان دسترسی به آن‌ها را فراهم کند (به عنوان مثال، تسهیل دسترسی به تبلیغ قمار، مواد دارویی، آتش بازی، خدمات جنسی).
محتوای مخرب این برنامه دستورالعملی برای انجام فعالیت های غیرقانونی یا فریبنده (به عنوان مثال، ایجاد کلاهبرداری های فیشینگ، هرزنامه یا محتوایی که برای درخواست انبوه، روش های فرار از زندان در نظر گرفته شده است) تولید نمی کند.

منابع توسعه دهنده

نمونه هایی از سیاست های هوش مصنوعی مولد:

  • Cloud Gemini API و PalM API فهرستی از ویژگی‌های ایمنی را ارائه می‌کنند که می‌تواند به عنوان مبنایی برای ایجاد سیاست‌های ایمنی باشد.
  • نمونه‌ای از خط‌مشی‌های گنجانده شده در به‌روزرسانی پیشرفت اصول هوش مصنوعی Google در سال ۲۰۲۳
  • انجمن MLCommons ، یک کنسرسیوم مهندسی که بر اساس فلسفه همکاری باز برای بهبود سیستم‌های هوش مصنوعی ساخته شده است، به 6 خطر اشاره می‌کند که براساس آنها مدل‌های ایمنی هوش مصنوعی را به عنوان بخشی از معیار ایمنی هوش مصنوعی ارزیابی می‌کنند.