یک رویکرد مسئولانه طراحی کنید

افزودن GenAI به برنامه شما می‌تواند قدرت و ارزش فوق‌العاده‌ای را برای کاربران شما به ارمغان بیاورد، اما برای حفظ ایمنی و حفظ حریم خصوصی مورد انتظار کاربران نیز نیاز به یک نگاه دقیق دارد.

طراحی برای ایمنی

هر ویژگی GenAI-enable فرصت هایی را برای طراحی لایه های ایمنی ارائه می دهد. همانطور که در شکل زیر نشان داده شده است، یکی از راه هایی که می توانید در مورد ایمنی فکر کنید، قرار دادن مدل هوش مصنوعی است که این ویژگی را در مرکز قرار می دهد. این مدل باید:

  • تراز برای انجام وظیفه محول شده خود؛
  • حفاظت شده توسط پادمان برای اطمینان از اینکه ورودی ها و خروجی های خارج از محدوده رد می شوند. و
  • برای ارزیابی نحوه پاسخگویی مدل و سیستم به تعاملات تأثیرگذار بر ایمنی، به صورت کلی ارزیابی شد .

نمودار عملکردی شیوه های هوش مصنوعی مسئول

جلسه «ایجاد محصولات هوش مصنوعی مسئول» از Google I/O 2024 را بررسی کنید تا درباره ملاحظات طراحی، تمرین‌های فکری، و روش‌های نمونه‌سازی که می‌توانند به تسریع شیوه‌های توسعه مسئولانه شما کمک کنند، بیشتر بدانید.

علاوه بر این، می‌توانید بهترین شیوه‌ها را بیاموزید و نمونه‌هایی برای موارد زیر ببینید:

مهمتر از همه، به یاد داشته باشید که رویکرد صحیح به ایمنی و مسئولیت، رویکردی است که خود انعکاسی باشد و با چالش های فنی، فرهنگی و فرآیندی سازگار باشد. برای اطمینان از بهترین نتایج، خود و تیمتان را در بررسی‌های انتقادی منظم رویکرد خود درگیر کنید.

سیاست های سطح سیستم را تعریف کنید

خط‌مشی‌های ایمنی محتوا تعریف می‌کنند که چه نوع محتوای مضری در یک پلتفرم آنلاین مجاز نیست. ممکن است با خط‌مشی‌های محتوای پلتفرم‌هایی مانند YouTube یا Google Play آشنا باشید. خط‌مشی‌های محتوا برای برنامه‌های هوش مصنوعی مولد مشابه هستند: آن‌ها تعریف می‌کنند که برنامه شما چه نوع محتوایی را تولید نمی‌کند و نحوه تنظیم مدل‌ها و موارد حفاظتی مناسب را راهنمایی می‌کند.

خط‌مشی‌های شما باید منعکس کننده موارد استفاده برنامه شما باشد. به عنوان مثال، یک محصول مولد هوش مصنوعی که برای ارائه ایده‌هایی برای فعالیت‌های خانوادگی بر اساس پیشنهادات جامعه طراحی شده است، ممکن است خط‌مشی داشته باشد که تولید محتوای خشونت‌آمیز را ممنوع می‌کند، زیرا می‌تواند برای کاربران مضر باشد. برعکس، برنامه‌ای که ایده‌های داستان علمی تخیلی پیشنهاد شده توسط کاربران را خلاصه می‌کند ممکن است بخواهد اجازه تولید خشونت را بدهد، زیرا موضوع داستان‌های بسیاری در این ژانر است.

خط‌مشی‌های ایمنی شما باید تولید محتوای مضر برای کاربران یا غیرقانونی را ممنوع کند و باید مشخص کند که چه نوع محتوای تولید شده با آن نوار برای برنامه شما مطابقت دارد. همچنین ممکن است بخواهید استثناهایی را برای محتوای آموزشی، مستند، علمی یا هنری در نظر بگیرید که در غیر این صورت ممکن است مضر تلقی شوند.

تعریف خط مشی های روشن با سطح جزئیات بسیار دقیق، از جمله استثنائات خط مشی با مثال، برای ساختن یک محصول مسئولیت پذیر ضروری است. خط مشی های شما در هر مرحله از توسعه مدل شما استفاده می شود. برای تمیز کردن یا برچسب‌گذاری داده‌ها، عدم دقت می‌تواند منجر به برچسب‌گذاری نادرست داده‌ها، حذف بیش از حد یا حذف کمتر داده شود که بر پاسخ‌های ایمنی مدل شما تأثیر می‌گذارد. برای اهداف ارزیابی، خط‌مشی‌های نامشخص منجر به واریانس بین ارزیاب‌ها می‌شود و تشخیص اینکه آیا مدل شما با استانداردهای ایمنی شما مطابقت دارد یا نه.

خط مشی های فرضی (فقط برای مثال)

در زیر نمونه‌هایی از خط‌مشی‌هایی است که می‌توانید برای برنامه‌تان استفاده کنید، مشروط بر اینکه با مورد استفاده شما مطابقت داشته باشند.

دسته سیاست خط مشی
اطلاعات حساس شخصی قابل شناسایی (SPII) برنامه اطلاعات حساس و قابل شناسایی شخصی (به عنوان مثال، ایمیل، شماره کارت اعتباری، یا شماره تامین اجتماعی یک فرد خصوصی) را بازگو نمی کند.
سخنان تنفرآمیز این برنامه محتوای منفی یا مضری را تولید نمی کند که هویت و/یا ویژگی های محافظت شده را هدف قرار دهد (به عنوان مثال، توهین های نژادی، ترویج تبعیض، دعوت به خشونت علیه گروه های محافظت شده).
آزار و اذیت این برنامه محتوای مخرب، ارعاب‌کننده، قلدری یا توهین‌آمیز با هدف قرار دادن فرد دیگری تولید نمی‌کند (مثلاً تهدیدات فیزیکی، انکار رویدادهای غم‌انگیز، تحقیر قربانیان خشونت).
محتوای خطرناک این برنامه دستورالعمل ها یا توصیه هایی در مورد آسیب رساندن به خود و/یا دیگران (به عنوان مثال، دسترسی یا ساختن سلاح گرم و مواد منفجره، ترویج تروریسم، دستورالعمل های خودکشی) تولید نمی کند.
صریح جنسی این برنامه محتوایی تولید نخواهد کرد که حاوی ارجاع به اعمال جنسی یا سایر محتوای زشت باشد (به عنوان مثال، توضیحات گرافیکی جنسی، محتوایی با هدف ایجاد برانگیختگی).
فعال کردن دسترسی به کالاها و خدمات مضر این برنامه محتوایی تولید نمی‌کند که کالاها، خدمات و فعالیت‌های بالقوه مضر را تبلیغ یا امکان دسترسی به آن‌ها را فراهم کند (به عنوان مثال، تسهیل دسترسی به تبلیغ قمار، مواد دارویی، آتش بازی، خدمات جنسی).
محتوای مخرب این برنامه دستورالعملی برای انجام فعالیت های غیرقانونی یا فریبنده (به عنوان مثال، ایجاد کلاهبرداری های فیشینگ، هرزنامه یا محتوایی که برای درخواست انبوه، روش های فرار از زندان در نظر گرفته شده است) تولید نمی کند.

مصنوعات شفافیت

مستندسازی روشی کلیدی برای دستیابی به شفافیت برای توسعه‌دهندگان، دولت‌ها، سیاست‌گذاران و کاربران نهایی محصول شما است. این امر می‌تواند مستلزم انتشار گزارش‌های فنی دقیق یا کارت‌های مدل، داده‌ها و سیستم باشد که به‌طور مناسب اطلاعات ضروری را بر اساس ارزیابی‌های ایمنی و سایر مدل‌ها عمومی می‌سازد. مصنوعات شفافیت بیشتر از وسایل ارتباطی هستند. آنها همچنین راهنمایی هایی را برای محققان هوش مصنوعی، توسعه دهندگان و توسعه دهندگان پایین دستی در مورد استفاده مسئولانه از مدل ارائه می دهند. این اطلاعات برای کاربران نهایی محصول شما نیز مفید است که می‌خواهند جزئیات مدل را بفهمند.

برخی از دستورالعمل های شفافیت که باید در نظر گرفته شود:

  • هنگامی که کاربران با یک فناوری هوش مصنوعی مولد آزمایشی درگیر هستند، با کاربران واضح باشید و احتمال رفتار مدل غیرمنتظره را برجسته کنید.
  • مستندات کاملی در مورد نحوه عملکرد سرویس یا محصول هوش مصنوعی مولد با استفاده از زبان قابل فهم ارائه دهید. انتشار مصنوعات شفافیت ساختاریافته مانند کارت های مدل را در نظر بگیرید. این کارت ها استفاده مورد نظر از مدل شما را ارائه می دهند و ارزیابی هایی را که در طول توسعه مدل انجام شده اند، خلاصه می کنند.
  • به افراد نشان دهید که چگونه می توانند بازخورد ارائه دهند و چگونه کنترل می کنند، مانند:
    • ارائه مکانیسم هایی برای کمک به کاربران برای اعتبارسنجی سوالات مبتنی بر واقعیت
    • نمادهای شست بالا و پایین برای بازخورد کاربر
    • پیوندهایی برای گزارش مشکلات و ارائه پشتیبانی برای پاسخ سریع به بازخورد کاربر
    • کنترل کاربر برای ذخیره یا حذف فعالیت کاربر

سیستم های هوش مصنوعی ایمن

برنامه‌های کاربردی مجهز به GenAI سطوح حمله پیچیده‌تری را ارائه می‌کنند که نسبت به برنامه‌های معمولی به کاهش‌های متنوع‌تری نیاز دارند. چارچوب هوش مصنوعی ایمن گوگل (SAIF) یک چارچوب مفهومی کل نگر برای در نظر گرفتن نحوه طراحی برنامه کاربردی مجهز به GenAI برای استفاده ایمن ارائه می دهد. این چارچوب می‌تواند به شما کمک کند تا نحوه به کارگیری هم‌ترازی ، ارزیابی خصمانه و پادمان‌ها را برای کمک به ایمن کردن برنامه‌تان ارزیابی کنید، هرچند به یاد داشته باشید که اینها تنها بلوک‌های شروع هستند. احتمالاً برای دستیابی به اهداف امنیتی شما در مورد استفاده و زمینه خاص شما، تغییرات اضافی در شیوه‌های سازمان، نظارت و هشدار لازم است.

منابع توسعه دهنده

نمونه هایی از سیاست های هوش مصنوعی مولد:

  • Cloud Gemini API و PalM API فهرستی از ویژگی‌های ایمنی را ارائه می‌کنند که می‌تواند به عنوان مبنایی برای ایجاد سیاست‌های ایمنی باشد.
  • نمونه‌ای از خط‌مشی‌های گنجانده شده در به‌روزرسانی پیشرفت اصول هوش مصنوعی Google در سال ۲۰۲۳ .
  • انجمن MLCommons ، یک کنسرسیوم مهندسی که بر اساس فلسفه همکاری باز برای بهبود سیستم‌های هوش مصنوعی ساخته شده است، به 6 خطر اشاره می‌کند که براساس آنها مدل‌های ایمنی هوش مصنوعی را به عنوان بخشی از معیار ایمنی هوش مصنوعی ارزیابی می‌کنند.

هیچ الگوی واحدی برای مصنوعات شفافیت در سراسر صنعت وجود ندارد، اما کارت‌های مدل موجود می‌توانند به عنوان نقطه شروعی برای ایجاد الگوی خود عمل کنند:

مراجع اضافی