Оцените риски и установите политику безопасности

Политики безопасности контента определяют, какие типы вредоносного контента не разрешены на онлайн-платформе. Возможно, вы знакомы с политиками в отношении контента таких платформ, как YouTube или Google Play . Политики контента для генеративных приложений искусственного интеллекта аналогичны: они определяют, какой тип контента ваше приложение не должно генерировать, а также определяют, как настраивать модели и какие соответствующие меры безопасности добавлять.

Ваши политики должны отражать вариант использования вашего приложения. Например, продукт генеративного искусственного интеллекта, предназначенный для предложения идей для семейных занятий на основе предложений сообщества, может иметь политику, запрещающую создание контента, носящего насильственный характер, поскольку он может нанести вред пользователям. И наоборот, приложение, обобщающее идеи научно-фантастических рассказов, предложенные пользователями, может захотеть разрешить создание насилия, поскольку оно является предметом многих рассказов этого жанра.

Ваша политика безопасности должна запрещать создание контента, который является вредным для пользователей или является незаконным, и должна указывать, какие типы создаваемого контента соответствуют этому требованию для вашего приложения. Вы также можете рассмотреть возможность включения исключений для образовательного, документального, научного или художественного контента, который в противном случае мог бы считаться вредным.

Определение четких политик с высокой степенью детализации, включая исключения из правил с примерами, имеет основополагающее значение для создания ответственного продукта. Ваши политики используются на каждом этапе разработки модели. При очистке или маркировке данных неточность может привести к неправильной маркировке данных, чрезмерному или недостаточному удалению данных, что повлияет на реакцию безопасности вашей модели. В целях оценки плохо определенные политики приведут к высокой дисперсии между экспертами, что затруднит определение того, соответствует ли ваша модель вашим стандартам безопасности.

Гипотетическая политика (только для иллюстрации)

Ниже приведены некоторые примеры политик, которые вы можете рассмотреть для своего приложения, при условии, что они соответствуют вашему сценарию использования.

Категория политики Политика
Конфиденциальная информация, позволяющая установить личность (SPII) Приложение не будет раскрывать конфиденциальную и личную информацию (например, адрес электронной почты, номер кредитной карты или номер социального страхования частного лица).
Разжигание ненависти Приложение не будет создавать негативный или вредный контент, нацеленный на личность и/или защищенные атрибуты (например, расовые оскорбления, пропаганда дискриминации, призывы к насилию в отношении защищенных групп).
Домогательство Приложение не будет создавать вредоносный, запугивающий, запугивающий или оскорбительный контент, направленный против другого человека (например, физические угрозы, отрицание трагических событий, унижение жертв насилия).
Опасный контент Приложение не будет генерировать инструкции или советы о том, как причинить вред себе и/или другим людям (например, получение доступа к огнестрельному оружию и взрывным устройствам или их изготовление, пропаганда терроризма, инструкции по самоубийству).
Сексуально откровенно Приложение не будет создавать контент, содержащий ссылки на сексуальные действия или другой непристойный контент (например, описания сексуального характера, контент, направленный на возбуждение).
Обеспечение доступа к вредным товарам и услугам Приложение не будет создавать контент, который пропагандирует или обеспечивает доступ к потенциально вредным товарам, услугам и деятельности (например, облегчает доступ к рекламе азартных игр, фармацевтических препаратов, фейерверков, сексуальных услуг).
Вредоносный контент Приложение не будет генерировать инструкции для выполнения незаконных или вводящих в заблуждение действий (например, создания фишинговых сообщений, спама или контента, предназначенного для массового вымогательства, методов взлома).

Ресурсы для разработчиков

Примеры генеративной политики ИИ:

  • Cloud Gemini API и PaLM API предоставляют список атрибутов безопасности, которые могут служить основой для построения политик безопасности.
  • Пример политик, включенных в Обновление принципов Google AI за 2023 год.
  • Ассоциация MLCommons , инженерный консорциум, основанный на философии открытого сотрудничества для улучшения систем ИИ, ссылается на 6 опасностей, по которым они оценивают модели безопасности ИИ, в рамках своего теста безопасности ИИ .