Создайте средства защиты ввода и вывода

Приложения генеративного искусственного интеллекта часто полагаются на фильтрацию входных и выходных данных, иногда называемую защитой , чтобы обеспечить ответственное поведение модели. Методы фильтрации ввода и вывода проверяют, что данные, входящие в модель или исходящие из нее, соответствуют политикам, которые вы определяете для своего приложения.

Готовые гарантии

Даже при предварительной настройке безопасности и хорошо разработанном шаблоне подсказок ваша модель все равно может выводить контент, который приведет к непреднамеренному вреду. Чтобы еще больше улучшить эту ситуацию, классификаторы контента могут добавить дополнительный уровень защиты. Классификаторы контента могут применяться как к входам, так и к выходам.

Классификаторы входных данных обычно используются для фильтрации контента, который не предназначен для использования в вашем приложении и который может привести к тому, что ваша модель нарушит ваши политики безопасности. Входные фильтры часто нацелены на состязательные атаки, которые пытаются обойти вашу политику в отношении контента. Классификаторы вывода могут дополнительно фильтровать выходные данные модели, выявляя непреднамеренные генерации, которые могут нарушить ваши политики безопасности. Рекомендуется иметь классификаторы, охватывающие все ваши политики в отношении контента.

Google предоставляет классификаторы на основе API для обеспечения безопасности контента, которые можно использовать для фильтрации входных и выходных данных системы:

  • Perspective API — это бесплатный API, который использует модели машинного обучения для оценки предполагаемого влияния комментария на разговор. Он предоставляет оценки, которые отражают вероятность того, является ли комментарий токсичным, угрожающим, оскорбительным или не по теме.
  • Служба модерации текста — это облачный API Google, который доступен для использования при достижении определенного лимита использования и использует машинное обучение для анализа документа по списку атрибутов безопасности, включая различные потенциально опасные категории и темы, которые могут считаться конфиденциальными.

Важно оценить, насколько готовые классификаторы соответствуют целям вашей политики, и качественно оценить случаи сбоя. Также важно отметить, что чрезмерная фильтрация может также привести к непреднамеренному вреду, а также снизить полезность приложения, а это означает, что важно также рассмотреть случаи, когда может иметь место чрезмерная фильтрация. Дополнительные сведения о таких методах оценки см. в разделе Оценка модели и системы на предмет безопасности .

Создавайте индивидуальные классификаторы безопасности

Существует несколько причин, по которым готовая защита может не подойти для вашего варианта использования, например, наличие политики, которая не поддерживается, или желание дополнительно настроить защиту с учетом данных, которые, как вы заметили, влияют на вашу систему. В этом случае гибкие классификаторы обеспечивают эффективную и гибкую основу для создания индивидуальных мер безопасности путем настройки моделей, таких как Gemma, в соответствии с вашими потребностями. Они также позволяют вам полностью контролировать, где и как они развернуты.

Учебные пособия по гибкому классификатору Gemma

Запустить кодлаб Запустите Google Колаб

В кодовой лаборатории и учебном пособии по гибким классификаторам LoRA используется для точной настройки модели Gemma в качестве классификатора модерации контента с использованием библиотеки KerasNLP . Используя всего 200 примеров из набора данных ETHOS , этот классификатор достигает показателя F1 , равного 0,80, и показателя ROC-AUC, равного 0,78, что выгодно отличается от современных результатов таблицы лидеров . При обучении на 800 примерах, как и другие классификаторы в таблице лидеров, гибкий классификатор на основе Gemma достигает показателя F1 83,74 и показателя ROC-AUC 88,17. Вы можете адаптировать учебные инструкции для дальнейшего совершенствования этого классификатора или для создания собственных защитных мер безопасности классификатора.

Рекомендации по настройке мер безопасности

Настоятельно рекомендуется использовать классификаторы безопасности в качестве защитных мер. Однако ограничения могут привести к тому, что генеративная модель ничего не выдаст пользователю, если контент заблокирован. Приложения должны быть разработаны для обработки этого случая. Большинство популярных чат-ботов решают эту проблему, предоставляя готовые ответы («Извините, я языковая модель, я не могу вам помочь с этим запросом»).

Найдите правильный баланс между полезностью и безвредностью . При использовании классификаторов безопасности важно понимать, что они будут допускать ошибки, в том числе как ложноположительные (например, утверждение о том, что результат небезопасен, хотя это не так), так и ложноотрицательные результаты (неспособность обозначить результат). как небезопасно, когда это так). Оценивая классификаторы с помощью таких показателей, как F1, точность, отзыв и AUC-ROC, вы можете определить, какой компромисс между ложноположительными и ложноотрицательными ошибками. Изменяя порог классификаторов, вы помогаете найти идеальный баланс, позволяющий избежать чрезмерной фильтрации выходных данных и при этом обеспечить соответствующую безопасность.

Проверьте свои классификаторы на наличие непреднамеренных предубеждений: классификаторы безопасности, как и любая другая модель ML, могут распространять непреднамеренные предвзятости, такие как социо-культурные стереотипы. Приложения необходимо соответствующим образом оценивать на предмет потенциально проблемного поведения. В частности, классификаторы безопасности контента могут чрезмерно срабатывать на контенте, связанном с личностями, которые чаще всего становятся объектом оскорбительных высказываний в Интернете. Например, при первом запуске Perspective API модель возвращала более высокие оценки токсичности в комментариях, ссылающихся на определенные группы идентификации ( блог ). Такое чрезмерно вызывающее поведение может произойти потому, что комментарии, в которых упоминаются термины, идентифицирующие более часто целевые группы (например, такие слова, как «черный», «мусульманин», «феминистка», «женщина», «гей» и т. д.), чаще являются токсичными. в природе. Когда наборы данных, используемые для обучения классификаторов, имеют значительный дисбаланс для комментариев, содержащих определенные слова, классификаторы могут чрезмерно обобщать и рассматривать все комментарии с этими словами как вероятно небезопасные. Узнайте, как команда Jigsaw смягчила эту непреднамеренную предвзятость.

Ресурсы для разработчиков