Создайте средства защиты ввода и вывода

Приложения генеративного искусственного интеллекта часто полагаются на фильтрацию входных и выходных данных, иногда называемую защитой , чтобы обеспечить ответственное поведение модели. Методы фильтрации ввода и вывода проверяют данные, поступающие в модель или выходящие из нее.

Меры предосторожности и готовые классификаторы безопасности

Даже при предварительной настройке безопасности и хорошо разработанном шаблоне подсказок ваша модель все равно может выводить контент, который приведет к непреднамеренному вреду. Чтобы еще больше улучшить эту ситуацию, классификаторы контента могут добавить дополнительный уровень защиты. Классификаторы контента могут применяться как к входам, так и к выходам.

Классификаторы входных данных обычно используются для фильтрации контента, который не предназначен для использования в вашем приложении и который может привести к тому, что ваша модель нарушит ваши политики безопасности. Входные фильтры часто нацелены на состязательные атаки, которые пытаются обойти вашу политику в отношении контента. Классификаторы вывода могут дополнительно фильтровать выходные данные модели, выявляя непреднамеренные генерации, которые могут нарушить ваши политики безопасности. Рекомендуется иметь классификаторы, охватывающие все ваши политики в отношении контента.

Google разработал готовые классификаторы безопасности контента, которые можно использовать для фильтрации входных и выходных данных:

  • Perspective API — это бесплатный API, который использует модели машинного обучения для оценки предполагаемого влияния комментария на разговор. Он предоставляет оценки, которые отражают вероятность того, является ли комментарий токсичным, угрожающим, оскорбительным, не по теме и т. д.
  • Служба модерации текста — это облачный API Google, который доступен для использования при достижении определенного лимита использования и использует машинное обучение для анализа документа по списку атрибутов безопасности, включая различные потенциально опасные категории и темы, которые могут считаться конфиденциальными.

Важно оценить, насколько хорошо готовые классификаторы соответствуют целям вашей политики, и качественно оценить случаи сбоя. Также важно отметить, что чрезмерная фильтрация может также привести к непреднамеренному вреду, а также снизить полезность приложения, а это означает, что важно также рассмотреть случаи, когда может иметь место чрезмерная фильтрация. Дополнительные сведения о таких методах оценки см. в разделе Оценка модели и системы на предмет безопасности .

Создавайте индивидуальные классификаторы безопасности

Если ваша политика не покрывается готовым API или вы хотите создать свой собственный классификатор, эффективные методы настройки параметров, такие как быстрая настройка и LoRA, обеспечивают эффективную основу. В этих методах вместо точной настройки всей модели вы можете использовать ограниченный объем данных для обучения небольшого набора важных параметров модели. Это позволяет вашей модели изучать новые модели поведения, например классификацию для вашего нового варианта использования безопасности, с относительно небольшим объемом обучающих данных и вычислительной мощности. Такой подход позволяет разрабатывать персонализированные инструменты безопасности для ваших собственных пользователей и задач.

Чтобы проиллюстрировать, как это работает, в этой кодовой лаборатории показан код, необходимый для настройки «гибкого классификатора». В кодовой лаборатории показаны этапы приема данных, их форматирования для LLM, тренировки весов LoRA и последующей оценки результатов. Gemma позволяет создавать эти мощные классификаторы всего с помощью нескольких строк кода. Для более подробного обзора в нашей исследовательской статье « На пути к гибким текстовым классификаторам для всех » показано, как вы можете использовать эти методы для обучения различным задачам по обеспечению безопасности, чтобы достичь самых современных результатов с помощью всего лишь нескольких сотен обучающих примеров.

В этом примере руководства вы можете обучить классификатор разжигания ненависти, используя набор данных ETHOS — общедоступный набор данных для обнаружения разжигания ненависти, созданный на основе комментариев YouTube и Reddit. При обучении на меньшей модели Gemma только на 200 примерах (чуть менее четверти набора данных) она достигает показателя F1: 0,80 и ROC-AUC 0,78. Этот результат выгодно отличается от современных результатов, представленных в этой таблице лидеров . При обучении на 800 примерах, как и другие классификаторы в таблице лидеров, гибкий классификатор на основе Gemma достигает показателя F1 83,74 и показателя ROC-AUC 88,17. Вы можете использовать этот классификатор «из коробки» или адаптировать его с помощью руководства Gemma Agile Classifier .

Учебные пособия по гибкому классификатору Gemma

Запустить кодлаб Запустите Google Колаб

Рекомендации по настройке мер безопасности

Настоятельно рекомендуется использовать классификаторы безопасности. Однако ограничения могут привести к тому, что генеративная модель ничего не выдаст пользователю, если контент заблокирован. Приложения должны быть разработаны для обработки этого случая. Большинство популярных чат-ботов решают эту проблему, предоставляя готовые ответы («Извините, я языковая модель, я не могу вам помочь с этим запросом»).

Найдите правильный баланс между полезностью и безвредностью . При использовании классификаторов безопасности важно понимать, что они будут допускать ошибки, в том числе как ложноположительные (например, утверждение о том, что результат небезопасен, хотя это не так), так и ложноотрицательные результаты (неспособность обозначить результат). как небезопасно, когда это так). Оценивая классификаторы с помощью таких показателей, как F1, точность, отзыв и AUC-ROC, вы можете определить, какой компромисс между ложноположительными и ложноотрицательными ошибками. Изменяя порог классификаторов, вы помогаете найти идеальный баланс, позволяющий избежать чрезмерной фильтрации выходных данных и при этом обеспечить соответствующую безопасность.

Проверьте свои классификаторы на наличие непреднамеренных предубеждений: классификаторы безопасности, как и любая другая модель ML, могут распространять непреднамеренные предвзятости, такие как социо-культурные стереотипы. Приложения необходимо соответствующим образом оценивать на предмет потенциально проблемного поведения. В частности, классификаторы безопасности контента могут чрезмерно срабатывать на контенте, связанном с личностями, которые чаще всего становятся объектом оскорбительных высказываний в Интернете. Например, при первом запуске Perspective API модель возвращала более высокие оценки токсичности в комментариях, ссылающихся на определенные группы идентификации ( блог ). Такое чрезмерное поведение может произойти потому, что комментарии, в которых упоминаются термины, идентифицирующие более часто целевые группы (например, такие слова, как «черный», «мусульманин», «феминистка», «женщина», «гей» и т. д.), чаще являются токсичными. в природе. Когда наборы данных, используемые для обучения классификаторов, имеют значительный дисбаланс для комментариев, содержащих определенные слова, классификаторы могут чрезмерно обобщать и рассматривать все комментарии с этими словами как вероятно небезопасные. Узнайте, как команда Jigsaw смягчила эту непреднамеренную предвзятость.

Ресурсы для разработчиков