Защитите свои модели

Продукты генеративного искусственного интеллекта (GenAI) являются относительно новыми, и их поведение может значительно отличаться от более ранних форм программного обеспечения. Меры предосторожности, защищающие ваш продукт от неправильного использования возможностей GenAI, должны соответствующим образом адаптироваться. В этом руководстве описывается, как вы можете использовать средства проверки соответствия политике в отношении контента и инструменты создания водяных знаков для защиты ваших продуктов с поддержкой GenAI.

Соответствие политике в отношении контента

Даже при предварительной настройке безопасности и хорошо разработанном шаблоне подсказок ваш продукт GenAI может выводить контент, который приведет к непреднамеренному вреду. Продукты GenAI часто полагаются на фильтрацию входных и выходных данных , чтобы обеспечить ответственное поведение модели. Эти методы проверяют, что данные, входящие в модель или исходящие из нее, соответствуют вашим политикам , часто путем проведения дополнительного обучения безопасности для создания модели классификатора контента.

Классификаторы входных данных используются для фильтрации контента, который напрямую или может побудить вашу модель создавать контент, нарушающий вашу политику в отношении контента. Входные фильтры часто нацелены на состязательные атаки, которые пытаются обойти вашу политику в отношении контента.

Классификаторы вывода фильтруют выходные данные модели, улавливая сгенерированный контент, который нарушает ваши политики безопасности. Тщательный мониторинг вашего поведения при отклонении контента может выявить новые классы подсказок, которые можно использовать для расширения или улучшения входных фильтров.

Рекомендуется иметь классификаторы, охватывающие все ваши политики в отношении контента. Возможно, вам удастся добиться этого, используя готовые классификаторы , или вам может потребоваться создать собственные классификаторы , поддерживающие ваши конкретные политики.

Баланс также имеет ключевое значение. Чрезмерная фильтрация может привести к непреднамеренному вреду или снижению полезности приложения; обязательно рассмотрите случаи, когда может иметь место чрезмерная фильтрация. Дополнительную информацию см. в руководстве по оценке безопасности .

Готовые классификаторы контентной политики

Готовые классификаторы контента добавляют дополнительный уровень защиты к встроенному в модель обучению технике безопасности, еще больше снижая вероятность определенных типов нарушений политики. Обычно они бывают двух разновидностей:

  1. Самостоятельные классификаторы , такие как ShieldGemma , можно загрузить и разместить на различных архитектурах, включая облачные платформы, такие как Google Cloud, частное оборудование, а некоторые классификаторы могут даже работать на устройстве для мобильных приложений.
  2. Классификаторы на основе API предоставляются как службы, которые предлагают классификацию больших объемов данных с малой задержкой в ​​соответствии с различными политиками. Google предоставляет три услуги, которые могут представлять интерес:
    • Checks AI Safety предоставляет оценки соответствия и информационные панели, поддерживающие оценку и мониторинг моделей. Инструмент AI Safety находится в стадии открытого бета-тестирования. Подпишитесь на новости, доступ и демонстрационные версии.
    • Служба модерации текста — это API Google Cloud, который анализирует текст на наличие нарушений безопасности, включая вредоносные категории и деликатные темы, в зависимости от уровня использования .
    • Perspective API — это бесплатный API, который использует модели машинного обучения для оценки предполагаемого влияния комментария на разговор. Он предоставляет оценки, которые отражают вероятность того, является ли комментарий токсичным, угрожающим, оскорбительным или не по теме.

Важно оценить, насколько готовые классификаторы соответствуют целям вашей политики, и качественно оценить случаи сбоя.

Классификаторы пользовательских политик в отношении контента

Готовые классификаторы политики контента — отличное начало, но у них есть ограничения, в том числе:

  • Фиксированная таксономия политик, которая может не соответствовать всем вашим политикам в отношении контента или не охватывать их.
  • Требования к оборудованию и подключению, которые могут не подходить для среды, в которой будет развернуто ваше приложение на базе GenAI.
  • Цены и другие ограничения на использование.

Пользовательские классификаторы политики контента могут быть одним из способов устранения этих ограничений, а метод гибких классификаторов обеспечивает эффективную и гибкую основу для их создания. Поскольку этот метод настраивает модель в целях безопасности, обязательно ознакомьтесь с основами настройки модели .

Идентифицируйте контент, созданный искусственным интеллектом, с помощью водяных знаков SynthID Text.

GenAI может генерировать более широкий спектр весьма разнообразного контента в ранее невообразимых масштабах. Хотя большая часть такого использования осуществляется в законных целях, существуют опасения, что это может способствовать возникновению проблем с дезинформацией и неверным присвоением информации. Использование водяных знаков является одним из методов смягчения этих потенциальных воздействий. К контенту, созданному искусственным интеллектом, можно применять незаметные для человека водяные знаки, а модели обнаружения могут оценивать произвольный контент, чтобы указать вероятность того, что на нем есть водяные знаки.

SynthID — это технология Google DeepMind, которая ставит водяные знаки и идентифицирует контент, созданный искусственным интеллектом, путем встраивания цифровых водяных знаков непосредственно в изображения, аудио, текст или видео, созданные искусственным интеллектом. Текст SynthID доступен для производства в Hugging Face Transformers . Ознакомьтесь с исследовательской работой и документацией, чтобы узнать больше о том, как использовать SynthID в вашем приложении.

Google Cloud предоставляет клиентам Vertex AI возможности нанесения водяных знаков SynthID для других модальностей, таких как изображения, созданные с помощью Imagen .

Рекомендации по настройке мер безопасности

Настоятельно рекомендуется использовать классификаторы безопасности в качестве защитных мер. Однако ограничения могут привести к тому, что генеративная модель ничего не выдаст пользователю, если контент заблокирован. Приложения должны быть разработаны для обработки этого случая. Большинство популярных чат-ботов решают эту проблему, предоставляя готовые ответы («Извините, я языковая модель, я не могу вам помочь с этим запросом»).

Найдите правильный баланс между полезностью и безвредностью . При использовании классификаторов безопасности важно понимать, что они будут допускать ошибки, в том числе как ложноположительные (например, утверждение о том, что результат небезопасен, хотя это не так), так и ложноотрицательные результаты (неспособность обозначить результат). как небезопасно, когда это так). Оценивая классификаторы с помощью таких показателей, как F1, точность, отзыв и AUC-ROC, вы можете определить, как вы хотите найти компромисс между ложноположительными и ложноотрицательными ошибками. Изменяя порог классификаторов, вы помогаете найти идеальный баланс, позволяющий избежать чрезмерной фильтрации выходных данных и при этом обеспечить соответствующую безопасность.

Проверьте свои классификаторы на наличие непреднамеренных предубеждений: классификаторы безопасности, как и любая другая модель ML, могут распространять непреднамеренные предвзятости, такие как социокультурные стереотипы. Приложения необходимо соответствующим образом оценивать на предмет потенциально проблемного поведения. В частности, классификаторы безопасности контента могут чрезмерно срабатывать на контенте, связанном с личностями, которые чаще всего становятся объектом оскорбительных высказываний в Интернете. Например, при первом запуске Perspective API модель возвращала более высокие оценки токсичности в комментариях, ссылающихся на определенные группы идентификации ( блог ). Такое чрезмерно вызывающее поведение может произойти потому, что комментарии, в которых упоминаются термины, идентифицирующие более часто целевые группы (например, такие слова, как «черный», «мусульманин», «феминистка», «женщина», «гей» и т. д.), чаще являются токсичными. в природе. Когда наборы данных, используемые для обучения классификаторов, имеют значительный дисбаланс для комментариев, содержащих определенные слова, классификаторы могут чрезмерно обобщать и рассматривать все комментарии с этими словами как вероятно небезопасные. Узнайте, как команда Jigsaw смягчила эту непреднамеренную предвзятость.

Ресурсы для разработчиков