Эта страница переведена с помощью Cloud Translation API.

Создайте средства защиты ввода и вывода

Приложения генеративного искусственного интеллекта часто полагаются на фильтрацию входных и выходных данных, иногда называемую защитой , чтобы обеспечить ответственное поведение модели. Методы фильтрации ввода и вывода проверяют, что данные, входящие в модель или исходящие из нее, соответствуют политикам, которые вы определяете для своего приложения. Классификаторы входных данных обычно используются для фильтрации контента, который не предназначен для использования в вашем приложении и который может привести к тому, что ваша модель нарушит ваши политики безопасности. Входные фильтры часто нацелены на состязательные атаки, которые пытаются обойти вашу политику в отношении контента. Классификаторы выходных данных работают с обучением по технике безопасности и дополнительно фильтруют выходные данные модели, улавливая сгенерированные выходные данные, которые могут нарушать ваши политики безопасности. Рекомендуется иметь классификаторы, охватывающие все ваши политики в отношении контента.

Готовые гарантии

Даже при предварительной настройке безопасности и хорошо разработанном шаблоне подсказок ваша модель все равно может выводить контент, который приведет к непреднамеренному вреду. Готовые классификаторы контента могут добавить дополнительный уровень защиты, чтобы еще больше снизить вероятность определенных типов нарушений политики.

ЩитДжемма

ShieldGemma — это набор готовых, настроенных с помощью инструкций моделей классификаторов контента с открытыми весами, построенных на Gemma 2 , которые могут определять, нарушает ли предоставленный пользователем, сгенерированный моделью или смешанный контент политику безопасности контента. ShieldGemma обучена выявлять четыре вреда (сексуальный контент, опасный контент, преследование и разжигание ненависти) и поставляется в трех вариантах класса размера — параметры 2B, 9B и 27B, — которые позволяют вам сбалансировать скорость, производительность и возможность обобщения в соответствии с вашими потребностями. ваши потребности в любом развертывании. Дополнительную информацию о разнице между этими вариантами см. на карточке модели .

Защитите свои модели с помощью ShieldGemma

Запустите Google Colab (Керас)

Запустите Google Colab (Трансформеры)

Вы можете использовать модели ShieldGemma в следующих средах.

KerasNLP , с контрольными точками модели, доступными на Kaggle . Чтобы начать, ознакомьтесь с ShieldGemma в Keras Colab .
Hugging Face Transformers с контрольными точками модели, доступными в Hugging Face Hub . Чтобы начать, ознакомьтесь с ShieldGemma в Transformers Colab .

на основе API

Google предоставляет классификаторы безопасности контента на основе API, которые можно использовать для фильтрации входных и выходных данных системы:

Checks AI Safety обеспечивает оценку соответствия на основе политик и информационные панели, поддерживающие оценку и мониторинг моделей. Инструмент AI Safety находится в стадии открытого бета-тестирования. Подпишитесь на новости, доступ и демонстрационные версии.
Perspective API — это бесплатный API, который использует модели машинного обучения для оценки предполагаемого влияния комментария на разговор. Он предоставляет оценки, которые отражают вероятность того, является ли комментарий токсичным, угрожающим, оскорбительным или не по теме.
Служба модерации текста — это облачный API Google, который доступен для использования при достижении определенного лимита использования и использует машинное обучение для анализа документа по списку атрибутов безопасности, включая различные потенциально опасные категории и темы, которые могут считаться конфиденциальными.

Важно оценить, насколько готовые классификаторы соответствуют целям вашей политики, и качественно оценить случаи сбоя. Также важно отметить, что чрезмерная фильтрация может также привести к непреднамеренному вреду, а также снизить полезность приложения, а это означает, что важно также рассмотреть случаи, когда может иметь место чрезмерная фильтрация. Дополнительные сведения о таких методах оценки см. в разделе Оценка модели и системы на предмет безопасности .

Создавайте индивидуальные классификаторы безопасности

Существует несколько причин, по которым готовая защита может не подойти для вашего варианта использования, например, наличие политики, которая не поддерживается, или желание дополнительно настроить защиту с учетом данных, которые, как вы заметили, влияют на вашу систему. В этом случае гибкие классификаторы обеспечивают эффективную и гибкую основу для создания индивидуальных мер безопасности путем настройки моделей, таких как Gemma, в соответствии с вашими потребностями. Они также позволяют вам полностью контролировать, где и как они развернуты.

Учебные пособия по гибкому классификатору Gemma

Запустить кодлаб

Запустите Google Колаб

В кодовой лаборатории и учебном пособии по гибким классификаторам используется LoRA для точной настройки модели Gemma в качестве классификатора модерации контента с использованием библиотеки KerasNLP . Используя всего 200 примеров из набора данных ETHOS , этот классификатор достигает показателя F1 0,80 и показателя ROC-AUC 0,78, что выгодно отличается от современных результатов таблицы лидеров . При обучении на 800 примерах, как и другие классификаторы в таблице лидеров, гибкий классификатор на основе Gemma достигает показателя F1 83,74 и показателя ROC-AUC 88,17. Вы можете адаптировать учебные инструкции для дальнейшего совершенствования этого классификатора или для создания собственных мер безопасности классификатора.

Ресурсы для разработчиков

Perspective API : для выявления токсичного контента.
Служба модерации текста : для клиентов Google Cloud.

Приложения генеративного искусственного интеллекта часто полагаются на фильтрацию входных и выходных данных, иногда называемую защитой , чтобы обеспечить ответственное поведение модели. Методы входной и выходной фильтрации проверяют, что данные, входящие в модель или исходящие из нее, соответствуют политикам, которые вы определяете для своего приложения. Классификаторы входных данных обычно используются для фильтрации контента, который не предназначен для использования в вашем приложении и который может привести к тому, что ваша модель нарушит ваши политики безопасности. Входные фильтры часто нацелены на состязательные атаки, которые пытаются обойти вашу политику в отношении контента. Классификаторы выходных данных работают с обучением по технике безопасности и дополнительно фильтруют выходные данные модели, улавливая сгенерированные выходные данные, которые могут нарушать ваши политики безопасности. Рекомендуется иметь классификаторы, охватывающие все ваши политики в отношении контента.

Готовые гарантии

ЩитДжемма

ShieldGemma — это набор готовых, настроенных с помощью инструкций моделей классификаторов контента с открытыми весами, построенных на Gemma 2 , которые могут определять, нарушает ли предоставленный пользователем, созданный моделью или смешанный контент политику безопасности контента. ShieldGemma обучена выявлять четыре вида вреда (сексуальный контент, опасный контент, преследование и разжигание ненависти) и поставляется в трех вариантах класса размера — параметры 2B, 9B и 27B, — которые позволяют вам сбалансировать скорость, производительность и возможность обобщения в соответствии с вашими потребностями. ваши потребности в любом развертывании. Дополнительную информацию о разнице между этими вариантами см. на карточке модели .

Защитите свои модели с помощью ShieldGemma

Запустите Google Colab (Керас)

Запустите Google Colab (Трансформеры)

Вы можете использовать модели ShieldGemma в следующих средах.

KerasNLP , с контрольными точками модели, доступными на Kaggle . Чтобы начать, ознакомьтесь с ShieldGemma в Keras Colab .
Hugging Face Transformers с контрольными точками модели, доступными в Hugging Face Hub . Чтобы начать, ознакомьтесь с ShieldGemma в Transformers Colab .

на основе API

Checks AI Safety обеспечивает оценку соответствия на основе политик и информационные панели, поддерживающие оценку и мониторинг моделей. Инструмент AI Safety находится в стадии открытого бета-тестирования. Подпишитесь на новости, доступ и демонстрационные версии.
Perspective API — это бесплатный API, который использует модели машинного обучения для оценки предполагаемого влияния комментария на разговор. Он предоставляет оценки, которые отражают вероятность того, является ли комментарий токсичным, угрожающим, оскорбительным или не по теме.
Служба модерации текста — это облачный API Google, который доступен для использования при достижении определенного лимита использования и использует машинное обучение для анализа документа по списку атрибутов безопасности, включая различные потенциально опасные категории и темы, которые могут считаться конфиденциальными.

Создавайте индивидуальные классификаторы безопасности

Учебные пособия по гибкому классификатору Gemma

Запустить кодлаб

Запустите Google Колаб

В кодовой лаборатории и учебном пособии по гибким классификаторам LoRA используется для точной настройки модели Gemma в качестве классификатора модерации контента с использованием библиотеки KerasNLP . Используя всего 200 примеров из набора данных ETHOS , этот классификатор достигает показателя F1 , равного 0,80, и показателя ROC-AUC, равного 0,78, что выгодно отличается от современных результатов таблицы лидеров . При обучении на 800 примерах, как и другие классификаторы в таблице лидеров, гибкий классификатор на основе Gemma достигает показателя F1 83,74 и показателя ROC-AUC 88,17. Вы можете адаптировать учебные инструкции для дальнейшего совершенствования этого классификатора или для создания собственных защитных мер безопасности классификатора.

Ресурсы для разработчиков

Perspective API : для выявления токсичного контента.
Служба модерации текста : для клиентов Google Cloud.

Приложения генеративного искусственного интеллекта часто полагаются на фильтрацию входных и выходных данных, иногда называемую защитой , чтобы обеспечить ответственное поведение модели. Методы входной и выходной фильтрации проверяют, что данные, входящие в модель или исходящие из нее, соответствуют политикам, которые вы определяете для своего приложения. Классификаторы входных данных обычно используются для фильтрации контента, который не предназначен для использования в вашем приложении и который может привести к тому, что ваша модель нарушит ваши политики безопасности. Входные фильтры часто нацелены на состязательные атаки, которые пытаются обойти вашу политику в отношении контента. Классификаторы выходных данных работают с обучением по технике безопасности и дополнительно фильтруют выходные данные модели, улавливая сгенерированные выходные данные, которые могут нарушать ваши политики безопасности. Рекомендуется иметь классификаторы, охватывающие все ваши политики в отношении контента.

Готовые гарантии

ЩитДжемма

ShieldGemma — это набор готовых, настроенных с помощью инструкций моделей классификаторов контента с открытыми весами, построенных на Gemma 2 , которые могут определять, нарушает ли предоставленный пользователем, сгенерированный моделью или смешанный контент политику безопасности контента. ShieldGemma обучена выявлять четыре вида вреда (сексуальный контент, опасный контент, преследование и разжигание ненависти) и поставляется в трех вариантах класса размера — параметры 2B, 9B и 27B, — которые позволяют вам сбалансировать скорость, производительность и возможность обобщения в соответствии с вашими потребностями. ваши потребности в любом развертывании. Дополнительную информацию о разнице между этими вариантами см. на карточке модели .

Защитите свои модели с помощью ShieldGemma

Запустите Google Colab (Керас)

Запустите Google Colab (Трансформеры)

Вы можете использовать модели ShieldGemma в следующих средах.

KerasNLP , с контрольными точками модели, доступными на Kaggle . Чтобы начать, ознакомьтесь с ShieldGemma в Keras Colab .
Hugging Face Transformers с контрольными точками модели, доступными в Hugging Face Hub . Чтобы начать, ознакомьтесь с ShieldGemma в Transformers Colab .

на основе API

Проверки AI Safety обеспечивает оценку соответствия на основе политик и информационные панели, поддерживающие оценку и мониторинг моделей. Инструмент AI Safety находится в стадии открытого бета-тестирования. Подпишитесь на новости, доступ и демонстрационные версии.
Perspective API — это бесплатный API, который использует модели машинного обучения для оценки предполагаемого влияния комментария на разговор. Он предоставляет оценки, которые отражают вероятность того, является ли комментарий токсичным, угрожающим, оскорбительным или не по теме.
Служба модерации текста — это облачный API Google, который доступен для использования при достижении определенного лимита использования и использует машинное обучение для анализа документа по списку атрибутов безопасности, включая различные потенциально опасные категории и темы, которые могут считаться конфиденциальными.

Создавайте индивидуальные классификаторы безопасности

Учебные пособия по гибкому классификатору Gemma

Запустить кодлаб

Запустите Google Колаб

В кодовой лаборатории и учебном пособии по гибким классификаторам LoRA используется для точной настройки модели Gemma в качестве классификатора модерации контента с использованием библиотеки KerasNLP . Используя всего 200 примеров из набора данных ETHOS , этот классификатор достигает показателя F1 , равного 0,80, и показателя ROC-AUC, равного 0,78, что выгодно отличается от современных результатов таблицы лидеров . При обучении на 800 примерах, как и другие классификаторы в таблице лидеров, гибкий классификатор на основе Gemma достигает показателя F1 83,74 и показателя ROC-AUC 88,17. Вы можете адаптировать учебные инструкции для дальнейшего совершенствования этого классификатора или для создания собственных мер безопасности классификатора.

Ресурсы для разработчиков

Perspective API : для выявления токсичного контента.
Служба модерации текста : для клиентов Google Cloud.

Готовые гарантии

ЩитДжемма

ShieldGemma — это набор готовых, настроенных с помощью инструкций моделей классификаторов контента с открытыми весами, построенных на Gemma 2 , которые могут определять, нарушает ли предоставленный пользователем, созданный моделью или смешанный контент политику безопасности контента. ShieldGemma обучена выявлять четыре вида вреда (сексуальный контент, опасный контент, преследование и разжигание ненависти) и поставляется в трех вариантах класса размера — параметры 2B, 9B и 27B, — которые позволяют вам сбалансировать скорость, производительность и возможность обобщения в соответствии с вашими потребностями. ваши потребности в любом развертывании. Дополнительную информацию о разнице между этими вариантами см. на карточке модели .

Защитите свои модели с помощью ShieldGemma

Запустите Google Colab (Керас)

Запустите Google Colab (Трансформеры)

Вы можете использовать модели ShieldGemma в следующих средах.

KerasNLP , с контрольными точками модели, доступными на Kaggle . Чтобы начать, ознакомьтесь с ShieldGemma в Keras Colab .
Hugging Face Transformers с контрольными точками модели, доступными в Hugging Face Hub . Чтобы начать, ознакомьтесь с ShieldGemma в Transformers Colab .

на основе API

Проверки AI Safety обеспечивает оценку соответствия на основе политик и информационные панели, поддерживающие оценку и мониторинг моделей. Инструмент AI Safety находится в стадии открытого бета-тестирования. Подпишитесь на новости, доступ и демонстрационные версии.
Perspective API — это бесплатный API, который использует модели машинного обучения для оценки предполагаемого влияния комментария на разговор. Он предоставляет оценки, которые отражают вероятность того, является ли комментарий токсичным, угрожающим, оскорбительным или не по теме.
Служба модерации текста — это облачный API Google, который доступен для использования при достижении определенного лимита использования и использует машинное обучение для анализа документа по списку атрибутов безопасности, включая различные потенциально опасные категории и темы, которые могут считаться конфиденциальными.

Создавайте индивидуальные классификаторы безопасности

Учебные пособия по гибкому классификатору Gemma

Запустить кодлаб

Запустите Google Колаб

В кодовой лаборатории и учебном пособии по гибким классификаторам LoRA используется для точной настройки модели Gemma в качестве классификатора модерации контента с использованием библиотеки KerasNLP . Используя всего 200 примеров из набора данных ETHOS , этот классификатор достигает показателя F1 0,80 и показателя ROC-AUC 0,78, что выгодно отличается от современных результатов таблицы лидеров . При обучении на 800 примерах, как и другие классификаторы в таблице лидеров, гибкий классификатор на основе Gemma достигает показателя F1 83,74 и показателя ROC-AUC 88,17. Вы можете адаптировать учебные инструкции для дальнейшего совершенствования этого классификатора или для создания собственных мер безопасности классификатора.

Ресурсы для разработчиков

Perspective API : для выявления токсичного контента.
Служба модерации текста : для клиентов Google Cloud.

Создайте средства защиты ввода и вывода

Готовые гарантии

ЩитДжемма

на основе API

Создавайте индивидуальные классификаторы безопасности

Рекомендации по настройке мер безопасности

Ресурсы для разработчиков

Готовые гарантии

ЩитДжемма

на основе API

Создавайте индивидуальные классификаторы безопасности

Рекомендации по настройке мер безопасности

Ресурсы для разработчиков

Готовые гарантии

ЩитДжемма

на основе API

Создавайте индивидуальные классификаторы безопасности

Рекомендации по настройке мер безопасности

Ресурсы для разработчиков

Готовые гарантии

ЩитДжемма

на основе API

Создавайте индивидуальные классификаторы безопасности

Рекомендации по настройке мер безопасности

Ресурсы для разработчиков