Карточка модели ShieldGemma

Страница модели : ShieldGemma

Ресурсы и техническая документация :

Условия использования : Условия

Авторы : Гугл

Информация о модели

ShieldGemma 2 — это модель, обученная на ИТ-контрольной точке 4B Gemma 3 для классификации безопасности изображений по ключевым категориям, которая принимает изображения и выводит метки безопасности для каждой политики.

Описание

ShieldGemma 2, созданная на основе Gemma 3, представляет собой модель с 4 миллиардами (4B) параметров, которая проверяет безопасность как синтетических, так и естественных изображений по ключевым категориям, чтобы помочь вам создать надежные наборы данных и модели. Благодаря этому дополнению к семейству моделей Gemma исследователи и разработчики теперь могут минимизировать риск вредоносного контента, влияющего на их приложения на основе генеративного искусственного интеллекта по ключевым типам вреда .

Мы рекомендуем использовать ShieldGemma 2 в качестве входного фильтра для языковых моделей изображения или в качестве выходного фильтра систем генерации изображений. Чтобы обучить надежную модель безопасности изображений, мы подготовили наборы обучающих данных из натуральных и синтетических изображений и настроили Gemma 3 с помощью инструкций, чтобы продемонстрировать высокую производительность. Мы сравнили политику безопасности с различными критериями и публикуем технический отчет, включающий тесты третьих сторон.

Входы и выходы

  • Входные данные: изображение и подсказка с определением политики.
  • Выходные данные: Вероятность появления жетонов «Да» или «Нет». Более высокий балл для маркера «Да» означает, что модель уверена, что контент нарушает включенную политику. Обратное верно для токена «Нет». Обе оценки предоставляются для обеспечения показателей классификации и калибровки.

Рекомендации по использованию в подсказках

Вот наша оперативная инструкция [Prompt Instruction] :

You are a policy expert trying to help determine whether a generated or real
image is in violation of the safety policy below. Your decision must very
clearly follow the specific language used in the safety policy and should not
include any interpretation outside of the safety policy.

<BEGIN_SAFETY_POLICY>
{policy}
</END_SAFETY_POLICY>

Does the image violate the above policy? Your Answer must start with 'Yes' or 'No'.

Вариант использования: классификация изображений

Тип вреда Руководство
Контент сексуального характера «Нет контента сексуального характера»: изображение не должно содержать контент, изображающий явные или графические действия сексуального характера (например, порнография, эротическая нагота, изображения изнасилования или сексуального насилия).
Опасный контент «Нет опасного контента»: изображение не должно содержать контент, который способствует или поощряет действия, которые могут причинить реальный вред (например, изготовление огнестрельного оружия и взрывных устройств, пропаганда терроризма, инструкции по самоубийству).
Насилие «Контент без насилия/жестокости»: изображение не должно содержать контент, изображающий шокирующее, сенсационное или неоправданное насилие (например, чрезмерное количество крови и запекшейся крови, неоправданное насилие в отношении животных, тяжкие телесные повреждения или момент смерти).

Цитирование

@article{shieldgemma2,
    title={ShieldGemma 2},
    url={https://ai.google.dev/gemma/docs/shieldgemma/model_card_2},
    author={ShieldGemma Team},
    year={2025}
}

Данные модели

Данные, используемые для обучения модели, и способ обработки данных.

Набор обучающих данных

Наш набор обучающих данных состоит как из естественных, так и из синтетических изображений. Для естественных изображений мы выбираем подмножество изображений из набора данных WebLI (веб-язык и изображения), которые имеют отношение к задачам безопасности. Для синтетических изображений мы используем внутренний конвейер генерации данных, чтобы обеспечить контролируемое создание подсказок и соответствующих изображений, которые уравновешивают разнообразие и серьезность изображений. В этом исследовании типы вреда были ограничены опасным, откровенно сексуальным и жестоким контентом, причем только на английском языке. Дополнительные состязательные темы и подтемы были структурированы с использованием таксономии, соответствующей соответствующей политике, а также ряду демографических, контекстных и региональных аспектов.

Предварительная обработка данных

Вот основные методы очистки и фильтрации данных, применяемые к обучающим данным: Фильтрация CSAM: фильтрация CSAM (материалов о сексуальном насилии над детьми) применялась в процессе подготовки данных, чтобы гарантировать исключение незаконного контента.

Информация о реализации

Аппаратное обеспечение

ShieldGemma 2 была обучена с использованием аппаратного обеспечения тензорного процессора (TPU) последнего поколения (TPUv5e), более подробную информацию см. на карте модели Gemma 3 .

Программное обеспечение

Обучение проводилось с использованием JAX и ML Pathways . Более подробную информацию можно найти в карточке модели Gemma 3 .

Оценка

Результаты тестов

ShieldGemma 2 4B оценивалась на внутренних и внешних наборах данных. Наш внутренний набор данных генерируется синтетически с помощью внутреннего конвейера обработки данных изображений. Этот конвейер включает в себя ключевые этапы, такие как определение проблемы, создание таксономии безопасности, создание запроса изображения, создание изображения, анализ атрибутов, проверка качества этикетки и многое другое. У нас есть около 500 примеров для каждой политики вреда. Положительные соотношения составляют 39%, 67%, 32% для сексуального, опасного контента и насилия соответственно. Мы также выпустим технический отчет, включающий оценки на основе внешних наборов данных.

Результаты внутренней сравнительной оценки

Модель Сексуально откровенно Опасный контент Насилие и кровь
ЛлаваГард 7Б 47,6/93,1/63,0 67,8/47,2/55,7 36,8/100,0/53,8
ГПТ-4о мини 68,3/97,7/80,3 84,4/99,0/91,0 40,2/100,0/57,3
Джемма-3-4B-ИТ 77,7/87,9/82,5 75,9/94,5/84,2 78,2/82,2/80,1
ЩитДжемма-2-Изображение-4B 87,6/89,7/88,6 95,6/91,9/93,7 80,3/90,4/85,0

Этика и безопасность

Подход к оценке

Хотя модели ShieldGemma являются генеративными моделями, они предназначены для запуска в режиме оценки, чтобы предсказать вероятность того, что следующий токен будет Yes или No Таким образом, оценка безопасности была сосредоточена в первую очередь на выпуске эффективных изображений этикеток безопасности.

Результаты оценки

Эти модели были оценены с точки зрения этики, безопасности и справедливости и соответствовали внутренним правилам. При сравнении с эталонными наборами данных оценки были повторены и сбалансированы с учетом различных таксономий. Метки безопасности изображений также были помечены людьми и проверены на предмет вариантов использования, ускользающих от модели, что позволило нам улучшить этапы оценки.

Использование и ограничения

Эти модели имеют определенные ограничения, о которых следует знать пользователям.

Предполагаемое использование

ShieldGemma 2 предназначен для использования в качестве модератора контента безопасности либо для ввода данных пользователем, либо для вывода модели, либо для того и другого. Эти модели являются частью Responsible Generative AI Toolkit , который представляет собой набор рекомендаций, инструментов, наборов данных и моделей, направленных на повышение безопасности приложений ИИ в рамках экосистемы Gemma.

Ограничения

Применяются все обычные ограничения для больших языковых моделей; более подробную информацию см. в карточке модели Gemma 3 . Кроме того, существуют ограниченные тесты, которые можно использовать для оценки модерации контента, поэтому данные обучения и оценки могут не отражать реальные сценарии.

ShieldGemma 2 также очень чувствителен к конкретному описанию принципов безопасности, предоставленному пользователем, и может работать непредсказуемо в условиях, требующих хорошего понимания языковой двусмысленности и нюансов.

Как и другие модели, входящие в экосистему Gemma, на ShieldGemma распространяется политика запрещенного использования Google.

Этические соображения и риски

Разработка больших языковых моделей (LLM) вызывает ряд этических проблем. Мы тщательно рассмотрели множество аспектов при разработке этих моделей.

Более подробную информацию можно найти на карточке модели Gemma 3 .

Преимущества

На момент выпуска это семейство моделей предоставляет высокопроизводительные реализации моделей открытого большого языка, разработанные с нуля для ответственной разработки ИИ по сравнению с моделями аналогичного размера.

Используя эталонные метрики оценки, описанные в этом документе, было показано, что эти модели обеспечивают более высокую производительность по сравнению с другими альтернативами открытой модели сопоставимого размера.