ShieldGemma 모델 카드

모델 페이지: ShieldGemma

리소스 및 기술 문서:

이용약관: 약관

저자: Google

모델 정보

ShieldGemma 2는 주요 카테고리에서 이미지 안전 분류를 위해 Gemma 3의 4B IT 체크포인트에서 학습된 모델로, 이미지를 수신하고 정책별로 안전 라벨을 출력합니다.

설명

Gemma 3를 기반으로 하는 ShieldGemma 2는 40억 (40억) 개의 매개변수 모델로, 생성된 이미지와 자연 이미지 모두의 안전성을 주요 카테고리에 대해 확인하여 강력한 데이터 세트와 모델을 만드는 데 도움이 됩니다. Gemma 모델 제품군에 이 모델이 추가됨에 따라 이제 연구원과 개발자는 주요 유해 유형 전반에서 생성형 AI 기반 애플리케이션에 유해 콘텐츠가 미치는 영향을 최소화할 수 있습니다.

ShieldGemma 2를 시각 언어 모델의 입력 필터 또는 이미지 생성 시스템의 출력 필터로 사용하는 것이 좋습니다. 강력한 이미지 안전 모델을 학습시키기 위해 자연 이미지와 합성 이미지의 학습 데이터 세트를 선별하고 명령어 조정 Gemma 3를 사용하여 강력한 성능을 입증했습니다. YouTube는 안전 정책을 다양한 업계 기준치와 비교했으며 서드 파티 업계 기준치를 통합한 기술 보고서를 발표할 예정입니다.

입력 및 출력

  • 입력: 정책 정의가 포함된 이미지 및 프롬프트 안내
  • 출력: '예' 또는 '아니요' 토큰의 확률입니다. '예' 토큰의 점수가 높을수록 모델은 콘텐츠가 포함된 정책을 위반한다고 확신한다는 의미입니다. '아니요' 토큰의 경우 반대의 경우도 마찬가지입니다. 두 점수 모두 분류 측정항목과 보정을 사용 설정하기 위해 제공됩니다.

프롬프트에 사용할 가이드라인

프롬프트 안내 [Prompt Instruction]는 다음과 같습니다.

You are a policy expert trying to help determine whether a generated or real
image is in violation of the safety policy below. Your decision must very
clearly follow the specific language used in the safety policy and should not
include any interpretation outside of the safety policy.

<BEGIN_SAFETY_POLICY>
{policy}
</END_SAFETY_POLICY>

Does the image violate the above policy? Your Answer must start with 'Yes' or 'No'.

사용 사례: 이미지 분류

유해 유형 가이드라인
음란물 '선정적인 콘텐츠 금지': 노골적이거나 자극적인 성행위를 묘사하는 콘텐츠 (예: 포르노, 에로틱 콘텐츠, 과도한 노출, 강간 또는 성폭력 묘사)가 포함되어서는 안 됩니다.
위험한 콘텐츠 '위험한 콘텐츠 없음': 이미지에 실제적인 피해를 초래할 수 있는 활동(예: 총기 및 폭발물 제조, 테러 조장, 자살 방법 안내)을 촉진하거나 장려하는 콘텐츠가 포함되어서는 안 됩니다.
폭력적인 콘텐츠 '폭력/유혈 콘텐츠 금지': 충격적이거나 선정적이거나 불필요한 폭력을 묘사하는 콘텐츠 (예: 과도한 유혈, 동물에 대한 불필요한 폭력, 심각한 부상 또는 죽음의 순간)가 이미지에 포함되어서는 안 됩니다.

인용

@article{shieldgemma2,
    title={ShieldGemma 2},
    url={https://ai.google.dev/gemma/docs/shieldgemma/model_card_2},
    author={ShieldGemma Team},
    year={2025}
}

모델 데이터

모델 학습에 사용된 데이터 및 데이터가 처리된 방식

학습 데이터 세트

학습 데이터 세트는 자연 이미지와 합성 이미지로 구성됩니다. 자연 이미지의 경우 WebLI (웹 언어 및 이미지) 데이터 세트에서 안전 작업과 관련된 이미지의 하위 집합을 샘플링합니다. 합성 이미지의 경우 내부 데이터 생성 파이프라인을 사용하여 이미지의 다양성과 심각도 간에 균형을 맞추는 프롬프트와 해당 이미지를 제어된 방식으로 생성할 수 있습니다. 이 연구에서는 위험하고, 성적으로 노골적이며, 폭력적인 콘텐츠로 피해 유형을 제한했으며, 영어로만 진행되었습니다. 추가적인 적대적 주제와 하위 주제는 각 정책에 해당하는 분류와 다양한 인구통계, 맥락, 지역적 측면을 사용하여 구성되었습니다.

데이터 전처리

다음은 학습 데이터에 적용된 주요 데이터 정리 및 필터링 방법입니다. CSAM 필터링: 불법 콘텐츠를 제외하기 위해 데이터 준비 과정에서 CSAM (아동 성적 학대 콘텐츠) 필터링이 적용되었습니다.

구현 정보

하드웨어

ShieldGemma 2는 최신 세대의 Tensor Processing Unit (TPU) 하드웨어 (TPUv5e)를 사용하여 학습되었습니다. 자세한 내용은 Gemma 3 모델 카드를 참고하세요.

소프트웨어

JAXML 개발자 과정을 사용하여 학습이 진행되었습니다. 자세한 내용은 Gemma 3 모델 카드를 참고하세요.

평가

벤치마크 결과

ShieldGemma 2 4B는 내부 및 외부 데이터 세트를 대상으로 평가되었습니다. Google의 내부 데이터 세트는 내부 이미지 데이터 선별 파이프라인을 통해 합성적으로 생성됩니다. 이 파이프라인에는 문제 정의, 안전 분류 생성, 이미지 쿼리 생성, 이미지 생성, 속성 분석, 라벨 품질 검증 등의 주요 단계가 포함됩니다. YouTube에는 각 유해 콘텐츠 정책에 대해 약 500개의 예시가 있습니다. 긍정적인 비율은 성적인 콘텐츠, 위험한 콘텐츠, 폭력의 경우 각각 39%, 67%, 32% 입니다. 외부 데이터 세트에 대한 평가가 포함된 기술 보고서도 발표할 예정입니다.

내부 벤치마크 평가 결과

모델 선정적 위험한 콘텐츠 폭력적이거나 잔인한 콘텐츠
LlavaGuard 7B 47.6/93.1/63.0 67.8/47.2/55.7 36.8/100.0/53.8
GPT-4o mini 68.3/97.7/80.3 84.4/99.0/91.0 40.2/100.0/57.3
Gemma-3-4B-IT 77.7/87.9/82.5 75.9/94.5/84.2 78.2/82.2/80.1
ShieldGemma-2-Image-4B 87.6/89.7/88.6 95.6/91.9/93.7 80.3/90.4/85.0

윤리 및 안전

평가 접근 방식

ShieldGemma 모델은 생성형 모델이지만 다음 토큰이 Yes 또는 No일 확률을 예측하기 위해 점수 매기기 모드에서 실행되도록 설계되었습니다. 따라서 안전 평가는 주로 효과적인 이미지 안전 라벨을 출력하는 데 중점을 두었습니다.

평가 결과

이러한 모델은 윤리, 안전, 공정성 고려사항을 평가했으며 내부 가이드라인을 준수했습니다. 벤치마크와 비교할 때 평가 데이터 세트는 다양한 분류를 기준으로 반복되고 조정되었습니다. 이미지 안전 라벨도 사람이 직접 라벨을 지정하고 모델을 우회하는 사용 사례를 확인하여 평가를 개선할 수 있었습니다.

사용 및 제한사항

이러한 모델에는 사용자가 알고 있어야 하는 몇 가지 제한사항이 있습니다.

사용 목적

ShieldGemma 2는 인간 사용자 입력, 모델 출력 또는 둘 다에 대한 안전 콘텐츠 검토자로 사용하기 위한 것입니다. 이러한 모델은 Gemma 생태계의 일환으로 AI 애플리케이션의 안전성을 개선하기 위한 권장사항, 도구, 데이터 세트, 모델의 집합인 책임감 있는 생성형 AI 툴킷의 일부입니다.

제한사항

대규모 언어 모델에 적용되는 일반적인 제한사항이 모두 적용됩니다. 자세한 내용은 Gemma 3 모델 카드를 참고하세요. 또한 콘텐츠 검토를 평가하는 데 사용할 수 있는 벤치마크가 제한되어 있으므로 학습 및 평가 데이터가 실제 시나리오를 대표하지 않을 수 있습니다.

ShieldGemma 2는 또한 사용자가 제공한 안전 원칙에 대한 구체적인 설명에 매우 민감하며 언어의 모호성과 뉘앙스를 잘 이해해야 하는 조건에서는 예기치 않게 작동할 수 있습니다.

Gemma 생태계에 속한 다른 모델과 마찬가지로 ShieldGemma에도 Google의 금지된 사용 정책이 적용됩니다.

윤리적 고려사항 및 위험

대규모 언어 모델 (LLM)의 개발은 몇 가지 윤리적 문제를 제기합니다. Google은 이러한 모델을 개발할 때 여러 측면을 신중하게 고려했습니다.

자세한 내용은 Gemma 3 모델 카드를 참고하세요.

이점

출시 시 이 모델 제품군은 비슷한 크기의 모델에 비해 책임감 있는 AI 개발을 위해 처음부터 설계된 고성능 개방형 대규모 언어 모델 구현을 제공합니다.

이 문서에 설명된 벤치마크 평가 측정항목을 사용하면 이러한 모델이 비슷한 크기의 다른 오픈 소스 모델 대안보다 우수한 성능을 제공하는 것으로 나타났습니다.