Página do modelo: ShieldGemma
Recursos e documentação técnica:
- Kit de ferramentas de IA generativa responsável
- ShieldGemma no Kaggle
- ShieldGemma no Hub do Hugging Face
Termos de Uso: Termos
Autores: Google
Informações do modelo
O ShieldGemma 2 é um modelo treinado no ponto de verificação de TI 4B do Gemma 3 para classificação de segurança de imagens em categorias principais que recebem imagens e geram rótulos de segurança por política.
Descrição
O ShieldGemma 2, criado com base no Gemma 3, é um modelo de 4 bilhões (4B) de parâmetros que verifica a segurança de imagens sintéticas e naturais em categorias principais para ajudar você a criar conjuntos de dados e modelos robustos. Com essa adição à família de modelos Gemma, pesquisadores e desenvolvedores agora podem minimizar o risco de conteúdo nocivo afetar os aplicativos com tecnologia de IA generativa em vários tipos de danos.
Recomendamos o uso do ShieldGemma 2 como um filtro de entrada para modelos de linguagem de visão ou como um filtro de saída de sistemas de geração de imagens. Para treinar um modelo de segurança de imagem robusto, selecionamos conjuntos de dados de treinamento de imagens naturais e sintéticas e ajustamos o Gemma 3 às instruções para demonstrar um bom desempenho. Comparamos as políticas de segurança com diferentes comparativos e estamos lançando um relatório técnico que incorpora comparativos de terceiros.
Entradas e saídas
- Entrada:imagem e instrução com definição da política.
- Saída:probabilidade de tokens "Sim" ou "Não". Uma pontuação mais alta para o token "Sim" indica que o modelo tem certeza de que o conteúdo viola a política incluída. O inverso é verdadeiro para o token "Não". As duas pontuações são fornecidas para ativar as métricas de classificação e a calibragem.
Diretrizes para usar nos comandos
Esta é a instrução do comando [Prompt Instruction]
:
You are a policy expert trying to help determine whether a generated or real
image is in violation of the safety policy below. Your decision must very
clearly follow the specific language used in the safety policy and should not
include any interpretation outside of the safety policy.
<BEGIN_SAFETY_POLICY>
{policy}
</END_SAFETY_POLICY>
Does the image violate the above policy? Your Answer must start with 'Yes' or 'No'.
Caso de uso: classificação de imagens
Tipo de dano | Guideline |
---|---|
Conteúdo sexualmente explícito | "Nenhum conteúdo sexualmente explícito": A imagem deve não conter conteúdo que retrate explícito ou atos sexuais explícitos (por exemplo, pornografia, erotismo. nudez, representações de violação ou agressão sexual). |
Conteúdo perigoso | "Sem conteúdo perigoso": a imagem não pode conter conteúdo que facilite ou incentive atividades que possam causar danos reais (por exemplo, a criação de armas de fogo e dispositivos explosivos, promoção do terrorismo, instruções para suicídio). |
Conteúdo violento | "Sem conteúdo de violência/imagens sangrentas": a imagem não pode mostrar conteúdo que represente violência chocante, sensacionalista ou sem custo financeiro (por exemplo, sangue e imagens sangrentas em excesso, violência sem custo financeiro contra animais, ferimentos graves ou momento de morte). |
Citação
@article{shieldgemma2,
title={ShieldGemma 2},
url={https://ai.google.dev/gemma/docs/shieldgemma/model_card_2},
author={ShieldGemma Team},
year={2025}
}
Dados do modelo
Dados usados para o treinamento do modelo e como eles foram processados.
Conjunto de dados de treinamento
Nosso conjunto de dados de treinamento consiste em imagens naturais e sintéticas. Para imagens naturais, fazemos a amostragem de um subconjunto de imagens do conjunto de dados WebLI (Web Language and Image) que são relevantes para as tarefas de segurança. Para imagens sintéticas, usamos um pipeline interno de geração de dados para permitir a geração controlada de instruções e imagens correspondentes que equilibram a diversidade e a gravidade das imagens. Para este estudo, os tipos de dano foram limitados a conteúdo perigoso, sexualmente explícito e violento, somente em inglês. Outros tópicos e subtópicos adversários foram estruturados usando uma taxonomia que corresponde às políticas e a uma variedade de aspectos demográficos, de contexto e regionais.
Pré-processamento de dados
Confira os principais métodos de limpeza e filtragem de dados aplicados aos dados de treinamento: Filtragem de CSAM: a filtragem de material de abuso sexual infantil foi aplicada no processo de preparação de dados para garantir a exclusão de conteúdo ilegal.
Informações de implementação
Hardware
O ShieldGemma 2 foi treinado usando a geração mais recente de hardware Unidade de Processamento de Tensor (TPU) (TPUv5e). Para mais detalhes, consulte o card de modelo do Gemma 3.
Software
O treinamento foi feito usando o JAX e o ML Pathways. Para mais detalhes, consulte o card de modelo do Gemma 3.
Avaliação
Resultados da comparação
O ShieldGemma 2 4B foi avaliado em relação a conjuntos de dados internos e externos. Nosso conjunto de dados interno é gerado sinteticamente pelo pipeline de curadoria de dados de imagens interno. Esse pipeline inclui etapas importantes, como definição do problema, geração de taxonomia de segurança, geração de consulta de imagem, geração de imagem, análise de atributos, validação da qualidade do rótulo e muito mais. Temos aproximadamente 500 exemplos para cada política de danos. As proporções positivas são de 39%, 67% e 32% para conteúdo sexual, perigoso e violência, respectivamente. Também vamos lançar um relatório técnico que inclui avaliações em relação a conjuntos de dados externos.
Resultados da avaliação de comparativo interno
Modelo | Sexualmente explícito | Conteúdo perigoso | Violência e imagens sangrentas |
---|---|---|---|
LlavaGuard 7B | 47.6/93.1/63.0 | 67,8/47,2/55,7 | 36,8/100,0/53,8 |
GPT-4o mini | 68,3/97,7/80,3 | 84.4/99.0/91.0 | 40.2/100.0/57.3 |
Gemma-3-4B-IT | 77,7/87,9/82,5 | 75,9/94,5/84,2 | 78.2/82.2/80.1 |
ShieldGemma-2-Image-4B | 87,6/89,7/88,6 | 95,6/91,9/93,7 | 80.3/90.4/85.0 |
Ética e segurança
Abordagem de avaliação
Embora os modelos ShieldGemma sejam generativos, eles foram projetados para serem
executados no modo de pontuação para prever a probabilidade de o próximo token ser Yes
ou No
. Portanto, a avaliação de segurança se concentrou principalmente na geração de
rótulos de segurança de imagem eficazes.
Resultados da avaliação
Esses modelos foram avaliados quanto à ética, segurança e imparcialidade e atenderam às diretrizes internas. Quando comparados com os comparativos de mercado, os conjuntos de dados de avaliação foram iterados e equilibrados em relação a diversas taxonomias. Os rótulos de segurança de imagens também foram marcados por humanos e verificados para casos de uso que escaparam do modelo, o que nos permitiu melhorar as rodadas de avaliação.
Uso e limitações
Esses modelos têm algumas limitações que os usuários precisam conhecer.
Uso pretendido
O ShieldGemma 2 foi desenvolvido para ser usado como moderador de conteúdo de segurança, seja para entradas de usuários humanos, saídas de modelos ou ambos. Esses modelos fazem parte do Kit de ferramentas de IA generativa responsável, um conjunto de recomendações, ferramentas, conjuntos de dados e modelos que visa melhorar a segurança dos aplicativos de IA como parte do ecossistema Gemma.
Limitações
Todas as limitações usuais para modelos de linguagem grandes se aplicam. Consulte o card de modelo do Gemma 3 para mais detalhes. Além disso, há poucos comparativos que podem ser usados para avaliar a moderação de conteúdo. Por isso, os dados de treinamento e avaliação podem não ser representativos de cenários reais.
O ShieldGemma 2 também é altamente sensível à descrição específica fornecida pelo usuário dos princípios de segurança e pode apresentar um desempenho imprevisível em condições que exigem um bom entendimento da ambiguidade e nuance da linguagem.
Como outros modelos que fazem parte do ecossistema Gemma, o ShieldGemma está sujeito às políticas de uso proibido do Google.
Considerações e riscos éticos
O desenvolvimento de modelos de linguagem grandes (LLMs) levanta várias questões éticas. Consideramos vários aspectos no desenvolvimento desses modelos.
Consulte o card de modelo do Gemma 3 para mais detalhes.
Vantagens
No momento do lançamento, essa família de modelos oferece implementações de modelos de linguagem grandes de alto desempenho e de código aberto, projetadas desde o início para o desenvolvimento de IA responsável em comparação com modelos de tamanho semelhante.
Usando as métricas de avaliação de comparação descritas neste documento, esses modelos foram mostrados como tendo um desempenho superior a outras alternativas de modelo aberto de tamanho semelhante.