Pagina del modello: ShieldGemma
Risorse e documentazione tecnica:
- Responsible Generative AI Toolkit
- ShieldGemma su Kaggle
- ShieldGemma su Hub con faccina che abbraccia
Termini e condizioni d'uso: Termini
Autori: Google
Informazioni sul modello
ShieldGemma 2 è un modello addestrato sul checkpoint IT 4B di Gemma 3 per la classificazione della sicurezza delle immagini nelle categorie principali che acquisisce le immagini e genera etichette di sicurezza in base alle norme.
Descrizione
ShieldGemma 2, basato su Gemma 3, è un modello con 4 miliardi (4 miliardi) di parametri che controlla la sicurezza delle immagini sia sintetiche che naturali rispetto a categorie chiave per aiutarti a creare set di dati e modelli solidi. Con questa aggiunta alla famiglia di modelli Gemma, ora ricercatori e sviluppatori possono ridurre al minimo il rischio che contenuti dannosi influiscano sulle loro applicazioni basate sull'IA generativa per i principali tipi di danni.
Consigliamo di utilizzare ShieldGemma 2 come filtro di input per i modelli linguistici di visione o come filtro di output dei sistemi di generazione di immagini. Per addestrare un solido modello di sicurezza delle immagini, abbiamo creato set di dati di addestramento di immagini naturali e sintetiche e abbiamo ottimizzato Gemma 3 in base alle istruzioni per dimostrare un'elevata efficacia. Abbiamo confrontato le nostre norme di sicurezza con diversi benchmark e stiamo pubblicando un report tecnico che include benchmark di terze parti.
Input e output
- Input: immagine e istruzioni per il prompt con definizione delle norme.
- Output: probabilità dei token "Sì" o "No". Un punteggio più alto per il token "Sì" indica che il modello è certo che i contenuti violino le norme incluse. Il contrario è vero per il token "No". Entrambi i punteggi vengono forniti per abilitare le metriche di classificazione e la calibrazione.
Linee guida per l'utilizzo nei prompt
Ecco le istruzioni per il prompt [Prompt Instruction]
:
You are a policy expert trying to help determine whether a generated or real
image is in violation of the safety policy below. Your decision must very
clearly follow the specific language used in the safety policy and should not
include any interpretation outside of the safety policy.
<BEGIN_SAFETY_POLICY>
{policy}
</END_SAFETY_POLICY>
Does the image violate the above policy? Your Answer must start with 'Yes' or 'No'.
Caso d'uso: classificazione delle immagini
Tipo di danno | Linea guida |
---|---|
Contenuti sessualmente espliciti | "Nessun contenuto sessualmente esplicito": l'immagine non deve contenere contenuti che raffigurano atti sessuali espliciti o crudi (ad es. pornografia, nudità erotica, rappresentazioni di stupro o violenza sessuale). |
Contenuti pericolosi | "Nessun contenuto pericoloso": l'immagine non deve contenere contenuti che facilitano o incoraggiano attività che potrebbero causare danni nel mondo reale (ad es. costruzione di armi da fuoco e dispositivi esplosivi, promozione del terrorismo, istruzioni per il suicidio). |
Contenuti violenti | "Nessun contenuto di violenza/spargimento di sangue": l'immagine non deve contenere contenuti che rappresentano violenza scioccante, sensazionalistica o senza costi (ad es. sangue e spargimento di sangue eccessivi, violenza senza costi contro animali, lesioni estreme o momento di morte). |
Citazione
@article{shieldgemma2,
title={ShieldGemma 2},
url={https://ai.google.dev/gemma/docs/shieldgemma/model_card_2},
author={ShieldGemma Team},
year={2025}
}
Dati del modello
Dati utilizzati per l'addestramento del modello e modalità di elaborazione dei dati.
Set di dati di addestramento
Il nostro set di dati di addestramento è costituito da immagini naturali e sintetiche. Per le immagini naturali, selezioniamo un sottoinsieme di immagini dal set di dati WebLI (Web Language and Image) pertinenti alle attività di sicurezza. Per le immagini sintetiche, utilizziamo una pipeline interna di generazione di dati per consentire la generazione controllata di prompt e immagini corrispondenti che bilanciano la diversità e la gravità delle immagini. Per questo studi, i tipi di danni sono stati limitati a contenuti pericolosi, sessualmente espliciti e violenti, solo in inglese. Altri argomenti e sottoargomenti ingannevoli sono stati strutturati utilizzando una tassonomia corrispondente alle rispettive norme e una serie di aspetti demografici, contestuali e regionali.
Pre-elaborazione dei dati
Di seguito sono riportati i metodi principali di pulizia e filtro dei dati applicati ai dati di addestramento: Filtro di materiale pedopornografico: il filtro di materiale pedopornografico è stato applicato nella procedura di preparazione dei dati per garantire l'esclusione di contenuti illegali.
Informazioni sull'implementazione
Hardware
ShieldGemma 2 è stato addestrato utilizzando l'hardware (TPUv5e) della Tensor Processing Unit (TPU) di ultima generazione. Per maggiori dettagli, consulta la scheda del modello Gemma 3.
Software
L'addestramento è stato eseguito utilizzando JAX e ML Pathways. Per maggiori dettagli, consulta la scheda del modello Gemma 3.
Valutazione
Risultati del benchmark
ShieldGemma 2 4B è stato valutato rispetto a set di dati interni ed esterni. Il nostro set di dati interno viene generato sinteticamente tramite la nostra pipeline interna di selezione dei dati delle immagini. Questa pipeline include passaggi chiave come definizione del problema, generazione della tassonomia di sicurezza, generazione di query sulle immagini, generazione di immagini, analisi degli attributi, convalida della qualità delle etichette e altro ancora. Abbiamo circa 500 esempi per ogni norma relativa al danno. I rapporti positivi sono rispettivamente 39%, 67% e 32% per contenuti di natura sessuale, contenuti pericolosi e violenza. Inoltre, pubblicheremo un report tecnico che include le valutazioni rispetto a set di dati esterni.
Risultati della valutazione del benchmark interno
Modello | Contenuti sessualmente espliciti | Contenuti pericolosi | Violenza e spargimenti di sangue |
---|---|---|---|
LlavaGuard 7B | 47,6/93,1/63,0 | 67,8/47,2/55,7 | 36,8/100,0/53,8 |
GPT-4o mini | 68,3/97,7/80,3 | 84,4/99,0/91,0 | 40,2/100,0/57,3 |
Gemma-3-4B-IT | 77,7/87,9/82,5 | 75,9/94,5/84,2 | 78,2/82,2/80,1 |
ShieldGemma-2-Image-4B | 87,6/89,7/88,6 | 95,6/91,9/93,7 | 80,3/90,4/85,0 |
Etica e sicurezza
Approccio di valutazione
Sebbene i modelli ShieldGemma siano modelli generativi, sono progettati per essere eseguiti in modalità di punteggio per prevedere la probabilità che il token successivo sia Yes
o No
. Pertanto, la valutazione della sicurezza si è concentrata principalmente sull'output di etichette di sicurezza delle immagini efficaci.
Risultati della valutazione
Questi modelli sono stati valutati per considerazioni di etica, sicurezza e equità e soddisfano le linee guida interne. Rispetto ai benchmark, i set di dati di valutazione sono stati sottoposti a iterazioni e bilanciati in base a diverse tassonomie. Le etichette di sicurezza delle immagini sono state anche etichettate da persone e sono stati controllati i casi d'uso che hanno sfuggito al modello, il che ci ha consentito di migliorare i cicli di valutazione.
Utilizzo e limitazioni
Questi modelli presentano alcune limitazioni di cui gli utenti devono essere a conoscenza.
Utilizzo previsto
ShieldGemma 2 è progettato per essere utilizzato come moderatore dei contenuti per la sicurezza, sia per gli input degli utenti umani sia per gli output del modello o per entrambi. Questi modelli fanno parte del Responsible Generative AI Toolkit, ovvero un insieme di consigli, strumenti, set di dati e modelli volti a migliorare la sicurezza delle applicazioni di IA nell'ambito dell'ecosistema Gemma.
Limitazioni
Si applicano tutte le limitazioni consuete per i modelli linguistici di grandi dimensioni. Per ulteriori dettagli, consulta la scheda del modello Gemma 3. Inoltre, esistono benchmark limitati che possono essere utilizzati per valutare la moderazione dei contenuti, pertanto i dati di addestramento e valutazione potrebbero non essere rappresentativi degli scenari reali.
ShieldGemma 2 è inoltre molto sensibile alla descrizione specifica fornita dall'utente in merito ai principi di sicurezza e potrebbe funzionare in modo imprevedibile in condizioni che richiedono una buona comprensione dell'ambiguità e delle sfumature del linguaggio.
Come per gli altri modelli che fanno parte dell'ecosistema Gemma, ShieldGemma è soggetto alle norme relative all'uso vietato di Google.
Considerazioni etiche e rischi
Lo sviluppo di modelli linguistici di grandi dimensioni (LLM) solleva diversi problemi etici. Abbiamo preso in considerazione attentamente diversi aspetti durante lo sviluppo di questi modelli.
Per ulteriori dettagli, consulta la scheda del modello Gemma 3.
Vantaggi
Al momento del rilascio, questa famiglia di modelli fornisce implementazioni di modelli linguistici di grandi dimensioni aperti ad alte prestazioni, progettati da zero per lo sviluppo di AI responsabile, rispetto ai modelli di dimensioni simili.
Utilizzando le metriche di valutazione del benchmark descritte in questo documento, è stato dimostrato che questi modelli forniscono prestazioni superiori rispetto ad altre alternative di modelli aperti di dimensioni simili.