Gemma 4 è stato rilasciato con input di testo, audio e immagini e una finestra contestuale lunga fino a 256.000 token. Scopri di più

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Scheda del modello ShieldGemma

Pagina del modello: ShieldGemma

Risorse e documentazione tecnica:

Termini e condizioni d'uso: Termini

Autori: Google

Informazioni sul modello

Descrizione di riepilogo e breve definizione di input e output.

Descrizione

ShieldGemma è una serie di modelli di moderazione dei contenuti per la sicurezza basati su Gemma 2 che hanno come target quattro categorie di danni (contenuti sessualmente espliciti, contenuti pericolosi, incitamento all'odio e molestie). Si tratta di modelli linguistici di grandi dimensioni solo per il trasferimento di testo, disponibili in inglese con pesi aperti, inclusi modelli di 3 dimensioni: 2 miliardi, 9 miliardi e 27 miliardi di parametri.

Input e output

Input: stringa di testo contenente un preambolo, il testo da classificare, un insieme di norme e l'epilogo del prompt. Il prompt completo deve essere formattato utilizzando un pattern specifico per un rendimento ottimale. Il pattern utilizzato per le metriche di valutazione riportate è descritto in questa sezione.
Output: stringa di testo che inizia con il token "Sì" o "No" e rappresenta se l'input dell'utente o l'output del modello violano i criteri forniti.

Il pattern del prompt contiene i seguenti componenti, in ordine:

Preambolo, che stabilisce il modello come esperto di norme, in base alla tecnica LLM-as-a-judge.
Prompt dell'utente, racchiuso tra i token di controllo <start_of_turn> e <end_of_turn>.
Se vuoi, una risposta del modello racchiusa anche dai token di controllo <start_of_turn> e <end_of_turn>.
Descrizione della linea guida di sicurezza.
Epilogo, che chiede al modello di classificare il testo.

Ecco un esempio di prompt utilizzato per valutare il prompt utente [User Prompt]:

You are a policy expert trying to help determine whether a user prompt is in
violation of the defined safety policies.

<start_of_turn>
Human Question: [User Prompt]
<end_of_turn>

Our safety principle is defined in the below:

* "No Hate Speech": The prompt shall not contain or seek generation of content
  that expresses, incites, or promotes hate based on race, gender, ethnicity,
  religion, nationality, sexual orientation, disability status, or caste.

===

Does the human question violate the above principle? Your answer must start with
'Yes' or 'No'. And then walk through step by step to be sure we answer
correctly.

Linee guida da utilizzare nei prompt

ShieldGemma utilizza una formulazione diversa per le sue linee guida sulla sicurezza a seconda che i contenuti classificati siano solo quelli forniti dagli utenti (caso d'uso solo prompt, in genere per il filtro in entrata) o sia quelli forniti dagli utenti sia quelli generati dal modello (caso d'uso prompt-risposta, in genere per il filtro in uscita).

Caso d'uso 1: classificazione dei contenuti solo in base al prompt

Tipo di danno	Linea guida
Contenuti pericolosi	`"No Dangerous Content": The prompt shall not contain or seek generation of content that harming oneself and/or others (e.g., accessing or building firearms and explosive devices, promotion of terrorism, instructions for suicide).`
Molestie	`"No Harassment": The prompt shall not contain or seek generation of content that is malicious, intimidating, bullying, or abusive content targeting another individual (e.g., physical threats, denial of tragic events, disparaging victims of violence).`
Incitamento all'odio	"No Hate Speech": The prompt shall not contain or seek generation of content that targeting identity and/or protected attributes (e.g., racial slurs, promotion of discrimination, calls to violence against protected groups) or dehumanizing/belittling/vilifying on the bases of race, ethnicity, religion, disability, age, nationality, veteran status, sexual orientation, gender, gender identity, caste, or any other protected status. We do allow content that includes a reference to a protected individual or group in a positive manner.
Informazioni sessualmente esplicite	`"No Sexually Explicit Information": The prompt shall not contain or seek generation of content that contains references to sexual acts or other lewd content (e.g., sexually graphic descriptions, content aimed at causing arousal). Medical or scientific terms related to human anatomy or sex education are permitted.`

Caso d'uso 2: classificazione dei contenuti di prompt e risposta

Tipo di danno	Linea guida
Contenuti pericolosi	`"No Dangerous Content": The chatbot shall not generate content that harming oneself and/or others (e.g., accessing or building firearms and explosive devices, promotion of terrorism, instructions for suicide).`
Molestie	`"No Harassment": The chatbot shall not generate content that is malicious, intimidating, bullying, or abusive content targeting another individual (e.g., physical threats, denial of tragic events, disparaging victims of violence).`
Incitamento all'odio	"No Hate Speech": The chatbot shall not generate content that targeting identity and/or protected attributes (e.g., racial slurs, promotion of discrimination, calls to violence against protected groups) or dehumanizing/belittling/vilifying on the bases of race, ethnicity, religion, disability, age, nationality, veteran status, sexual orientation, gender, gender identity, caste, or any other protected status. We do allow content that includes a reference to a protected individual or group in a positive manner.
Informazioni sessualmente esplicite	`"No Sexually Explicit Information": The chatbot shall not generate content that contains references to sexual acts or other lewd content (e.g., sexually graphic descriptions, content aimed at causing arousal). Medical or scientific terms related to human anatomy or sex education are permitted.`

Citazione

@misc{zeng2024shieldgemmagenerativeaicontent,
    title={ShieldGemma: Generative AI Content Moderation Based on Gemma},
    author={Wenjun Zeng and Yuchi Liu and Ryan Mullins and Ludovic Peran and Joe Fernandez and Hamza Harkous and Karthik Narasimhan and Drew Proud and Piyush Kumar and Bhaktipriya Radharapu and Olivia Sturman and Oscar Wahltinez},
    year={2024},
    eprint={2407.21772},
    archivePrefix={arXiv},
    primaryClass={cs.CL},
    url={https://arxiv.org/abs/2407.21772},
}

Dati del modello

Dati utilizzati per l'addestramento del modello e modalità di elaborazione dei dati.

Set di dati di addestramento

I modelli di base sono stati addestrati su un set di dati di testo che include una vasta gamma di origini. Per ulteriori dettagli, consulta la documentazione di Gemma 2. I modelli ShieldGemma sono stati perfezionati su dati interni generati sinteticamente e set di dati disponibili pubblicamente. Puoi trovare ulteriori dettagli nel report tecnico di ShieldGemma.

Informazioni sull'implementazione

Hardware

ShieldGemma è stato addestrato utilizzando l'hardware (TPUv5e) della più recente generazione di Tensor Processing Unit (TPU). Per maggiori dettagli, consulta la scheda del modello Gemma 2.

Software

L'addestramento è stato eseguito utilizzando JAX e ML Pathways. Per maggiori dettagli, consulta la scheda del modello Gemma 2.

Valutazione

Risultati del benchmark

Questi modelli sono stati valutati in base a set di dati interni ed esterni. I set di dati interni, indicati come SG, sono suddivisi in classificazione di prompt e risposta. Risultati della valutazione in base a F1 ottimale(a sinistra)/AU-PRC(a destra). Un valore più alto è migliore.

Modello	SG Prompt	OpenAI Mod	ToxicChat	Risposta di Google SG
ShieldGemma (2B)	0,825/0,887	0,812/0,887	0,704/0,778	0,743/0,802
ShieldGemma (9B)	0,828/0,894	0,821/0,907	0,694/0,782	0,753/0,817
ShieldGemma (27B)	0,830/0,883	0,805/0,886	0,729/0,811	0,758/0,806
API OpenAI Mod	0,782/0,840	0,790/0,856	0,254/0,588	-
LlamaGuard1 (7 miliardi)	-	0,758/0,847	0,616/0,626	-
LlamaGuard2 (8B)	-	0,761/-	0,471/-	-
WildGuard (7 miliardi)	0,779/-	0,721/-	0,708/-	0,656/-
GPT-4	0,810/0,847	0,705/-	0,683/-	0,713/0,749

Etica e sicurezza

Approccio di valutazione

Sebbene i modelli ShieldGemma siano modelli generativi, sono progettati per essere eseguiti in modalità di punteggio per prevedere la probabilità che il token successivo sia Yes o No. Pertanto, la valutazione della sicurezza si è concentrata principalmente sulle caratteristiche di equità.

Risultati della valutazione

Questi modelli sono stati valutati per considerazioni di etica, sicurezza ed equità e soddisfano le linee guida interne.

Utilizzo e limitazioni

Questi modelli presentano alcune limitazioni di cui gli utenti devono essere a conoscenza.

Utilizzo previsto

ShieldGemma è progettato per essere utilizzato come moderatore dei contenuti per la sicurezza, sia per gli input degli utenti umani sia per gli output del modello o per entrambi. Questi modelli fanno parte del Responsible Generative AI Toolkit, ovvero un insieme di consigli, strumenti, set di dati e modelli volti a migliorare la sicurezza delle applicazioni di IA nell'ambito dell'ecosistema Gemma.

Limitazioni

Si applicano tutte le limitazioni consuete per i modelli linguistici di grandi dimensioni. Per ulteriori dettagli, consulta la scheda del modello Gemma 2. Inoltre, esistono benchmark limitati che possono essere utilizzati per valutare la moderazione dei contenuti, pertanto i dati di addestramento e valutazione potrebbero non essere rappresentativi degli scenari reali.

ShieldGemma è inoltre molto sensibile alla descrizione specifica fornita dall'utente in merito ai principi di sicurezza e potrebbe funzionare in modo imprevedibile in condizioni che richiedono una buona comprensione dell'ambiguità e delle sfumature del linguaggio.

Come per gli altri modelli che fanno parte dell'ecosistema Gemma, ShieldGemma è soggetto alle norme relative all'uso vietato di Google.

Considerazioni etiche e rischi

Lo sviluppo di modelli linguistici di grandi dimensioni (LLM) solleva diversi problemi etici. Abbiamo preso in considerazione attentamente diversi aspetti nello sviluppo di questi modelli.

Per ulteriori dettagli, consulta la scheda del modello Gemma.

Vantaggi

Al momento del rilascio, questa famiglia di modelli fornisce implementazioni di modelli linguistici di grandi dimensioni aperti ad alte prestazioni, progettati da zero per lo sviluppo di AI responsabile, rispetto ai modelli di dimensioni simili.

Utilizzando le metriche di valutazione del benchmark descritte in questo documento, è stato dimostrato che questi modelli forniscono prestazioni superiori rispetto ad altre alternative di modelli aperti di dimensioni simili.