Crea salvaguardie per input e output

Le applicazioni di IA generativa spesso si basano su filtri dei dati di input e di output, a volte chiamate salvaguardie, per contribuire a garantire un modello responsabile comportamento degli utenti. Le tecniche di filtro di input e output controllano i dati in entrata o in dal modello sia conforme alle norme che per la tua applicazione. Le categorie di classificazione dell'input vengono generalmente utilizzate per filtrare contenuti che non sono destinati a essere utilizzati nella tua applicazione e che potrebbero far sì che il modello violi le norme di sicurezza. I filtri di input spesso hanno come target attacchi avversari che tentano di aggirare le norme relative ai contenuti. Uscita i classificatori funzionano con un ulteriore filtro per l'addestramento sulla sicurezza dell'output del modello, rilevando l'output generato che potrebbe violare i tuoi criteri di sicurezza. È consigliabile avere classificatori che coprano tutte le norme relative ai contenuti.

Misure di protezione pronte all'uso

Anche dopo una precedente ottimizzazione per la sicurezza e un modello di prompt ben progettato, per il modello generino contenuti che causino danni involontari. I classificatori di contenuti pronti all'uso possono aggiungere un ulteriore livello di protezione a migliorare ulteriormente la possibilità di determinati tipi di violazioni delle norme.

ShieldGemma

ShieldGemma è un insieme di modelli aperti, pronti per l'uso, ottimizzati per le istruzioni dei pesi, modelli di classificazione dei contenuti basati su Gemma 2, che possono determinare se i contenuti forniti dagli utenti, generati da modelli o misti violano una norme sulla sicurezza dei contenuti. ShieldGemma è addestrato per identificare quattro danni (di natura sessuale contenuti, contenuti pericolosi, molestie e incitamento all'odio) ed è in tre varianti di classe di dimensione (parametri 2B, 9B e 27B) che consentono bilancia velocità, prestazioni e generalizzabilità per soddisfare le tue esigenze in qualsiasi e deployment continuo. Consulta la scheda del modello per ulteriori informazioni sulla la differenza tra queste varianti.

Proteggi i tuoi modelli con ShieldGemma

Avvia Google Colab (Keras) Avviare Google Colab (Transformer)

Puoi utilizzare i modelli di ShieldGemma nei seguenti framework.

Basato su API

Google fornisce classificatori basati su API per la sicurezza dei contenuti, che possono essere utilizzati per: filtra gli input e output di sistema:

  • L'API Perspective è un'API senza costi che utilizza la macchina di machine learning per assegnare un punteggio all'impatto percepito che un commento potrebbe avere su conversazione. Fornisce punteggi che catturano la probabilità che un il commento è tossico, minaccioso, offensivo o fuori tema.
  • Il servizio di moderazione testo è un'API di Google Cloud che può essere utilizzato al di sotto di un determinato limite di utilizzo e utilizza il machine learning per analizzare un documento rispetto a un elenco di tra cui vari argomenti e categorie potenzialmente dannosi che possono essere considerati sensibili.

È importante valutare in che misura i classificatori pronti all'uso soddisfano le tue norme. obiettivi e valutare qualitativamente i casi di errore. Inoltre, è importante notare che filtri eccessivi possono causare danni involontari e ridurre l'utilità dell'applicazione, il che significa che è importante esaminare anche i casi in cui potrebbe verificarsi un filtro eccessivo. Per ulteriori dettagli su questa valutazione consulta Valutare modello e sistema per la sicurezza.

Crea classificatori di sicurezza personalizzati

Esistono diversi motivi per cui una protezione pronta all'uso potrebbe non essere adatta a al tuo caso d'uso, ad esempio avere un criterio non supportato o volere ottimizza ulteriormente la protezione in base ai dati che hai osservato che interessano il tuo sistema. Nel In questo caso, i classificatori agili offrono una soluzione efficiente un framework flessibile per creare protezioni personalizzate mediante l'ottimizzazione di modelli come Gemma, per soddisfare le tue esigenze. Ti consentono inoltre di controllare completamente dove e il modo in cui vengono distribuiti.

Tutorial su Gemma Agile Classifier

Avvia codelab Avvia Google Colab

I classificatori agili codelab e tutorial: usa LoRA per mettere a punto un Gemma per agire da classificatore di moderazione dei contenuti utilizzando KerasNLP libreria. Utilizzando solo 200 esempi del set di dati ETHOS, questo il classificatore ottiene un punteggio F1 di 0,80 e un punteggio ROC-AUC di 0,78, il che si confronta positivamente con lo stato dell'arte risultati delle classifiche. Se addestrato sulla base di 800 esempi, come gli altri classificatori in classifica, il classificatore agile basato su Gemma raggiunge un punteggio F1 di 83,74 e un punteggio ROC-AUC di 88,17. Puoi adattare nelle istruzioni del tutorial per perfezionare ulteriormente questo classificatore o per crearne uno tuo misure di salvaguardia personalizzate per i classificatori di sicurezza.

Best practice per la configurazione delle misure di protezione

È vivamente consigliato utilizzare classificatori di sicurezza come salvaguardia. Tuttavia, i sistemi di protezione possono far sì che il modello generativo non produca nulla per all'utente, se i contenuti sono bloccati. Le applicazioni devono essere progettate per gestire per verificare se è così. I chatbot più popolari gestiscono questo problema fornendo risposte predefinite ("Sto mi dispiace, sono un modello linguistico e non posso aiutarti con questa richiesta").

Trova il giusto equilibrio tra utilità e innocuità: quando utilizzi classificatori di sicurezza, è importante capire che commetterà errori, inclusi entrambi i falsi positivi (ad esempio, affermare che un output non è sicuro quando è not) e falsi negativi (la mancata etichettatura di un output come non sicuro, quando lo è). Di valutando i classificatori con metriche come F1, Precisione, Recall e AUC-ROC, è in grado di determinare il compromesso tra falsi positivi e falsi gli errori negativi. Modificando la soglia delle categorie di classificazione, puoi trovare più facilmente equilibrio ideale che evita di filtrare in eccesso gli output, pur continuando a fornire la sicurezza adeguata.

Verifica la presenza di bias involontari nelle categorie di classificazione: classificatori di sicurezza, come qualsiasi un altro modello ML, può propagare bias involontari, ad esempio stereotipi. Le domande devono essere valutate in modo adeguato per comportamenti problematici. In particolare, i classificatori di sicurezza dei contenuti si attivano in modo eccessivo su contenuti correlati a identità che sono più spesso bersaglio di linguaggio offensivo online. Ad esempio, quando l'API Perspective era lanciato per la prima volta, il modello ha restituito punteggi di tossicità più alti nei commenti fare riferimento a determinati gruppi di identità (blog). Questo comportamento eccessivo perché i commenti che fanno riferimento a termini correlati all'identità gruppi scelti spesso come target (ad es. parole come "nero", "musulmano", "femminista" "donna", "gay" e così via) sono più spesso di natura tossica. Quando i set di dati sono utilizzati i classificatori dei treni presentano squilibri significativi per i commenti che contengono parole, i classificatori possono generalizzare in eccesso e prendere in considerazione tutti i commenti con quelle parole poiché potrebbero non essere sicuri. Leggi come il team di Jigsaw mitigato questo bias involontario.

Risorse per sviluppatori