Crea salvaguardie per input e output

Le applicazioni di IA generativa spesso si basano su filtri dei dati di input e di output, a volte chiamate salvaguardie, per contribuire a garantire un modello responsabile comportamento degli utenti. Le tecniche di filtro di input e output controllano i dati in entrata o in che uscirà dal modello sia conforme alle norme che per la tua applicazione.

Misure di protezione pronte all'uso

Anche dopo una precedente ottimizzazione per la sicurezza e un modello di prompt ben progettato, per il modello generino contenuti che causino danni involontari. Per migliorare ulteriormente questo aspetto, le categorie di classificazione dei contenuti possono aggiungere un ulteriore livello protezione dei dati. Le categorie di classificazione dei contenuti possono essere applicate sia agli input che agli output.

Le categorie di classificazione dell'input vengono in genere utilizzate per filtrare contenuti non destinati a essere utilizzati nella tua applicazione e ciò potrebbe far sì che il modello violi le norme sulla sicurezza. I filtri di input spesso prendono di mira gli attacchi avversari che tentano di eludere le norme relative ai contenuti. I classificatori di output possono filtrare ulteriormente il modello dell'output, rilevando generazioni indesiderate che potrebbero violare i tuoi criteri di sicurezza. È consigliabile avere classificatori che coprano tutte le norme relative ai contenuti.

Google fornisce classificatori basati su API per la sicurezza dei contenuti, che possono essere utilizzati per: filtra gli input e output di sistema:

  • L'API Perspective è un'API senza costi che utilizza la macchina di machine learning per assegnare un punteggio all'impatto percepito che un commento potrebbe avere su conversazione. Fornisce punteggi che catturano la probabilità che un il commento è tossico, minaccioso, offensivo o fuori tema.
  • Il servizio di moderazione testo è un'API di Google Cloud che può essere utilizzato al di sotto di un determinato limite di utilizzo e utilizza il machine learning per analizzare un documento rispetto a un elenco di tra cui vari argomenti e categorie potenzialmente dannosi che possono essere considerati sensibili.

È importante valutare in che misura i classificatori pronti all'uso soddisfano le tue norme. obiettivi e valutare qualitativamente i casi di errore. Inoltre, è importante notare che filtri eccessivi possono causare danni involontari e ridurre l'utilità dell'applicazione, il che significa che è importante esaminare anche i casi in cui potrebbe verificarsi un filtro eccessivo. Per ulteriori dettagli su questa valutazione consulta Valutare modello e sistema per la sicurezza.

Crea classificatori di sicurezza personalizzati

Esistono diversi motivi per cui una protezione pronta all'uso potrebbe non essere adatta a al tuo caso d'uso, ad esempio avere un criterio non supportato o volere ottimizza ulteriormente la protezione in base ai dati che hai osservato che interessano il tuo sistema. Nel In questo caso, i classificatori agili offrono una soluzione efficiente un framework flessibile per creare protezioni personalizzate mediante l'ottimizzazione di modelli come Gemma, per soddisfare le tue esigenze. Ti consentono inoltre di controllare completamente dove e il modo in cui vengono distribuiti.

Tutorial su Gemma Agile Classifier

Avvia codelab Avvia Google Colab

I classificatori agili codelab e tutorial: usa LoRA per mettere a punto un Gemma per agire da classificatore di moderazione dei contenuti utilizzando KerasNLP libreria. Utilizzando solo 200 esempi del set di dati ETHOS, questo il classificatore ottiene un punteggio F1 di 0,80 e un punteggio ROC-AUC di 0,78, il che si confronta positivamente con lo stato dell'arte risultati delle classifiche. Se addestrato sulla base di 800 esempi, come gli altri classificatori in classifica, il classificatore agile basato su Gemma raggiunge un punteggio F1 di 83,74 e un punteggio ROC-AUC di 88,17. Puoi adattare nelle istruzioni del tutorial per perfezionare ulteriormente questo classificatore o per crearne uno tuo misure di salvaguardia personalizzate per i classificatori di sicurezza.

Best practice per la configurazione delle misure di protezione

È vivamente consigliato utilizzare classificatori di sicurezza come salvaguardia. Tuttavia, i sistemi di protezione possono far sì che il modello generativo non produca nulla per all'utente, se i contenuti sono bloccati. Le applicazioni devono essere progettate per gestire per verificare se è così. I chatbot più popolari gestiscono questo problema fornendo risposte predefinite ("Sto mi dispiace, sono un modello linguistico e non posso aiutarti con questa richiesta").

Trova il giusto equilibrio tra utilità e innocuità: quando utilizzi classificatori di sicurezza, è importante capire che commetterà errori, inclusi entrambi i falsi positivi (ad esempio, affermare che un output non è sicuro quando è not) e falsi negativi (la mancata etichettatura di un output come non sicuro, quando lo è). Di valutando i classificatori con metriche come F1, Precisione, Recall e AUC-ROC, è in grado di determinare il compromesso tra falsi positivi e falsi gli errori negativi. Modificando la soglia delle categorie di classificazione, puoi trovare più facilmente equilibrio ideale che evita di filtrare in eccesso gli output, pur continuando a fornire la sicurezza adeguata.

Verifica la presenza di bias involontari nelle categorie di classificazione: classificatori di sicurezza, come qualsiasi un altro modello ML, può propagare bias involontari, ad esempio stereotipi. Le domande devono essere valutate in modo adeguato per comportamenti problematici. In particolare, i classificatori di sicurezza dei contenuti si attivano in modo eccessivo su contenuti correlati a identità che sono più spesso bersaglio di linguaggio offensivo online. Ad esempio, quando l'API Perspective era lanciato per la prima volta, il modello ha restituito punteggi di tossicità più alti nei commenti fare riferimento a determinati gruppi di identità (blog). Questo comportamento eccessivo perché i commenti che fanno riferimento a termini correlati all'identità gruppi scelti spesso come target (ad es. parole come "nero", "musulmano", "femminista" "donna", "gay" e così via) sono più spesso di natura tossica. Quando i set di dati sono utilizzati i classificatori dei treni presentano squilibri significativi per i commenti che contengono parole, i classificatori possono generalizzare in eccesso e prendere in considerazione tutti i commenti con quelle parole poiché potrebbero non essere sicuri. Leggi come il team di Jigsaw mitigato questo bias involontario.

Risorse per sviluppatori