Impostazioni di sicurezza

Panoramica

Questa guida descrive le impostazioni di sicurezza regolabili dell'API PaLM disponibili per il servizio di testo. Durante la fase di prototipazione, puoi regolare le impostazioni di sicurezza su sei dimensioni per valutare rapidamente se la tua applicazione richiede una configurazione più o meno restrittiva. Per impostazione predefinita, le impostazioni di sicurezza bloccano i contenuti con una probabilità media e/o alta di essere contenuti non sicuri in tutte e sei le dimensioni. Questa sicurezza di base è progettata per funzionare per la maggior parte dei casi d'uso, quindi dovresti modificare le impostazioni di sicurezza solo se sono costantemente necessarie per la tua applicazione.

Filtri di sicurezza

Oltre ai filtri di sicurezza regolabili, l'API PaLM dispone di protezioni integrate contro i principali danni, ad esempio i contenuti che mettono in pericolo la sicurezza dei minori. Questi tipi di danni sono sempre bloccati e non possono essere corretti.

I filtri di sicurezza regolabili coprono le seguenti categorie:

  • Contenuti dispregiativi
  • Tossico
  • Contenuti di natura sessuale
  • Violento
  • Medicina
  • Categorie pericolose

Queste impostazioni consentono allo sviluppatore di determinare ciò che è appropriato per il tuo caso d'uso. Ad esempio, se crei i dialoghi di un videogioco, potresti ritenere accettabile che consentisse più contenuti classificati come violenti o pericolosi a causa della natura del gioco. Di seguito sono riportati alcuni altri casi d'uso di esempio che potrebbero richiedere una certa flessibilità in queste impostazioni di sicurezza:

Caso d'uso Categoria
App di formazione in materia di molestie Contenuti dispregiativi, di natura sessuale, tossici
Pal per studio di esami medici Medicina
Sceneggiatore Contenuti violenti, di natura sessuale, medici, pericolosi
Classificatore di tossicità Tossico, dispregiativo

Probabilità rispetto alla gravità

L'API PaLM blocca i contenuti in base alla probabilità che i contenuti non siano sicuri e non alla gravità. Questo aspetto è importante da considerare perché alcuni contenuti possono avere poche probabilità di non essere sicuri anche se la gravità del danno potrebbe essere ancora alta. Ad esempio, confrontando le frasi:

  1. Il robot mi ha dato un pugno.
  2. Il robot mi ha tagliato fuori.

La frase 1 potrebbe comportare una maggiore probabilità di non essere sicura, ma potresti considerare la frase 2 con una gravità maggiore in termini di violenza.

Per questo motivo è importante che ogni sviluppatore esegua con attenzione test e valuti il livello di blocco appropriato necessario per supportare i propri casi d'uso chiave, riducendo al minimo i danni per gli utenti finali.

Impostazioni di sicurezza

Le impostazioni di sicurezza fanno parte della richiesta che invii al servizio di testo. Può essere modificato per ogni richiesta inviata all'API. La seguente tabella elenca le categorie che puoi impostare e descrive il tipo di danno compreso in ogni categoria.

Categorie Descriptions
Contenuti dispregiativi Commenti negativi o dannosi che hanno come target l'identità e/o attributi protetti.
Tossico Contenuti scurrili, irrispettosi o volgari.
Contenuti di natura sessuale Contiene riferimenti ad atti sessuali o altri contenuti osceni.
Violento Descrive scenari che raffigurano violenza contro un individuo o un gruppo oppure descrizioni generali di spargimenti di sangue.
Categorie pericolose Promuove, agevola o incoraggia azioni dannose.
Medicina Contenuti correlati ad argomenti medici

Puoi trovare queste definizioni anche nel riferimento API.

La seguente tabella descrive le impostazioni di blocco che puoi modificare per ogni categoria. Ad esempio, se imposti l'impostazione di blocco su Blocca pochi per la categoria Dispregiativi, tutti i contenuti con un'alta probabilità di essere contenuti dispregiativi vengono bloccati. Ma tutto ciò con una probabilità più bassa è consentito.

Se non viene configurato, l'impostazione di blocco predefinita è Blocca alcuni o Blocca la maggior parte, a seconda della categoria del criterio.

Soglia (Google AI Studio) Soglia (API) Descrizione
Nessun blocco BLOCK_NONE Mostra sempre indipendentemente dalla probabilità di contenuti non sicuri
Blocco ridotto BLOCK_ONLY_HIGH Blocca quando è alta probabilità di contenuti non sicuri
Blocca alcuni (valore predefinito per contenuti di natura sessuale, violenti, pericolosi e medici) BLOCK_MEDIUM_AND_ABOVE Blocca in caso di probabilità media o alta di contenuti non sicuri
Blocca la maggior parte (valore predefinito per contenuti dispregiativi e tossici) BLOCK_LOW_AND_ABOVE Blocca in caso di probabilità bassa, media o alta di contenuti non sicuri
HARM_BLOCK_THRESHOLD_UNSPECIFIED La soglia non è specificata. Blocca utilizzando la soglia predefinita

Puoi configurare queste impostazioni per ogni richiesta inviata al servizio di testo. Per informazioni dettagliate, consulta il riferimento dell'API HarmBlockThreshold.

Feedback sulla sicurezza

Se i contenuti sono stati bloccati, la risposta dell'API contiene il motivo del blocco nel campo ContentFilter.reason. Se il motivo era correlato alla sicurezza, la risposta contiene anche un campo SafetyFeedback che include le impostazioni di sicurezza utilizzate per la richiesta e una valutazione di sicurezza. La valutazione di sicurezza include la categoria e la probabilità di classificazione del danno. I contenuti bloccati non vengono restituiti.

La probabilità restituita corrisponde ai livelli di confidenza del blocco come mostrato nella seguente tabella:

Probability Descrizione
NEGLIGIBILE I contenuti hanno una probabilità trascurabile di essere non sicuri
BASSO I contenuti hanno una bassa probabilità di non essere sicuri
MEDIO I contenuti hanno una probabilità media di non essere sicuri
ALTO È molto probabile che i contenuti non siano sicuri

Ad esempio, se i contenuti sono stati bloccati a causa dell'alta probabilità della categoria di tossicità, la valutazione di sicurezza restituita avrà una categoria pari a TOXICITY e la probabilità di danno è impostata su HIGH.

Impostazioni di sicurezza in Google AI Studio

Puoi configurare queste impostazioni anche in Google AI Studio. In Esegui impostazioni, fai clic su Modifica impostazioni di sicurezza:

Pulsante Impostazioni di sicurezza

Inoltre, utilizza le manopole per regolare ogni impostazione:

Pulsante Impostazioni di sicurezza

Se i contenuti sono bloccati, viene visualizzato il messaggio Nessun contenuto. Per visualizzare ulteriori dettagli, tieni premuto il puntatore del mouse su Nessun contenuto e fai clic su Sicurezza.

Esempi di codice

Questa sezione mostra come utilizzare le impostazioni di sicurezza nel codice utilizzando la libreria client Python.

Esempio di richiesta

Di seguito è riportato uno snippet di codice Python che mostra come configurare le impostazioni di sicurezza nella chiamata GenerateText. In questo modo vengono impostate le categorie di danni Derogatory e Violence su BLOCK_LOW_AND_ABOVE, in modo da bloccare tutti i contenuti con una probabilità bassa o più alta di essere violenti o dispregiativi.

completion = genai.generate_text(
    model=model,
    prompt=prompt,
    safety_settings=[
        {
            "category": safety_types.HarmCategory.HARM_CATEGORY_DEROGATORY,
            "threshold": safety_types.HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
        },
        {
            "category": safety_types.HarmCategory.HARM_CATEGORY_VIOLENCE,
            "threshold": safety_types.HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
        },
    ]
)

Esempio di risposta

Di seguito è riportato uno snippet di codice per l'analisi del feedback sulla sicurezza proveniente dalla risposta. Tieni presente che il feedback di sicurezza sarà vuoto, a meno che il motivo del blocco non sia una delle dimensioni di sicurezza.

# First check the content filter reason
for filter in completion.filters:
    print(filter["reason"])

# If any of the reason is "safety", then the safety_feedback field will be
# populated
for feedback in completion.safety_feedback:
    print(feedback["rating"])
    print(feedback["setting"])s

Passaggi successivi

  • Per ulteriori informazioni sull'API completa, consulta questo riferimento API.
  • Consulta le linee guida sulla sicurezza per avere un quadro generale delle considerazioni sulla sicurezza durante lo sviluppo con gli LLM.
  • Scopri di più sulla valutazione della probabilità rispetto alla gravità dal team Jigsaw
  • Scopri di più sui prodotti che contribuiscono alle soluzioni di sicurezza come l'API Perspective.
  • Puoi utilizzare queste impostazioni di sicurezza per creare un classificatore di tossicità. Per iniziare, consulta l'esempio di classificazione.