Proteggi i tuoi modelli

I prodotti di intelligenza artificiale generativa (GenAI) sono relativamente nuovi e i loro comportamenti possono variare più rispetto alle forme precedenti di software. Le misure di protezione che proteggono il tuo prodotto dall'uso improprio delle funzionalità di IA generativa devono adattarsi gentile. Questa guida descrive come utilizzare strumenti di controllo della conformità alle norme relative ai contenuti e di applicazione del watermarking per proteggere i tuoi prodotti basati sull'IA generativa.

Conformità alle norme relative ai contenuti

Anche con un'ottimizzazione per la sicurezza precedente e un modello di prompt ben progettato, è possibile che il tuo prodotto di AI generativa generi contenuti che causino danni involontari. spesso i prodotti di IA generativa fare affidamento sui filtri di input e output per garantire un comportamento responsabile del modello. Questi controllano che i dati che entrano o escono dal modello siano conformi le tue norme, spesso eseguendo ulteriori addestramento sulla sicurezza per creare un modello di classificazione dei contenuti.

I classificatori di input vengono utilizzati per filtrare i contenuti che violano direttamente o potrebbero spingere il tuo modello a generare contenuti che violano le tue norme relative ai contenuti. Ingresso i filtri spesso prendono di mira gli attacchi avversari che tentano di aggirare i tuoi contenuti criteri.

I classificatori di output filtrano l'output del modello, rilevando i contenuti generati che violano le tue norme di sicurezza. Un monitoraggio attento dei comportamenti di rifiuto dei contenuti può mostrare nuove classi di prompt utilizzabili per aumentare o migliorare l'input filtri corretti.

Ti consigliamo di utilizzare classificatori che coprono tutte le norme relative ai contenuti. Potresti riuscire a farlo utilizzando classificatori predefiniti oppure potresti dover creare classificatori personalizzati che supportino i tuoi criteri specifici.

Anche l'equilibrio è fondamentale. Un filtro eccessivo può causare danni involontari o ridurre l'utilità dell'applicazione; Assicurati di esaminare i casi in cui un filtro eccessivo potrebbe in cui ciò che accade. Per saperne di più, consulta la guida alla valutazione della sicurezza.

Categorie di classificazione dei contenuti predefiniti

I classificatori di contenuti pronti all'uso aggiungono un ulteriore livello di protezione sulla sicurezza intrinseca del modello, riducendo ulteriormente il potenziale per tipi di violazioni delle norme. In genere sono disponibili in due varianti:

  1. I classificatori ospitati autonomamente, come ShieldGemma, possono possono essere scaricati e ospitati su una varietà di architetture, tra cui Cloud piattaforme come Google Cloud, hardware di proprietà privata e alcuni classificatori possono persino essere eseguite sul dispositivo per le app mobile.
  2. I classificatori basati su API vengono forniti come servizi che offrono volumi elevati, a bassa latenza per una serie di criteri. Google fornisce tre servizi che potrebbero interessarti:
    • Checks AI Safety fornisce valutazioni di conformità e dashboard che supportano la valutazione e il monitoraggio dei modelli. Lo strumento di sicurezza basato sull'IA è in versione beta aperta. Registrati per ricevere notizie, accedere e provare le demo.
    • Il servizio di moderazione testo è un'API di Google Cloud che analizza il testo alla ricerca di violazioni relative alla sicurezza, incluse le categorie dannose e ad argomenti sensibili, soggetti alle tariffe di utilizzo.
    • L'API Perspective è un'API senza costi che utilizza la macchina di machine learning per assegnare un punteggio all'impatto percepito che un commento potrebbe avere su conversazione. Fornisce punteggi che colgono la probabilità un commento è tossico, minaccioso, offensivo o fuori tema.

È importante valutare in che misura i classificatori pronti all'uso soddisfano le tue norme. obiettivi e valutare qualitativamente i casi di errore.

Classificatori delle norme relative ai contenuti personalizzati

I classificatori predefiniti delle norme relative ai contenuti sono un ottimo inizio, ma hanno limitazioni, tra cui:

  • Una tassonomia delle norme fissa che potrebbe non essere associata a tutte le tue norme relative ai contenuti o non coprirle.
  • Requisiti hardware e di connettività che potrebbero non essere appropriati per l'ambiente in cui verrà implementata l'applicazione basata sull'IA generativa.
  • Prezzi e altre restrizioni all'utilizzo.

Le categorie di classificazione delle norme relative ai contenuti personalizzati possono essere un modo per risolvere queste limitazioni. e il metodo classificatori agili fornisce una un framework efficiente e flessibile per crearle. Poiché questo metodo ottimizza un modello per motivi di sicurezza, ricordati di consultare nozioni di base sull'ottimizzazione del modello.

Identificare i contenuti creati con l'IA con le filigrane di testo di SynthID

L'IA generativa può creare una gamma più ampia di contenuti molto diversi su larga scala, come mai immaginato in precedenza. Sebbene la maggior parte di questo utilizzo sia per scopi legittimi, vi sono temono che possano contribuire a problemi di disinformazione e errata attribuzione. La filigrana è una tecnica per mitigare questi potenziali impatti. Le filigrane impercettibili per gli esseri umani possono essere applicate ai contenuti creati con l'IA e i modelli di rilevamento possono assegnare un punteggio a contenuti arbitrari per indicare la probabilità che abbiano una filigrana.

SynthID è una tecnologia Google DeepMind che applica filigrane e identifica i contenuti creati con l'IA incorporando filigrane digitali direttamente Immagini, audio, testo o video creati con l'IA. SynthID Text è disponibile per la produzione in Hugging Face Transformers. Consulta il documento di ricerca e la documentazione per scoprire di più su come utilizzare SynthID nella tua applicazione.

Google Cloud fornisce ai clienti di Vertex AI funzionalità di filigrana SynthID per altre modalità, come le immagini generate da Imagen.

Best practice per la configurazione delle misure di protezione

Ti consigliamo vivamente di utilizzare i classificatori di sicurezza come misure di salvaguardia. Tuttavia, se i contenuti vengono bloccati, i guardrail possono comportare che il modello generativo non produca nulla per l'utente. Le applicazioni devono essere progettate per gestire per verificare se è così. I chatbot più popolari gestiscono questo problema fornendo risposte predefinite ("Mi dispiace, sono un modello linguistico, non posso aiutarti con questa richiesta").

Trova il giusto equilibrio tra utilità e innocuità: quando utilizzi i classificatori di sicurezza, è importante capire che faranno errori, inclusi i falsi positivi (ad es. dichiarare che un output non è sicuro quando lo è) e i falsi negativi (non etichettare un output come non sicuro quando lo è). Di valutando i classificatori con metriche come F1, Precisione, Recall e AUC-ROC, è in grado di determinare il compromesso tra falsi positivi e falsi gli errori negativi. Modificando la soglia dei classificatori, contribuisci a trovare un equilibrio ideale che eviti di filtrare eccessivamente gli output, garantendo al contempo la sicurezza appropriata.

Verifica la presenza di bias involontari nelle categorie di classificazione: classificatori di sicurezza, come qualsiasi un altro modello ML, può propagare bias involontari, ad esempio stereotipi. Le applicazioni devono essere valutate in modo appropriato per rilevare comportamenti potenzialmente problematici. In particolare, i classificatori di sicurezza dei contenuti si attivano in modo eccessivo su contenuti correlati a identità che sono più spesso bersaglio di linguaggio offensivo online. Ad esempio, al primo lancio dell'API Perspective, il modello restituiva punteggi di tossicità più elevati nei commenti che facevano riferimento a determinati gruppi di identità (blog). Questo comportamento di attivazione eccessiva può verificarsi perché i commenti che menzionano termini di identità per gruppi più frequentemente scelti come target (ad es. parole come "nero", "musulmano", "femminista", "donna", "gay" e così via) sono più spesso di natura tossica. Quando i set di dati utilizzati per addestrare i classificatori presentano squilibri significativi per i commenti contenenti determinate parole, i classificatori possono fare generalizzazioni eccessive e considerare tutti i commenti con queste parole come potenzialmente non sicuri. Scopri in che modo il team di Jigsaw ha mitigato questo bias involontario.

Risorse per sviluppatori