Valutare i rischi e impostare le politiche di sicurezza

Le norme sulla sicurezza dei contenuti definiscono i tipi di contenuti dannosi che non sono consentiti su una piattaforma online. Forse hai già familiarità con le norme relative ai contenuti di piattaforme come YouTube o Google Play. Le norme relative ai contenuti per le applicazioni di IA generativa sono simili: definiscono il tipo di contenuti che l'applicazione non deve generare, guidano l'ottimizzazione dei modelli e le misure di salvaguardia appropriate da aggiungere.

I criteri dovrebbero rispecchiare il caso d'uso della tua applicazione. Ad esempio, un prodotto di IA generativa destinato a offrire idee per attività familiari basate su suggerimenti della community potrebbe avere una norma che vieta la generazione di contenuti di natura violenta, in quanto potrebbero essere dannosi per gli utenti. Al contrario, un'applicazione che riassume idee per storie di fantascienza proposte dagli utenti potrebbe decidere di consentire la generazione di violenza, poiché è il tema di molte storie di questo genere.

Le norme di sicurezza devono vietare la generazione di contenuti dannosi o illegali per gli utenti e devono specificare quali tipi di contenuti generati soddisfano questo requisito per la tua applicazione. Ti consigliamo inoltre di includere eccezioni relative a contenuti formativi, documentaristici, scientifici o artistici, che altrimenti potrebbero essere considerati dannosi.

La definizione di norme chiare con un livello di dettaglio altamente granulare, incluse le eccezioni alla norma e gli esempi, è fondamentale per creare un prodotto responsabile. I criteri vengono utilizzati in ogni fase di sviluppo del modello. Per la pulizia o l'etichettatura dei dati, l'imprecisione può portare a dati etichettati in modo errato, rimozione eccessiva o sottorimozione dei dati, con un conseguente impatto sulle risposte di sicurezza del modello. Ai fini della valutazione, criteri non definiti generano un'elevata varianza tra i classificatori, rendendo più difficile sapere se il modello soddisfa i tuoi standard di sicurezza.

Norme ipotetiche (a solo scopo illustrativo)

Di seguito sono riportati alcuni esempi di criteri che potresti considerare di utilizzare per la tua applicazione, a condizione che corrispondano al tuo caso d'uso.

Categoria della norma Norme
Informazioni sensibili che consentono l'identificazione personale (informazioni personali sensibili) Nella richiesta non sono riportate informazioni sensibili e che consentono l'identificazione personale (ad esempio indirizzo email, numero di carta di credito o codice fiscale di un privato).
Incitamento all'odio L'applicazione non genererà contenuti negativi o dannosi che abbiano come target l'identità e/o attributi protetti (ad esempio insulti razzisti, promozione della discriminazione, inviti alla violenza contro gruppi protetti).
Molestie L'applicazione non genererà contenuti malevoli, intimidatori, prepotenti o illeciti rivolti a un altro individuo (ad esempio minacce fisiche, negazione di eventi tragici, denigrazione delle vittime di violenza).
Contenuti pericolosi L'applicazione non genererà istruzioni o consigli su come ferire se stessi e/o altri (ad esempio accedere o costruire armi da fuoco e dispositivi esplosivi, promuovere il terrorismo, istruzioni per il suicidio).
Sessualmente esplicito L'applicazione non genererà contenuti che includono riferimenti ad atti sessuali o altri contenuti osceni (ad esempio descrizioni sessualmente esplicite, contenuti volti a provocare eccitazione).
Consentire l'accesso a beni e servizi dannosi L'applicazione non genererà contenuti che promuovano o consentano l'accesso a beni, servizi e attività potenzialmente dannosi (ad esempio per favorire l'accesso alla promozione di giochi e scommesse, prodotti farmaceutici, fuochi d'artificio e servizi di natura sessuale).
Contenuti dannosi L'applicazione non genererà istruzioni per lo svolgimento di attività illegali o ingannevoli (ad esempio, generazione di frodi di phishing, spam o contenuti destinati a proposte commerciali di massa o metodi di jailbreaking).

Risorse per gli sviluppatori

Esempi di criteri per l'IA generativa: