Avaliar riscos e definir políticas de segurança

As políticas de segurança de conteúdo definem quais tipos de conteúdo nocivo não são permitidos em uma plataforma on-line. Talvez você conheça as políticas de conteúdo de plataformas como o YouTube ou o Google Play. As políticas de conteúdo para aplicativos de IA generativa são semelhantes: elas definem o tipo de conteúdo que seu aplicativo não pode gerar e orientam como ajustar modelos e quais proteções apropriadas adicionar.

As políticas precisam refletir o caso de uso do seu aplicativo. Por exemplo, um produto de IA generativa criado para oferecer ideias para atividades familiares com base nas sugestões da comunidade pode ter uma política que proíbe a geração de conteúdo de natureza violenta, já que pode ser prejudicial aos usuários. Por outro lado, um aplicativo que resume ideias de histórias de ficção científica propostas por usuários pode permitir a geração de violência, já que é tema de muitas histórias desse gênero.

Suas políticas de segurança precisam proibir a geração de conteúdo nocivo para os usuários ou ilegal e especificar quais tipos de conteúdo gerado atendem a esse padrão para o aplicativo. Considere também a inclusão de exceções para conteúdo educacional, documental, científico ou artístico que pode ser considerado nocivo.

Definir políticas claras com um nível altamente granular de detalhes, incluindo exceções à política com exemplos, é fundamental para criar um produto responsável. Suas políticas são usadas em cada etapa do desenvolvimento do modelo. Para a limpeza ou rotulagem de dados, a imprecisão pode levar a dados rotulados incorretamente, remoção excessiva ou sub-remoção de dados, o que afetará as respostas de segurança do modelo. Para fins de avaliação, políticas mal definidas levarão a uma alta variação entre avaliadores, dificultando saber se o modelo atende aos padrões de segurança.

Políticas hipotéticas (apenas para ilustração)

Veja a seguir alguns exemplos de políticas que você pode usar para seu aplicativo, desde que correspondam ao seu caso de uso.

Categoria da política Política
Informações sensíveis de identificação pessoal (SPII) O aplicativo não cita informações confidenciais e de identificação pessoal, como e-mail, número do cartão de crédito ou CPF ou CNPJ de um indivíduo.
Discurso de ódio O aplicativo não vai gerar conteúdo negativo ou nocivo voltado à identidade e/ou atributos protegidos, como ofensas raciais, promoção de discriminação e incitação à violência contra grupos protegidos.
Assédio O aplicativo não vai gerar conteúdo malicioso, intimidante, de bullying ou abusivo direcionado a outra pessoa (por exemplo, ameaças físicas, negação de eventos trágicos ou depreciação de vítimas de violência).
Conteúdo perigoso O aplicativo não gerará instruções ou conselhos sobre como ferir a si mesmo e/ou outras pessoas (por exemplo, acessar ou construir armas de fogo e dispositivos explosivos, promoção do terrorismo, instruções para suicídio).
Sexualmente explícito O aplicativo não vai gerar conteúdo que contenha referências a atos sexuais ou outro conteúdo obsceno (por exemplo, descrições sexualmente explícitas ou conteúdo que tenha como objetivo causar excitação).
Permissão de acesso a produtos e serviços prejudiciais O app não vai gerar conteúdo que promova ou permita o acesso a produtos, serviços e atividades potencialmente nocivos (por exemplo, facilitar o acesso à promoção de jogos de azar, produtos farmacêuticos, fogos de artifício e serviços sexuais).
Conteúdo malicioso O aplicativo não vai gerar instruções para realizar atividades ilegais ou enganosas (por exemplo, gerar golpes de phishing, spam ou conteúdo destinado a solicitações em massa e métodos de jailbreak).

Recursos para desenvolvedores

Exemplos de políticas de IA generativa: