Projete uma abordagem responsável

Adicionar a IA generativa ao seu aplicativo pode trazer enorme capacidade e valor ao seu mas também exige um olhar aguçado para manter a segurança e a privacidade que que os usuários esperam.

Design com foco na segurança

Cada recurso ativado para IA generativa apresenta oportunidades para criar camadas de segurança. Conforme como mostrado na figura a seguir, uma maneira de pensar sobre segurança é colocando é o modelo de IA que ativa esse recurso no centro. Esse modelo deve ser:

  • Alinhado para executar a tarefa atribuída
  • Protegido por salvaguardas para garantir que a entrada entradas e saídas são rejeitadas. e
  • Avaliação holística para avaliar como o modelo e do sistema reagem a interações que afetam a segurança.

Diagrama funcional das práticas de IA responsável

Consulte o "Como criar produtos de IA responsável" sessão de Google I/O 2024 para saber mais sobre considerações de design, exercícios de pensamento, e protótipos que podem ajudar a acelerar o desenvolvimento responsável práticas recomendadas de autenticação.

Além disso, você pode conhecer as práticas recomendadas e ver exemplos de:

Acima de tudo, lembre-se de que uma abordagem sólida para a segurança e a responsabilidade é autorreflexivo e adaptável ao técnico, cultural e processo e superar desafios comerciais. Envolva você e sua equipe em revisões críticas regulares do abordagem para garantir os melhores resultados.

Definir políticas no nível do sistema

As políticas de Segurança de conteúdo definem quais tipos de conteúdo nocivo não são permitidos em uma plataforma online. Você já deve conhecer as políticas de conteúdo das plataformas como o YouTube ou o Google Play. Conteúdo para aplicativos de IA generativa são semelhantes: elas definem que tipo conteúdo que seu aplicativo não deve gerar e orientam o ajuste de modelos e quais salvaguardas previstas a serem incluídas.

As políticas precisam refletir o caso de uso do aplicativo. Por exemplo, um produto de IA generativa que visa oferecer ideias para atividades em família baseadas em as sugestões da comunidade podem conter uma política que proíba a geração de conteúdo de natureza violenta que possa ser prejudicial aos usuários. Por outro lado, um aplicativo que resume ideias de histórias de ficção científica propostas pelos usuários pode querem permitir a geração de violência, já que é assunto de muitas histórias em desse gênero.

Suas políticas de segurança devem proibir a geração de conteúdo nocivo para os usuários ou ilegais e especificar quais tipos de conteúdo essa barra para seu aplicativo. Você também pode considerar incluir exceções para conteúdo educativo, documental, científico ou artístico que podem ser considerados prejudiciais.

Definir políticas claras com um nível de detalhes altamente granular, incluindo exceções à política com exemplos, é fundamental para criar um ambiente produto. Suas políticas são usadas em cada etapa do desenvolvimento do modelo. Para dados limpeza ou rotulagem, a imprecisão pode levar a dados rotulados incorretamente, remoção excessiva ou sub-remoção de dados, o que afetará as respostas de segurança do seu modelo. Para para fins de avaliação, políticas mal definidas levam a altas a variação, o que dificulta saber se o modelo atende aos seus requisitos de conformidade.

Políticas hipotéticas (apenas para ilustração)

Confira a seguir alguns exemplos de políticas que você pode usar nas do aplicativo, desde que correspondam ao seu caso de uso.

Categoria da política Política
Informações sensíveis de identificação pessoal (SPII) O aplicativo não mencionará informações sensíveis e de identificação pessoal (por exemplo, e-mail, número do cartão de crédito ou CPF ou CNPJ de um indivíduo privado).
Discurso de ódio O app não vai gerar conteúdo negativo ou nocivo visando a identidade e/ou atributos protegidos (por exemplo, insultos raciais, promoção da discriminação, incitação à violência contra materiais protegidos grupos).
Assédio O aplicativo não gerará ações maliciosas, intimidantes, ou abusivos direcionados a outra pessoa (por exemplo, conteúdo ameaças, negação de eventos trágicos, menosprezar vítimas violência).
Conteúdo perigoso A inscrição não vai gerar instruções ou conselhos sobre como ferir si mesmo e/ou outras pessoas (por exemplo, acessar ou construir armas de fogo e dispositivos explosivos, promoção do terrorismo, instruções para suicídio).
Sexualmente explícito O aplicativo não gerará conteúdo que contenha referências a atos sexuais ou outro conteúdo obsceno (por exemplo, conteúdo sexual explícito descrições, conteúdo com o objetivo de causar excitação).
Permissão do acesso a produtos e serviços nocivos O aplicativo não gerará conteúdo que promova ou permita acesso a produtos, serviços e atividades potencialmente nocivos (por exemplo, facilitar o acesso à promoção de jogos de azar, produtos farmacêuticos fogos de artifício, serviços sexuais).
Conteúdo malicioso O aplicativo não gerará instruções para realizar ações ilegais ou atividades enganosas (por exemplo, gerar golpes de phishing, spam ou conteúdo destinado a solicitações em massa e métodos de jailbreak).

Artefatos de transparência

A documentação é um método importante de transparência para desenvolvedores, governos, agentes de políticas e usuários finais do seu produto. Isso pode acarretar publicar relatórios técnicos detalhados ou modelos, dados e cartões de sistema que disponibilizar adequadamente informações essenciais ao público com base na segurança e em outros modelos avaliações. Os artefatos de transparência são mais do que veículos de comunicação. elas também oferece orientação para pesquisadores, implantadores e desenvolvedores de IA sobre o uso responsável do modelo. As informações são úteis para os usuários finais seu produto também, que querem entender os detalhes sobre o modelo.

Algumas diretrizes de transparência a serem consideradas:

  • Explique claramente aos usuários quando eles estiverem interagindo com um experimento a tecnologia de IA generativa e destacar a possibilidade de modelos inesperados do seu modelo.
  • Oferecer documentação completa sobre como o serviço ou produto de IA generativa funciona com uma linguagem compreensível. Considere a publicação estruturada artefatos de transparência, como cards de modelo. Esses cards fornecem uso pretendido do seu modelo e resumir as avaliações que foram realizada durante o desenvolvimento do modelo.
  • Mostre às pessoas como elas podem oferecer feedback e como estão no controle, como como:
    • Fornecimento de mecanismos para ajudar os usuários a validar perguntas baseadas em fatos
    • Ícones "Gostei" e "Não gostei" para feedback do usuário
    • Links para informar problemas e oferecer suporte para resposta rápida a feedback dos usuários
    • Controle do usuário para armazenar ou excluir a atividade do usuário

Sistemas de IA seguros

Os aplicativos ativados para IA generativa apresentam superfícies de ataque complexas que necessitam de mitigações mais diversificadas do que os aplicativos convencionais. O framework de IA segura (SAIF, na sigla em inglês) do Google oferece um framework conceitual para pensar em como projetar seu aplicativo ativado para IA generativa para usos seguros. Essa estrutura pode ajudar você a avaliar como empregar alinhamento, avaliação de adversário e proteções de forma eficaz para proteger seu aplicativo, mas lembre-se de que esses são apenas os elementos iniciais. Mudanças adicionais em as práticas, o monitoramento e os alertas da organização provavelmente atingir as metas de segurança para seu caso de uso e contexto específicos.

Recursos para desenvolvedores

Exemplos de políticas de IA generativa:

Não há um único modelo para artefatos de transparência no setor, mas os cards de modelo existentes podem servir como ponto de partida. para criar o seu próprio:

Referências adicionais