Proteja seus modelos

Os produtos de inteligência artificial generativa (GenAI) são relativamente novos, e o comportamento deles pode variar mais do que as formas anteriores de software. As proteções que protegem seu produto contra o uso indevido dos recursos de IA generativa precisam ser adaptadas de forma semelhante. Este guia descreve como usar verificadores de compliance com a política de conteúdo e ferramentas de marca d'água para proteger seus produtos com a IA de última geração.

Compliance com a política de conteúdo

Mesmo com o ajuste de segurança e um modelo de comando bem projetado, é possível que o produto de GenAI gere conteúdo que resulte em danos não intencionais. Produtos de IA generativa com frequência dependem da filtragem de entrada e saída para garantir um comportamento responsável do modelo. Essas técnicas verificam se os dados que entram ou saem do modelo estão em conformidade com as políticas, geralmente realizando mais treinamento de segurança para criar um modelo de classificador de conteúdo.

Os classificadores de entrada são usados para filtrar conteúdo que é diretamente ou que poderia induzir o modelo a gerar conteúdo que viole suas políticas de conteúdo. Os filtros de entrada geralmente são usados para ataques adversários que tentam contornar suas políticas de conteúdo.

Os classificadores de saída filtram a saída do modelo, detectando conteúdo gerado que viola suas políticas de segurança. O monitoramento cuidadoso dos comportamentos de rejeição de conteúdo pode identificar novas classes de comandos que podem ser usadas para aumentar ou melhorar os filtros de entrada.

Recomendamos que você tenha classificadores que abranjam todas as suas políticas de conteúdo. Para isso, use classificadores prontos, ou talvez seja necessário criar classificadores personalizados compatíveis com conforme as políticas específicas.

Equilíbrio também é fundamental. O excesso de filtragem pode resultar em danos não intencionais ou reduzir a utilidade do aplicativo analise os casos em que o excesso de filtragem está acontecendo. Consulte o guia de avaliação de segurança para mais informações.

Classificadores de política de conteúdo prontos

Os classificadores de conteúdo prontos oferecem uma camada extra de proteção ao treinamento de segurança inerente do modelo, reduzindo ainda mais o potencial de determinados tipos de violações da política. Eles geralmente vêm em duas variedades:

Classificadores auto-hospedados, como o ShieldGemma, podem podem ser transferidos por download e hospedados em diversas arquiteturas, incluindo plataformas como o Google Cloud, hardware de propriedade particular e alguns classificadores podem até mesmo ser executados no dispositivo para aplicativos móveis.
Os classificadores baseados em API são fornecidos como serviços que oferecem alto volume, classificação de baixa latência em relação a várias políticas. O Google oferece três serviços que podem ser interessantes para você:
- A Verificação de segurança da IA oferece avaliações de compliance e painéis que oferecem suporte à avaliação e ao monitoramento do modelo. Segurança na IA ferramenta está na versão Beta aberta, inscreva-se para saber as novidades, acesso e demonstrações.
- O Serviço de moderação de texto é uma API do Google Cloud. que analisa o texto em busca de violações de segurança, incluindo categorias prejudiciais e assuntos sensíveis, sujeitos às taxas de uso.
- A API Perspective é uma API gratuita que usa modelos de aprendizado de máquina para avaliar o impacto percebido que um comentário pode ter em uma conversa. Ela fornece pontuações que capturam a probabilidade de um comentário ser tóxico, nocivo, ofensivo ou sem relação com o assunto.

É importante avaliar até que ponto os classificadores prontos atendem à sua política metas e avaliar qualitativamente os casos de falha.

Classificadores da política de conteúdo personalizada

Os classificadores de políticas de conteúdo prontos são um excelente começo, mas limitações, incluindo:

Uma taxonomia de política fixa que pode não mapear ou cobrir todo o seu conteúdo políticas.
Requisitos de hardware e conectividade que podem não ser adequados para o ambiente em que o aplicativo com tecnologia GenAI será implantado.
Preços e outras restrições de uso.

Classificadores de política de conteúdo personalizada podem ser uma maneira de lidar com essas limitações, e o método de classificadores Agile fornece uma eficiente e flexível para criá-los. Como esse método ajusta um modelo por motivos de segurança, revise o noções básicas de ajuste de modelos.

Identificar conteúdo gerado com IA usando marcas-d'água de texto do SynthID

A IA generativa pode gerar uma variedade maior de conteúdo altamente diversificado em escalas impensáveis. Embora a maioria desse uso seja para fins legítimos, há preocupação de que ele possa contribuir para a desinformação e a atribuição incorreta. A aplicação de marcas-d'água é uma técnica para reduzir esses impactos potenciais. Marcas d'água imperceptíveis para humanos podem ser aplicadas a conteúdo gerado por IA, e modelos de detecção podem pontuar conteúdo arbitrário para indicar a probabilidade de ele ter sido marcado.

O SynthID é uma tecnologia do Google DeepMind que marca d'água e identifica conteúdo gerado por IA incorporando marcas d'água digitais diretamente em imagens, áudio, texto ou vídeo gerados por IA. O SynthID Text está disponível para produção em Hugging Face Transformers. Confira o artigo de pesquisa e os documentos para saber mais sobre como usar o SynthID no seu aplicativo.

O Google Cloud oferece recursos de marca d'água do SynthID para outras modalidades, como imagens geradas pelo Imagen, para clientes da Vertex AI.

Práticas recomendadas para configurar proteções

É altamente recomendável usar classificadores de segurança como proteções. No entanto, podem fazer com que o modelo generativo não produza nada para o usuário, se o conteúdo estiver bloqueado. Os aplicativos precisam ser projetados para lidar com isso caso. A maioria dos chatbots mais conhecidos lida com isso fornecendo respostas prontas ("Lamento, sou um modelo de linguagem e não posso ajudar com essa solicitação").

Encontre o equilíbrio certo entre utilidade e inofensiva: ao usar classificadores de segurança, é importante entender que eles vão cometer erros, incluindo falsos positivos (por exemplo, alegar que uma saída não é segura quando não) e falsos negativos (a falha em rotular uma saída como não segura, quando é). Ao avaliar classificadores com métricas como F1, precisão, recall e AUC-ROC, você pode determinar como gostaria de compensar erros falsos positivos em relação a erros falsos negativos. Ao mudar o limite dos classificadores, você ajuda a encontrar um equilíbrio ideal que evite a filtragem excessiva de saídas, mas ainda ofereça segurança adequada.

Confira se há vieses não intencionais nos classificadores: os classificadores de segurança, como qualquer outro modelo de ML, podem propagar vieses não intencionais, como estereótipos socioculturais. Os aplicativos precisam ser avaliados adequadamente quanto à comportamentos problemáticos. Em particular, os classificadores de segurança do conteúdo podem acionar demais conteúdo relacionado a identidades que são mais frequentemente alvo de linguagem abusiva on-line. Por exemplo, quando a API Perspective foi lançada, o modelo retornou pontuações de toxicidade mais altas em comentários que faziam referência a determinados grupos de identidade (blog). Esse comportamento de acionamento excessivo pode acontecer porque comentários que mencionam termos de identidade para grupos mais visados (por exemplo, palavras como "negro", "muçulmano", "feminista", "mulher", "gay" etc.) geralmente têm natureza tóxica. Quando os conjuntos de dados usados para os classificadores de treinamento têm desequilíbrios significativos nos comentários os classificadores podem generalizar demais e considerar todos os comentários com essas palavras provavelmente não são seguros. Saiba como a equipe da Jigsaw mitigou esse viés não intencional.

Recursos para desenvolvedores

SynthID: ferramentas para marca-d'água e identificação de conteúdo gerado com IA conteúdo.
Verificação da segurança da IA: conformidade com a segurança da IA.
API Perspective: para identificar conteúdo tóxico.
Serviço de moderação de texto: para clientes do Google Cloud.