Protégez vos modèles

Les produits d'intelligence artificielle générative (IA générative) sont relativement nouveaux leur comportement peut varier plus que les formes antérieures de logiciels. Les mesures de protection qui protègent votre produit contre l'usage abusif des fonctionnalités d'IA générative doivent s'adapter genre. Ce guide explique comment utiliser des outils de vérification de la conformité aux règles relatives aux contenus et des outils de filigranage pour protéger vos produits compatibles avec GenAI.

Conformité avec le règlement relatif au contenu

Même si vous avez ajusté votre produit pour la sécurité et que vous avez conçu un modèle d'invite efficace, il est possible que votre produit d'IA générative génère des contenus qui causent des dommages non intentionnels. Les produits d'IA générative s'appuient souvent sur le filtrage des entrées et des sorties pour garantir un comportement responsable du modèle. Ces pour vérifier que les données entrantes ou sortantes du modèle respectent vos règles, souvent en effectuant des formation sur la sécurité pour créer un modèle de classification de contenu.

Les classificateurs d'entrée permettent de filtrer les contenus qui enfreignent directement vos règles ou qui pourraient inciter votre modèle à générer des contenus non conformes. Entrée Les filtres ciblent souvent les attaques contradictoires qui tentent de contourner votre contenu règles.

Les classificateurs de sortie filtrent la sortie du modèle, détectant les contenus générés qui enfreignent vos règles de sécurité. Surveillez attentivement les comportements de refus de vos contenus découvrir de nouvelles classes de requêtes qui peuvent être utilisées pour améliorer des filtres.

Nous vous recommandons d'utiliser des classificateurs qui couvrent l'ensemble de vos règles relatives au contenu. Pour ce faire, vous pouvez utiliser des classificateurs prêts à l'emploi. vous devrez peut-être créer des classificateurs personnalisés compatibles vos stratégies spécifiques.

L'équilibre est également essentiel. Un filtrage excessif peut causer des dommages involontaires ou réduire l'utilité de l'application ; veillez à examiner les cas où un filtrage excessif peut ne se produisent pas. Pour en savoir plus, consultez le guide d'évaluation de la sécurité.

Outils de classification du contenu prêts à l'emploi

Les classificateurs de contenu prêts à l'emploi ajoutent un niveau de protection supplémentaire l'entraînement de sécurité inhérent au modèle, ce qui réduit davantage le risque de certaines types de non-respect des règles. Il en existe généralement deux types:

  1. Les classificateurs auto-hébergés, tels que ShieldGemma, peuvent être téléchargés et hébergés sur diverses architectures, y compris des plates-formes cloud telles que Google Cloud, du matériel privé, et certains classificateurs peuvent même s'exécuter sur l'appareil pour les applications mobiles.
  2. Les classificateurs basés sur des API sont fournis en tant que services qui offrent une classification à faible latence par rapport à diverses règles. Google fournit trois services qui pourraient vous intéresser:
    • Checks AI Safety fournit des évaluations de la conformité et des tableaux de bord permettant d'évaluer et de surveiller les modèles. L'outil de sécurité de l'IA est en version bêta ouverte. Inscrivez-vous pour en savoir plus, y accéder et en voir des démonstrations.
    • Le service de modération de texte est une API Google Cloud qui analyse le texte à la recherche d'infractions à la sécurité, y compris les catégories nuisibles et les sujets sensibles, sujette aux taux d'utilisation.
    • L'API Perspective est une API sans frais qui utilise des modèles de machine learning pour évaluer l'impact perçu d'un commentaire conversationnelle. Il fournit des scores qui capturent la probabilité un commentaire est toxique, menaçant, insultant ou hors sujet.

Il est important d'évaluer dans quelle mesure les classificateurs prêts à l'emploi respectent vos règles objectifs et évaluer les cas d'échec sur un plan qualitatif.

Outils de classification personnalisés du règlement relatif au contenu

Les classificateurs de règles de contenu prêts à l'emploi constituent un excellent point de départ, notamment:

  • Une taxonomie de règles fixe qui ne correspond pas nécessairement à toutes vos règles de contenu ni ne les couvre pas toutes.
  • Les exigences matérielles et de connectivité ne sont pas toujours adaptées dans lequel votre application alimentée par l'IA générative sera déployée.
  • Tarifs et autres restrictions d'utilisation

Les classificateurs personnalisés des règles relatives au contenu peuvent être un moyen de répondre à ces limites. La méthode des classificateurs agiles fournit un framework efficace et flexible pour les créer. Lorsque cette méthode règle un modèle pour des raisons de sécurité, consultez le principes de base du réglage de modèle.

Identifier les contenus générés par IA avec les filigranes textuels SynthID

L'IA générative peut générer un éventail plus large de contenus très diversifiés à des échelles inimaginables. Bien que la majorité de cette utilisation soit effectuée à des fins légitimes, crainte qu'elles ne contribuent à la mésinformation et aux problèmes d'attribution incorrecte. Le filigrane est une technique d'atténuation de ces impacts potentiels. Filigranes imperceptibles pour les humains peuvent s'appliquer au contenu généré par IA. les modèles de détection peuvent évaluer des contenus arbitraires pour indiquer la probabilité qu'il comporte un filigrane.

SynthID est une technologie Google DeepMind qui ajoute un filigrane et identifie les contenus générés par IA en intégrant directement des filigranes numériques aux images, aux fichiers audio, aux textes ou aux vidéos générés par IA. La valeur Texte SynthID est disponible en production dans Hugging Face Transformers, consultez le document de recherche et la documentation pour en savoir plus sur l'utilisation de SynthID dans votre application.

Google Cloud fournit des fonctionnalités de filigrane SynthID pour comme les images générées par des images, aux clients de Vertex AI.

Bonnes pratiques pour configurer des mesures de protection

Nous vous recommandons vivement d'utiliser des classificateurs de sécurité comme mesures de protection. Toutefois, peuvent faire en sorte que le modèle génératif ne produise rien pour le si le contenu est bloqué. Les applications doivent être conçues pour gérer ce cas. La plupart des chatbots les plus populaires gèrent cela en fournissant des réponses prédéfinies ("Je suis désolé, je suis un modèle de langage, je ne peux pas vous aider avec cette demande").

Trouvez le bon équilibre entre utilité et inconvénient: lorsque vous utilisez les classificateurs de sécurité, il est important de comprendre qu'ils commettent des erreurs, y compris les deux faux positifs (par exemple, prétendre qu'une sortie est dangereuse not) et faux négatifs (absence d'étiquetage d'une sortie non sécurisée, alors qu'elle l'est). Par si vous évaluez des classificateurs avec des métriques telles que F1, Précision, Rappel et AUC-ROC, pouvez déterminer comment trouver le juste équilibre entre faux positifs et faux les erreurs négatives. En modifiant le seuil des classificateurs, vous pouvez équilibre idéal entre le filtrage excessif des résultats et la la sécurité appropriée.

Vérifiez que vos classificateurs ne présentent aucun biais inconscient:les classificateurs de sécurité, comme tous d'un autre modèle de ML, peut propager des biais involontaires, tels que des stéréotypes. Les applications doivent être évaluées de manière appropriée pour détecter les comportements potentiellement problématiques. En particulier, les classificateurs de sécurité des contenus peuvent déclencher des alertes de façon excessive pour les contenus liés à des identités qui sont plus fréquemment la cible de propos abusifs en ligne. Par exemple, lors du lancement de l'API Perspective, le modèle renvoyait des scores de toxicité plus élevés dans les commentaires faisant référence à certains groupes d'identité (blog). Ce comportement de déclenchement excessif peut se produire, car les commentaires qui mentionnent des termes d'identité pour des groupes ciblés plus fréquemment (par exemple, des mots comme "noir", "musulman", "féministe", "femme", "gay", etc.) sont plus souvent de nature toxique. Quand les jeux de données étaient utilisés pour entraîner des déséquilibres significatifs pour les commentaires contenant certaines les classificateurs peuvent trop généraliser et prendre en compte tous les commentaires contenant ces mots comme potentiellement dangereux. Découvrez comment l'équipe Jigsaw a atténué ce biais involontaire.

Ressources pour les développeurs