Créer des sauvegardes d'entrée et de sortie

Les applications d'IA générative s'appuient souvent sur le filtrage des données d'entrée et de sortie, (parfois appelées mesures de protection) pour s'assurer que le modèle comportemental. Les techniques de filtrage des entrées et des sorties vérifient les données entrantes ou du modèle est conforme aux règles que vous pour votre application.

Mesures de protection prêtes à l'emploi

Même avec un réglage antérieur pour la sécurité et un modèle d'invite bien conçu, il est toujours possible que votre modèle renvoie du contenu qui entraîne des dommages involontaires. Pour améliorer encore ce processus, les classificateurs de contenu peuvent ajouter de sécurité. Les classificateurs de contenu peuvent être appliqués aux entrées et aux sorties.

Les classificateurs d'entrées sont généralement utilisés pour filtrer le contenu qui n'est pas destiné à peut être utilisée dans votre application et peut entraîner une violation règles de sécurité. Les filtres d'entrée ciblent souvent les attaques antagonistes qui tentent de contourner votre règlement relatif au contenu. Les classificateurs de sortie peuvent filtrer davantage le modèle pour détecter les générations involontaires susceptibles d'enfreindre vos règles de sécurité. Nous vous recommandons d'utiliser des classificateurs qui couvrent l'ensemble de vos règles relatives au contenu.

Afin de garantir la sécurité des contenus, Google fournit des classificateurs basés sur des API qui permettent filtrer les entrées et sorties du système:

  • L'API Perspective est une API sans frais qui utilise des modèles modèles de machine learning pour évaluer l'impact perçu d'un commentaire conversationnelle. Il fournit des scores qui capturent la probabilité qu'une le commentaire est toxique, menaçant, insultant ou hors sujet.
  • Le service de modération de texte est une API Google Cloud qui ne doit pas dépasser une certaine limite d'utilisation ; utilise le machine learning pour analyser un document par rapport à une liste caractéristiques, y compris les divers sujets et catégories potentiellement dangereux peut être considéré comme sensible.

Il est important d'évaluer dans quelle mesure les classificateurs prêts à l'emploi respectent vos règles objectifs et évaluer les cas d'échec sur un plan qualitatif. Il est également important de Notez qu'un filtrage excessif peut également causer des dommages involontaires et réduire l'utilité de l'application. Il est donc important de passer en revue les cas où un filtrage excessif peut se produire. Pour en savoir plus sur cette évaluation, , consultez Évaluer la sécurité du modèle et du système.

Créez des classificateurs de sécurité personnalisés

Il existe plusieurs raisons pour lesquelles une protection prête à l'emploi pourrait ne pas être adaptée à à votre cas d'utilisation, par exemple en définissant une stratégie non compatible ou en d'affiner votre protection avec les données que vous avez observées sur votre système. Dans les classificateurs agiles constituent un outil efficace un framework flexible permettant de créer des protections personnalisées en ajustant des modèles, Gemma, pour répondre à vos besoins. Elles vous permettent également de contrôler totalement où et comment ils sont déployés.

Tutoriels sur les classificateurs Gemma Agile

<ph type="x-smartling-placeholder"></ph> Démarrer l'atelier de programmation <ph type="x-smartling-placeholder"></ph> Démarrer Google Colab

codelab sur les classificateurs Agile tutoriel utiliser LoRA pour affiner une Gemma qui servira de classificateur de modération de contenu à l'aide de KerasNLP bibliothèque. En utilisant seulement 200 exemples de l'ensemble de données ETHOS, le classificateur obtient un score F1 de 0,80 et un score ROC-AUC. de 0,78, ce qui se rapproche davantage des technologies de pointe résultats du classement. Après l'entraînement sur les 800 exemples, à l'instar des autres classificateurs du classement, le classificateur agile basé sur Gemma obtient un score F1 de 83,74 et un score ROC-AUC de 88,17. Vous pouvez adapter des instructions du tutoriel pour affiner davantage ce classificateur ou pour créer votre propre des classificateurs de sécurité personnalisés.

Bonnes pratiques pour la configuration des protections

Nous vous recommandons vivement d'utiliser des classificateurs de sécurité en tant que mesures de protection. Toutefois, peuvent faire en sorte que le modèle génératif ne produise rien pour le si le contenu est bloqué. Les applications doivent être conçues pour gérer . Les chatbots les plus populaires fournissent des réponses standardisées ("Je suis Désolé, je suis un modèle de langage, je ne peux pas répondre à votre demande.").

Trouvez le bon équilibre entre "utilité" et "inoffensive": lorsque vous utilisez les classificateurs de sécurité, il est important de comprendre qu'ils commettent des erreurs, y compris les deux faux positifs (par exemple, prétendre qu'une sortie est dangereuse not) et faux négatifs (absence d'étiquetage d'une sortie non sécurisée, alors qu'elle l'est). Par si vous évaluez des classificateurs avec des métriques telles que F1, Précision, Rappel et AUC-ROC, pouvez déterminer comment trouver le juste équilibre entre faux positifs et faux les erreurs négatives. En modifiant le seuil des classificateurs, vous pouvez équilibre idéal entre le filtrage excessif des résultats et la la sécurité appropriée.

Vérifiez que vos classificateurs ne présentent aucun biais inconscient:les classificateurs de sécurité, comme tous d'un autre modèle de ML, peut propager des biais involontaires, tels que des stéréotypes. Les candidatures doivent être correctement évaluées pour déterminer les comportements problématiques. En particulier, les classificateurs de sécurité du contenu sur le contenu lié aux identités qui sont le plus souvent cible de propos injurieux en ligne. Par exemple, lorsque l'API Perspective était lancé pour la première fois, le modèle a renvoyé des scores de toxicité plus élevés dans les commentaires référençant certains groupes d'identité (blog) ; Ce surdéclenchement peut se produire lorsque des commentaires mentionnent des termes d'identité groupes fréquemment ciblés (par exemple, "noir", "musulman", "féministe"), "femme", "gay", etc.) sont plus souvent toxiques par nature. Quand les jeux de données étaient utilisés pour entraîner des déséquilibres significatifs pour les commentaires contenant certaines les classificateurs peuvent trop généraliser et prendre en compte tous les commentaires contenant ces mots comme potentiellement dangereux. Découvrez comment l'équipe Jigsaw atténué ce biais involontaire.

Ressources pour les développeurs