Créer des sauvegardes d'entrée et de sortie

Les applications d'IA générative s'appuient souvent sur le filtrage des données d'entrée et de sortie, parfois appelées garanties, qui aident à garantir que le modèle comportemental. Les techniques de filtrage des entrées et des sorties vérifient les données entrantes ou du modèle est conforme aux règles que vous pour votre application. Les classificateurs d'entrées sont généralement utilisés pour filtrer contenu qui n'est pas destiné à être utilisé dans votre application peut entraîner une violation de vos règles de sécurité. Les filtres d'entrée ciblent souvent les attaques antagonistes qui tentent de contourner votre règlement relatif au contenu ; Résultat les classificateurs fonctionnent avec l'entraînement à la sécurité, un filtre supplémentaire la sortie du modèle, interceptant les résultats générés qui pourraient enfreindre vos règles de sécurité. Nous vous recommandons d'utiliser des classificateurs qui couvrent l'ensemble de vos règles relatives au contenu.

Mesures de protection prêtes à l'emploi

Même avec un réglage antérieur pour la sécurité et un modèle d'invite bien conçu, il est toujours possible que votre modèle renvoie du contenu qui entraîne des dommages involontaires. Les classificateurs de contenu prêts à l'emploi offrent un niveau de protection supplémentaire améliorer davantage ce risque de non-respect des règles.

ShieldGemma

ShieldGemma est un ensemble d'outils prêts à l'emploi, de pondérations, basés sur Gemma 2, qui peuvent déterminer si le contenu fourni par l'utilisateur, généré par un modèle ou mixte enfreint une règlement relatif à la sécurité du contenu. ShieldGemma est entraîné à identifier quatre préjudices (sexuels, les contenus, les contenus dangereux, le harcèlement et l'incitation à la haine). avec des variantes de classe de taille (paramètres 2B, 9B et 27B), qui vous permettent trouver le juste équilibre entre vitesse, performances et capacité de généralisation en fonction de vos besoins le déploiement. Consultez la fiche du modèle pour en savoir plus entre ces variantes.

Protéger vos modèles avec ShieldGemma

<ph type="x-smartling-placeholder"></ph> Démarrer Google Colab (Keras) <ph type="x-smartling-placeholder"></ph> Démarrer Google Colab (Transformers)

Vous pouvez utiliser les modèles ShieldGemma dans les frameworks suivants.

Basée sur une API

Afin de garantir la sécurité des contenus, Google fournit des classificateurs basés sur des API qui permettent filtrer les entrées et sorties du système:

  • L'API Perspective est une API sans frais qui utilise des modèles modèles de machine learning pour évaluer l'impact perçu d'un commentaire conversationnelle. Il fournit des scores qui capturent la probabilité qu'une le commentaire est toxique, menaçant, insultant ou hors sujet.
  • Le service de modération de texte est une API Google Cloud qui ne doit pas dépasser une certaine limite d'utilisation ; utilise le machine learning pour analyser un document par rapport à une liste caractéristiques, y compris les divers sujets et catégories potentiellement dangereux peut être considéré comme sensible.

Il est important d'évaluer dans quelle mesure les classificateurs prêts à l'emploi respectent vos règles objectifs et évaluer les cas d'échec sur un plan qualitatif. Il est également important de Notez qu'un filtrage excessif peut également causer des dommages involontaires et réduire l'utilité de l'application. Il est donc important de passer en revue les cas où un filtrage excessif peut se produire. Pour en savoir plus sur cette évaluation, , consultez Évaluer la sécurité du modèle et du système.

Créez des classificateurs de sécurité personnalisés

Il existe plusieurs raisons pour lesquelles une protection prête à l'emploi pourrait ne pas être adaptée à à votre cas d'utilisation, par exemple en définissant une stratégie non compatible ou en d'affiner votre protection avec les données que vous avez observées sur votre système. Dans Dans ce cas, les classificateurs agiles offrent un moyen efficace et flexible pour créer des protections personnalisées en réglant des modèles, tels que Gemma, pour répondre à vos besoins. Elles vous permettent également de contrôler totalement où et comment ils sont déployés.

Tutoriels sur les classificateurs Gemma Agile

<ph type="x-smartling-placeholder"></ph> Démarrer l'atelier de programmation <ph type="x-smartling-placeholder"></ph> Démarrer Google Colab

codelab sur les classificateurs Agile tutoriel utiliser LoRA pour affiner une Gemma qui servira de classificateur de modération de contenu à l'aide de KerasNLP bibliothèque. En utilisant seulement 200 exemples de l'ensemble de données ETHOS, le classificateur obtient un score F1 de 0,80 et un score ROC-AUC. de 0,78, ce qui se rapproche davantage des technologies de pointe résultats du classement. Après l'entraînement sur les 800 exemples, à l'instar des autres classificateurs du classement, le classificateur agile basé sur Gemma obtient un score F1 de 83,74 et un score ROC-AUC de 88,17. Vous pouvez adapter des instructions du tutoriel pour affiner davantage ce classificateur ou pour créer votre propre des classificateurs de sécurité personnalisés.

Bonnes pratiques pour la configuration des protections

Nous vous recommandons vivement d'utiliser des classificateurs de sécurité en tant que mesures de protection. Toutefois, peuvent faire en sorte que le modèle génératif ne produise rien pour le si le contenu est bloqué. Les applications doivent être conçues pour gérer . Les chatbots les plus populaires fournissent des réponses standardisées ("Je suis Désolé, je suis un modèle de langage, je ne peux pas répondre à votre demande.").

Trouvez le bon équilibre entre "utilité" et "inoffensive": lorsque vous utilisez les classificateurs de sécurité, il est important de comprendre qu'ils commettent des erreurs, y compris les deux faux positifs (par exemple, prétendre qu'une sortie est dangereuse not) et faux négatifs (absence d'étiquetage d'une sortie non sécurisée, alors qu'elle l'est). Par si vous évaluez des classificateurs avec des métriques telles que F1, Précision, Rappel et AUC-ROC, pouvez déterminer comment trouver le juste équilibre entre faux positifs et faux les erreurs négatives. En modifiant le seuil des classificateurs, vous pouvez équilibre idéal entre le filtrage excessif des résultats et la la sécurité appropriée.

Vérifiez que vos classificateurs ne présentent aucun biais inconscient:les classificateurs de sécurité, comme tous d'un autre modèle de ML, peut propager des biais involontaires, tels que des stéréotypes. Les candidatures doivent être correctement évaluées pour déterminer les comportements problématiques. En particulier, les classificateurs de sécurité du contenu sur le contenu lié aux identités qui sont le plus souvent cible de propos injurieux en ligne. Par exemple, lorsque l'API Perspective était lancé pour la première fois, le modèle a renvoyé des scores de toxicité plus élevés dans les commentaires référençant certains groupes d'identité (blog) ; Ce surdéclenchement peut se produire lorsque des commentaires mentionnent des termes d'identité groupes fréquemment ciblés (par exemple, "noir", "musulman", "féministe"), "femme", "gay", etc.) sont plus souvent toxiques par nature. Quand les jeux de données étaient utilisés pour entraîner des déséquilibres significatifs pour les commentaires contenant certaines les classificateurs peuvent trop généraliser et prendre en compte tous les commentaires contenant ces mots comme potentiellement dangereux. Découvrez comment l'équipe Jigsaw atténué ce biais involontaire.

Ressources pour les développeurs