Évaluer les risques et définir des règles de sécurité

Les règles concernant la sécurité du contenu définissent les types de contenus nuisibles interdits sur une plate-forme en ligne. Vous connaissez peut-être les règles relatives au contenu de plates-formes comme YouTube ou Google Play. Les règles relatives au contenu pour les applications d'IA générative sont similaires: elles définissent le type de contenu que votre application ne doit pas générer, et guident le réglage des modèles et les protections appropriées à ajouter.

Vos règles doivent refléter le cas d'utilisation de votre application. Par exemple, un produit d'IA générative destiné à proposer des idées d'activités familiales basées sur des suggestions de la communauté peut comporter un règlement interdisant la génération de contenus violents par nature, car ceux-ci pourraient être préjudiciables aux utilisateurs. À l'inverse, une application qui résume les idées d'histoires de science-fiction proposées par les utilisateurs peut souhaiter autoriser la génération de violence, car elle fait l'objet de nombreuses histoires dans ce genre.

Vos règles de sécurité doivent interdire la génération de contenus nuisibles ou illégaux pour les utilisateurs, et spécifier les types de contenus générés qui répondent à ce critère pour votre application. Vous pouvez également envisager d'inclure des exceptions pour les contenus à visée éducative, documentaire, scientifique ou artistique qui pourraient être considérés comme préjudiciables.

Pour concevoir un produit responsable, il est essentiel de définir des règles claires avec un niveau de détail très granulaire, y compris des exceptions aux règles et des exemples. Vos règles sont utilisées à chaque étape du développement de votre modèle. Pour le nettoyage ou l'étiquetage des données, l'imprécision peut conduire à un mauvais étiquetage des données, ainsi qu'à une suppression excessive ou insuffisante des données, ce qui peut avoir une incidence sur les réponses de sécurité de votre modèle. À des fins d'évaluation, des règles mal définies entraînent une variance inter-évaluateurs élevée, ce qui rend plus difficile de déterminer si votre modèle répond à vos normes de sécurité.

Règles fictives (à titre d'illustration uniquement)

Voici quelques exemples de règles que vous pouvez envisager d'utiliser pour votre application, à condition qu'elles correspondent à votre cas d'utilisation.

Catégorie de règles Règlement
Informations personnelles sensibles Aucune information sensible ou permettant d'identifier personnellement l'utilisateur (par exemple, adresse e-mail, numéro de carte de crédit ou numéro de sécurité sociale d'une personne physique) ne sera demandée dans la demande.
Incitation à la haine L'application ne générera pas de contenu négatif ou nuisible ciblant une identité et/ou des attributs protégés (par exemple, insultes racistes, promotion de la discrimination, appels à la violence à l'encontre de groupes protégés).
Harcèlement L'application ne générera pas de contenu malveillant, intimidant, intimidant ou abusif ciblant une autre personne (par exemple, des menaces physiques, le déni d'événements tragiques, ou des victimes de violence désobligeant).
Contenu dangereux L'application ne générera pas d'instructions ni de conseils visant à s'infliger des blessures et/ou à en infliger à autrui (par exemple, accéder à des armes à feu et des engins explosifs, ou en fabriquer, promouvoir le terrorisme ou des instructions de suicide).
Contenu à caractère sexuel explicite L'application ne générera pas de contenu faisant référence à des actes sexuels ou à d'autres contenus obscènes (par exemple, des descriptions explicites à caractère sexuel, ou du contenu visant à susciter de l'excitation).
Permettre l'accès aux biens et services dangereux L'application ne générera pas de contenu qui promeut ou permet d'accéder à des biens, des services et des activités potentiellement dangereux (par exemple, facilitant l'accès à la promotion de jeux d'argent et de hasard, de produits pharmaceutiques, de feux d'artifice ou de services sexuels).
Contenu malveillant L'application ne générera pas d'instructions concernant l'exécution d'activités illégales ou trompeuses (par exemple, pour générer des escroqueries par hameçonnage, du spam ou du contenu destiné à des sollicitations de masse ou à des méthodes de jailbreaking).

Ressources pour les développeurs

Exemples de règles d'IA générative: