Paramètres de sécurité

Présentation

Ce guide décrit les paramètres de sécurité ajustables de l'API PaLM disponibles pour le service de texte. Au cours de la phase de prototypage, vous pouvez ajuster les paramètres de sécurité selon six dimensions pour évaluer rapidement si votre application nécessite une configuration plus ou moins restrictive. Par défaut, les paramètres de sécurité bloquent le contenu ayant une probabilité moyenne et/ou élevée d'être un contenu dangereux dans les six dimensions. Cette sécurité de référence est conçue pour fonctionner dans la plupart des cas d'utilisation. Vous ne devez donc ajuster vos paramètres de sécurité que si cela est systématiquement requis pour votre application.

Filtres de sécurité

En plus des filtres de sécurité réglables, l'API PaLM dispose de protections intégrées contre les principaux dangers, tels que les contenus qui portent atteinte à la sécurité des enfants. Ces types de préjudices sont toujours bloqués et ne peuvent pas être ajustés.

Les filtres de sécurité réglables couvrent les catégories suivantes:

  • Contenu désobligeant
  • Toxique
  • Contenu à caractère sexuel
  • Violente
  • Santé
  • Dangereux

Ces paramètres vous permettent, en tant que développeur, de déterminer ce qui est adapté à votre cas d'utilisation. Par exemple, si vous créez le dialogue d'un jeu vidéo, vous pouvez estimer qu'il est acceptable d'autoriser d'autres contenus considérés comme violents ou dangereux en raison de la nature du jeu. Voici d'autres exemples de cas d'utilisation qui peuvent nécessiter une certaine flexibilité dans ces paramètres de sécurité:

Cas d'utilisation Catégorie
Application de formation anti-harcèlement Contenu désobligeant, sexuel, toxique
Préparez-vous pour un examen médical Santé
Scénariste Violence, contenu à caractère sexuel, médical, dangereux
Classificateur de toxicité Toxique, dégradant

Probabilité et gravité

L'API PaLM bloque le contenu en fonction de la probabilité qu'il est dangereux et non de sa gravité. Il s'agit d'un point important à prendre en compte, car certains contenus peuvent présenter une faible probabilité d'être dangereux, même si leur gravité reste élevée. Par exemple, en comparant les phrases:

  1. Le robot m'a donné un coup de poing.
  2. Le robot m'a tranché.

La première phrase peut accroître la probabilité d'être dangereuse, mais vous pouvez considérer que la deuxième phrase est plus grave en termes de violence.

Il est donc important que chaque développeur procède à des tests approfondis et étudie le niveau de blocage approprié afin de prendre en charge ses principaux cas d'utilisation, tout en limitant les dommages aux utilisateurs finaux.

Paramètres de sécurité

Les paramètres de sécurité font partie de la requête que vous envoyez au service de SMS. Il peut être ajusté pour chaque requête envoyée à l'API. Le tableau suivant répertorie les catégories que vous pouvez définir et décrit le type de préjudice inclus dans chacune d'elles.

Categories Descriptions
Contenu désobligeant Commentaires négatifs ou nuisibles ciblant une identité et/ou des attributs protégés.
Toxique Contenu grossier, irrespectueux ou grossier
Contenu à caractère sexuel contiennent des références à des actes sexuels ou à d'autres contenus obscènes ;
Violent Décrit des scénarios de violence contre un individu ou un groupe, ou des descriptions générales de contenu sanglant.
Dangereux encourage, facilite ou encourage des actes dangereux ;
Santé Contenus liés à la médecine

Vous pouvez également consulter ces définitions dans la documentation de référence de l'API.

Le tableau suivant décrit les paramètres de blocage que vous pouvez ajuster pour chaque catégorie. Par exemple, si vous définissez le paramètre de blocage sur Bloquer quelques-uns pour la catégorie Contenu dégradant, tous les contenus qui présentent une forte probabilité d'être du contenu dégradant sont bloqués. En revanche, tout ce qui a une probabilité plus faible est autorisé.

Si cette règle n'est pas configurée, le paramètre de blocage par défaut est Bloquer certains éléments ou Bloquer le plus selon la catégorie de règle.

Seuil (Google AI Studio) Seuil (API) Description
Ne rien bloquer BLOCK_NONE Toujours afficher, quelle que soit la probabilité que le contenu soit dangereux
Bloquer quelques éléments BLOCK_ONLY_HIGH Bloquer si la probabilité de contenu dangereux est élevée
Bloquer certaines (par défaut pour les contenus à caractère sexuel, violent, dangereux ou médical) BLOCK_MEDIUM_AND_ABOVE Bloquer si la probabilité de contenu dangereux est moyenne ou élevée
Bloquer la plupart des éléments (par défaut pour les éléments dégradants et toxiques) BLOCK_LOW_AND_ABOVE Bloquer si la probabilité de contenu dangereux est faible, moyenne ou élevée
HARM_BLOCK_THRESHOLD_UNSPECIFIED Le seuil n'est pas spécifié. Bloquer à l'aide du seuil par défaut

Vous pouvez définir ces paramètres pour chaque requête envoyée au service de SMS. Pour en savoir plus, consultez la documentation de référence de l'API HarmBlockThreshold.

Commentaires sur la sécurité

Si le contenu a été bloqué, la réponse de l'API indique la raison pour laquelle il a été bloqué dans le champ ContentFilter.reason. Si le motif était lié à la sécurité, la réponse contient également un champ SafetyFeedback qui inclut les paramètres de sécurité utilisés pour cette requête, ainsi qu'une évaluation de sécurité. La cote de sécurité comprend la catégorie et la probabilité de préjudice. Le contenu bloqué n'est pas renvoyé.

La probabilité renvoyée correspond aux niveaux de confiance du bloc, comme indiqué dans le tableau suivant:

Probabilité Description
NÉLIGIBLE Le contenu a une probabilité négligeable d'être dangereux
LOW (FAIBLE) Le contenu a une faible probabilité d'être dangereux
MOYENNE Le contenu a une probabilité moyenne d'être dangereux
ÉLEVÉE Le contenu a une forte probabilité d'être dangereux

Par exemple, si le contenu a été bloqué en raison d'une probabilité élevée pour la catégorie de toxicité, la cote de sécurité renvoyée aurait la catégorie TOXICITY et la probabilité de dommage définie sur HIGH.

Paramètres de sécurité dans Google AI Studio

Vous pouvez également définir ces paramètres dans Google AI Studio. Dans Run settings (Paramètres d'exécution), cliquez sur Edit safety settings (Modifier les paramètres de sécurité) :

Bouton "Paramètres de sécurité"

Utilisez les boutons pour régler chaque paramètre:

Bouton "Paramètres de sécurité"

Le message Aucun contenu s'affiche si le contenu est bloqué. Pour afficher plus de détails, pointez sur Aucun contenu, puis cliquez sur Sécurité.

Exemples de code

Cette section explique comment utiliser les paramètres de sécurité dans le code à l'aide de la bibliothèque cliente Python.

Exemple de requête

Voici un extrait de code Python montrant comment définir les paramètres de sécurité dans votre appel GenerateText. Les catégories de préjudice Derogatory et Violence sont alors définies sur BLOCK_LOW_AND_ABOVE, ce qui bloque tout contenu présentant une probabilité faible ou plus élevée d'être violent ou dégradant.

completion = genai.generate_text(
    model=model,
    prompt=prompt,
    safety_settings=[
        {
            "category": safety_types.HarmCategory.HARM_CATEGORY_DEROGATORY,
            "threshold": safety_types.HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
        },
        {
            "category": safety_types.HarmCategory.HARM_CATEGORY_VIOLENCE,
            "threshold": safety_types.HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
        },
    ]
)

Exemple de réponse

Vous trouverez ci-dessous un extrait de code permettant d'analyser les commentaires de sécurité de la réponse. Notez que le commentaire de sécurité sera vide, sauf si le motif du blocage est l'une des dimensions de sécurité.

# First check the content filter reason
for filter in completion.filters:
    print(filter["reason"])

# If any of the reason is "safety", then the safety_feedback field will be
# populated
for feedback in completion.safety_feedback:
    print(feedback["rating"])
    print(feedback["setting"])s

Étapes suivantes

  • Consultez la documentation de référence de l'API pour en savoir plus sur l'API complète.
  • Consultez les conseils de sécurité pour obtenir des informations générales sur les considérations de sécurité lors du développement avec des LLM.
  • En savoir plus sur l'évaluation des probabilités par rapport à la gravité avec l'équipe Jigsaw
  • Découvrez les produits qui contribuent aux solutions de sécurité, telles que l'API Perspective.
  • Vous pouvez utiliser ces paramètres de sécurité pour créer un classificateur de toxicité. Pour commencer, consultez l'exemple de classification.