Présentation
Ce guide décrit les paramètres de sécurité ajustables de l'API PaLM disponibles pour le service de texte. Au cours de la phase de prototypage, vous pouvez ajuster les paramètres de sécurité selon six dimensions pour évaluer rapidement si votre application nécessite une configuration plus ou moins restrictive. Par défaut, les paramètres de sécurité bloquent le contenu ayant une probabilité moyenne et/ou élevée d'être un contenu dangereux dans les six dimensions. Cette sécurité de référence est conçue pour fonctionner dans la plupart des cas d'utilisation. Vous ne devez donc ajuster vos paramètres de sécurité que si cela est systématiquement requis pour votre application.
Filtres de sécurité
En plus des filtres de sécurité réglables, l'API PaLM dispose de protections intégrées contre les principaux dangers, tels que les contenus qui portent atteinte à la sécurité des enfants. Ces types de préjudices sont toujours bloqués et ne peuvent pas être ajustés.
Les filtres de sécurité réglables couvrent les catégories suivantes:
- Contenu désobligeant
- Toxique
- Contenu à caractère sexuel
- Violente
- Santé
- Dangereux
Ces paramètres vous permettent, en tant que développeur, de déterminer ce qui est adapté à votre cas d'utilisation. Par exemple, si vous créez le dialogue d'un jeu vidéo, vous pouvez estimer qu'il est acceptable d'autoriser d'autres contenus considérés comme violents ou dangereux en raison de la nature du jeu. Voici d'autres exemples de cas d'utilisation qui peuvent nécessiter une certaine flexibilité dans ces paramètres de sécurité:
Cas d'utilisation | Catégorie |
---|---|
Application de formation anti-harcèlement | Contenu désobligeant, sexuel, toxique |
Préparez-vous pour un examen médical | Santé |
Scénariste | Violence, contenu à caractère sexuel, médical, dangereux |
Classificateur de toxicité | Toxique, dégradant |
Probabilité et gravité
L'API PaLM bloque le contenu en fonction de la probabilité qu'il est dangereux et non de sa gravité. Il s'agit d'un point important à prendre en compte, car certains contenus peuvent présenter une faible probabilité d'être dangereux, même si leur gravité reste élevée. Par exemple, en comparant les phrases:
- Le robot m'a donné un coup de poing.
- Le robot m'a tranché.
La première phrase peut accroître la probabilité d'être dangereuse, mais vous pouvez considérer que la deuxième phrase est plus grave en termes de violence.
Il est donc important que chaque développeur procède à des tests approfondis et étudie le niveau de blocage approprié afin de prendre en charge ses principaux cas d'utilisation, tout en limitant les dommages aux utilisateurs finaux.
Paramètres de sécurité
Les paramètres de sécurité font partie de la requête que vous envoyez au service de SMS. Il peut être ajusté pour chaque requête envoyée à l'API. Le tableau suivant répertorie les catégories que vous pouvez définir et décrit le type de préjudice inclus dans chacune d'elles.
Categories | Descriptions |
---|---|
Contenu désobligeant | Commentaires négatifs ou nuisibles ciblant une identité et/ou des attributs protégés. |
Toxique | Contenu grossier, irrespectueux ou grossier |
Contenu à caractère sexuel | contiennent des références à des actes sexuels ou à d'autres contenus obscènes ; |
Violent | Décrit des scénarios de violence contre un individu ou un groupe, ou des descriptions générales de contenu sanglant. |
Dangereux | encourage, facilite ou encourage des actes dangereux ; |
Santé | Contenus liés à la médecine |
Vous pouvez également consulter ces définitions dans la documentation de référence de l'API.
Le tableau suivant décrit les paramètres de blocage que vous pouvez ajuster pour chaque catégorie. Par exemple, si vous définissez le paramètre de blocage sur Bloquer quelques-uns pour la catégorie Contenu dégradant, tous les contenus qui présentent une forte probabilité d'être du contenu dégradant sont bloqués. En revanche, tout ce qui a une probabilité plus faible est autorisé.
Si cette règle n'est pas configurée, le paramètre de blocage par défaut est Bloquer certains éléments ou Bloquer le plus selon la catégorie de règle.
Seuil (Google AI Studio) | Seuil (API) | Description |
---|---|---|
Ne rien bloquer | BLOCK_NONE | Toujours afficher, quelle que soit la probabilité que le contenu soit dangereux |
Bloquer quelques éléments | BLOCK_ONLY_HIGH | Bloquer si la probabilité de contenu dangereux est élevée |
Bloquer certaines (par défaut pour les contenus à caractère sexuel, violent, dangereux ou médical) | BLOCK_MEDIUM_AND_ABOVE | Bloquer si la probabilité de contenu dangereux est moyenne ou élevée |
Bloquer la plupart des éléments (par défaut pour les éléments dégradants et toxiques) | BLOCK_LOW_AND_ABOVE | Bloquer si la probabilité de contenu dangereux est faible, moyenne ou élevée |
HARM_BLOCK_THRESHOLD_UNSPECIFIED | Le seuil n'est pas spécifié. Bloquer à l'aide du seuil par défaut |
Vous pouvez définir ces paramètres pour chaque requête envoyée au service de SMS. Pour en savoir plus, consultez la documentation de référence de l'API HarmBlockThreshold
.
Commentaires sur la sécurité
Si le contenu a été bloqué, la réponse de l'API indique la raison pour laquelle il a été bloqué dans le champ ContentFilter.reason
. Si le motif était lié à la sécurité, la réponse contient également un champ SafetyFeedback
qui inclut les paramètres de sécurité utilisés pour cette requête, ainsi qu'une évaluation de sécurité. La cote de sécurité comprend la catégorie et la probabilité de préjudice. Le contenu bloqué n'est pas renvoyé.
La probabilité renvoyée correspond aux niveaux de confiance du bloc, comme indiqué dans le tableau suivant:
Probabilité | Description |
---|---|
NÉLIGIBLE | Le contenu a une probabilité négligeable d'être dangereux |
LOW (FAIBLE) | Le contenu a une faible probabilité d'être dangereux |
MOYENNE | Le contenu a une probabilité moyenne d'être dangereux |
ÉLEVÉE | Le contenu a une forte probabilité d'être dangereux |
Par exemple, si le contenu a été bloqué en raison d'une probabilité élevée pour la catégorie de toxicité, la cote de sécurité renvoyée aurait la catégorie TOXICITY
et la probabilité de dommage définie sur HIGH
.
Paramètres de sécurité dans Google AI Studio
Vous pouvez également définir ces paramètres dans Google AI Studio. Dans Run settings (Paramètres d'exécution), cliquez sur Edit safety settings (Modifier les paramètres de sécurité) :
Utilisez les boutons pour régler chaque paramètre:
Le message
Aucun contenu s'affiche si le contenu est bloqué. Pour afficher plus de détails, pointez sur Aucun contenu, puis cliquez sur Sécurité.Exemples de code
Cette section explique comment utiliser les paramètres de sécurité dans le code à l'aide de la bibliothèque cliente Python.
Exemple de requête
Voici un extrait de code Python montrant comment définir les paramètres de sécurité dans votre appel GenerateText
. Les catégories de préjudice Derogatory
et Violence
sont alors définies sur BLOCK_LOW_AND_ABOVE
, ce qui bloque tout contenu présentant une probabilité faible ou plus élevée d'être violent ou dégradant.
completion = genai.generate_text(
model=model,
prompt=prompt,
safety_settings=[
{
"category": safety_types.HarmCategory.HARM_CATEGORY_DEROGATORY,
"threshold": safety_types.HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
},
{
"category": safety_types.HarmCategory.HARM_CATEGORY_VIOLENCE,
"threshold": safety_types.HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
},
]
)
Exemple de réponse
Vous trouverez ci-dessous un extrait de code permettant d'analyser les commentaires de sécurité de la réponse. Notez que le commentaire de sécurité sera vide, sauf si le motif du blocage est l'une des dimensions de sécurité.
# First check the content filter reason
for filter in completion.filters:
print(filter["reason"])
# If any of the reason is "safety", then the safety_feedback field will be
# populated
for feedback in completion.safety_feedback:
print(feedback["rating"])
print(feedback["setting"])s
Étapes suivantes
- Consultez la documentation de référence de l'API pour en savoir plus sur l'API complète.
- Consultez les conseils de sécurité pour obtenir des informations générales sur les considérations de sécurité lors du développement avec des LLM.
- En savoir plus sur l'évaluation des probabilités par rapport à la gravité avec l'équipe Jigsaw
- Découvrez les produits qui contribuent aux solutions de sécurité, telles que l'API Perspective.
- Vous pouvez utiliser ces paramètres de sécurité pour créer un classificateur de toxicité. Pour commencer, consultez l'exemple de classification.