Configuración de seguridad

Descripción general

En esta guía, se describen los parámetros de configuración de seguridad ajustables de la API de PaLM disponibles para el servicio de texto. Durante la etapa de prototipado, puedes ajustar la configuración de seguridad en seis dimensiones para evaluar rápidamente si tu aplicación requiere una configuración más o menos restrictiva. De forma predeterminada, la configuración de seguridad bloquea el contenido con probabilidad media o alta de ser contenido inseguro en las seis dimensiones. Esta seguridad de referencia está diseñada para funcionar en la mayoría de los casos de uso, por lo que solo debes ajustar la configuración de seguridad si es necesaria de manera coherente para tu aplicación.

Filtros de seguridad

Además de los filtros de seguridad ajustables, la API de PaLM tiene protecciones integradas contra daños principales, como el contenido que pone en peligro la seguridad infantil. Estos tipos de daño siempre están bloqueados y no se pueden ajustar.

Los filtros de seguridad ajustables abarcan las siguientes categorías:

  • Contenido peyorativo
  • Contenido tóxico
  • Contenido sexual
  • Contenido violento
  • Centros médicos
  • Contenido peligroso

Esta configuración te permite, como desarrollador, determinar lo que es apropiado para tu caso de uso. Por ejemplo, si cuando creas el diálogo de un videojuego, puedes considerar aceptable permitir más contenido que se clasifique como violento o peligroso debido a la naturaleza del juego. Estos son otros ejemplos de casos de uso que pueden necesitar cierta flexibilidad en esta configuración de seguridad:

Caso de uso Categoría
App de capacitación contra el acoso Peyorativo, sexual o tóxico
Grupo de estudio para examen médico Centros médicos
Autoría del guion Violento, sexual, médico, peligroso
Clasificador de toxicidad Tóxica o peyorativa

Probabilidad frente a gravedad

La API de PaLM bloquea contenido en función de la probabilidad de que el contenido no sea seguro y no su gravedad. Es importante tener esto en cuenta, ya que parte del contenido puede tener una baja probabilidad de no ser seguro, a pesar de que la gravedad del daño aún podría ser alta. Por ejemplo, comparemos las siguientes oraciones:

  1. El robot me golpeó.
  2. El robot me acuchilló.

La oración 1 puede tener una mayor probabilidad de ser insegura, pero podrías considerar que la oración 2 es de mayor gravedad en términos de violencia.

Debido a esto, es importante que cada desarrollador pruebe y considere cuidadosamente cuál es el nivel adecuado de bloqueo necesario para respaldar sus casos de uso clave y, al mismo tiempo, minimizar el daño a los usuarios finales.

Configuración de seguridad

La configuración de seguridad forma parte de la solicitud que envías al servicio de mensajes de texto. Se puede ajustar para cada solicitud que realices a la API. En la siguiente tabla, se enumeran las categorías que puedes establecer y se describe el tipo de daño que abarca cada categoría.

Categorías Descripciones
Contenido peyorativo Comentarios negativos o dañinos que se orientan a la identidad o los atributos protegidos.
Contenido tóxico Contenido grosero, irrespetuoso u obsceno.
Contenido sexual Incluye referencias a actos sexual o a otro contenido obsceno.
Contenido violento Describe situaciones que representen violencia contra una persona o un grupo, o descripciones generales de imágenes sangrientas.
Contenido peligroso Promueve, facilita o fomenta actividades perjudiciales.
Centros médicos Contenido relacionado con temas médicos

También puedes ver estas definiciones en la referencia de la API.

En la siguiente tabla, se describe la configuración de bloqueo que puedes ajustar para cada categoría. Por ejemplo, si estableces la configuración de bloqueo en Bloquear pocos para la categoría Derogatoria, se bloqueará todo lo que tenga una alta probabilidad de ser contenido peyorativo. Pero se permite cualquier cosa con una probabilidad más baja.

Si no se establece, la configuración de bloqueo predeterminada es Bloquear algunos o Bloquear la mayoría, según la categoría de la política.

Umbral (Google AI Studio) Umbral (API) Descripción
No bloquear BLOCK_NONE Mostrar siempre independientemente de la probabilidad de que haya contenido no seguro
Bloquear poco BLOCK_ONLY_HIGH Bloquear cuando haya alta probabilidad de tener contenido no seguro
Bloquear algunos (predeterminado para contenido sexual, violento, peligroso y médico) BLOCK_MEDIUM_AND_ABOVE Bloquear cuando haya una probabilidad media o alta de contenido no seguro
Bloquear la mayoría (Configuración predeterminada para casos peyorativos o peyorativos) BLOCK_LOW_AND_ABOVE Bloquear cuando haya una probabilidad baja, media o alta de contenido no seguro
HARM_BLOCK_THRESHOLD_UNSPECIFIED Umbral sin especificar; bloqueo con umbral predeterminado

Puedes establecer estos parámetros de configuración para cada solicitud que realices al servicio de mensajes de texto. Consulta la referencia de la API de HarmBlockThreshold para obtener más detalles.

Comentarios sobre seguridad

Si se bloqueó contenido, la respuesta de la API contiene el motivo por el que se bloqueó en el campo ContentFilter.reason. Si el motivo está relacionado con la seguridad, la respuesta también contiene un campo SafetyFeedback que incluye la configuración de seguridad que se usó para esa solicitud, así como una calificación de seguridad. La calificación de seguridad incluye la categoría y la probabilidad de la clasificación de daño. No se muestra el contenido bloqueado.

La probabilidad que se muestra corresponde a los niveles de confianza del bloque, como se indica en la siguiente tabla:

Probabilidad Descripción
NEGLIGIBLE La probabilidad de que el contenido no sea seguro es mínima
BAJO El contenido tiene pocas probabilidades de ser inseguro.
INTERMEDIO El contenido tiene una probabilidad media de no ser seguro
ALTA Es muy probable que el contenido no sea seguro

Por ejemplo, si el contenido se bloqueó debido a que la categoría de toxicidad tiene una probabilidad alta, la calificación de seguridad que se muestra tendría la categoría igual a TOXICITY y la probabilidad de daño establecida en HIGH.

Configuración de seguridad en Google AI Studio

También puedes establecer estos parámetros de configuración en Google AI Studio. En Run settings, haz clic en Edit Safety settings:

Botón de configuración de seguridad

Además, usa los controles para ajustar cada parámetro de configuración:

Botón de configuración de seguridad

Si el contenido está bloqueado, aparecerá el mensaje Sin contenido. Para ver más detalles, mantén el puntero sobre Sin contenido y haz clic en Seguridad.

Ejemplos de código

En esta sección, se muestra cómo usar la configuración de seguridad en el código con la biblioteca cliente de Python.

Ejemplo de solicitud

El siguiente es un fragmento de código de Python que muestra cómo establecer la configuración de seguridad en la llamada a GenerateText. De esta manera, se establecen las categorías de daño Derogatory y Violence en BLOCK_LOW_AND_ABOVE, lo que bloquea cualquier contenido que tenga una probabilidad baja o mayor de ser violento o peyorativo.

completion = genai.generate_text(
    model=model,
    prompt=prompt,
    safety_settings=[
        {
            "category": safety_types.HarmCategory.HARM_CATEGORY_DEROGATORY,
            "threshold": safety_types.HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
        },
        {
            "category": safety_types.HarmCategory.HARM_CATEGORY_VIOLENCE,
            "threshold": safety_types.HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
        },
    ]
)

Ejemplo de respuesta

A continuación, se muestra un fragmento de código para analizar los comentarios de seguridad de la respuesta. Ten en cuenta que los comentarios de seguridad estarán vacíos, a menos que el motivo del bloqueo sea una de las dimensiones de seguridad.

# First check the content filter reason
for filter in completion.filters:
    print(filter["reason"])

# If any of the reason is "safety", then the safety_feedback field will be
# populated
for feedback in completion.safety_feedback:
    print(feedback["rating"])
    print(feedback["setting"])s

Próximos pasos

  • Consulta la referencia de la API para obtener más información acerca de la API completa.
  • Revisa la guía de seguridad para obtener un panorama general de las consideraciones de seguridad cuando realices desarrollos con LLM.
  • Obtén más información sobre la evaluación de la probabilidad frente a la gravedad del equipo de Jigsaw.
  • Obtén más información sobre los productos que contribuyen a las soluciones de seguridad, como la API de Perspective.
  • Puedes usar esta configuración de seguridad para crear un clasificador de toxicidad. Consulta el ejemplo de clasificación para comenzar.