Descripción general
En esta guía, se describen los parámetros de configuración de seguridad ajustables de la API de PaLM disponibles para el servicio de texto. Durante la etapa de prototipado, puedes ajustar la configuración de seguridad en seis dimensiones para evaluar rápidamente si tu aplicación requiere una configuración más o menos restrictiva. De forma predeterminada, la configuración de seguridad bloquea el contenido con probabilidad media o alta de ser contenido inseguro en las seis dimensiones. Esta seguridad de referencia está diseñada para funcionar en la mayoría de los casos de uso, por lo que solo debes ajustar la configuración de seguridad si es necesaria de manera coherente para tu aplicación.
Filtros de seguridad
Además de los filtros de seguridad ajustables, la API de PaLM tiene protecciones integradas contra daños principales, como el contenido que pone en peligro la seguridad infantil. Estos tipos de daño siempre están bloqueados y no se pueden ajustar.
Los filtros de seguridad ajustables abarcan las siguientes categorías:
- Contenido peyorativo
- Contenido tóxico
- Contenido sexual
- Contenido violento
- Centros médicos
- Contenido peligroso
Esta configuración te permite, como desarrollador, determinar lo que es apropiado para tu caso de uso. Por ejemplo, si cuando creas el diálogo de un videojuego, puedes considerar aceptable permitir más contenido que se clasifique como violento o peligroso debido a la naturaleza del juego. Estos son otros ejemplos de casos de uso que pueden necesitar cierta flexibilidad en esta configuración de seguridad:
Caso de uso | Categoría |
---|---|
App de capacitación contra el acoso | Peyorativo, sexual o tóxico |
Grupo de estudio para examen médico | Centros médicos |
Autoría del guion | Violento, sexual, médico, peligroso |
Clasificador de toxicidad | Tóxica o peyorativa |
Probabilidad frente a gravedad
La API de PaLM bloquea contenido en función de la probabilidad de que el contenido no sea seguro y no su gravedad. Es importante tener esto en cuenta, ya que parte del contenido puede tener una baja probabilidad de no ser seguro, a pesar de que la gravedad del daño aún podría ser alta. Por ejemplo, comparemos las siguientes oraciones:
- El robot me golpeó.
- El robot me acuchilló.
La oración 1 puede tener una mayor probabilidad de ser insegura, pero podrías considerar que la oración 2 es de mayor gravedad en términos de violencia.
Debido a esto, es importante que cada desarrollador pruebe y considere cuidadosamente cuál es el nivel adecuado de bloqueo necesario para respaldar sus casos de uso clave y, al mismo tiempo, minimizar el daño a los usuarios finales.
Configuración de seguridad
La configuración de seguridad forma parte de la solicitud que envías al servicio de mensajes de texto. Se puede ajustar para cada solicitud que realices a la API. En la siguiente tabla, se enumeran las categorías que puedes establecer y se describe el tipo de daño que abarca cada categoría.
Categorías | Descripciones |
---|---|
Contenido peyorativo | Comentarios negativos o dañinos que se orientan a la identidad o los atributos protegidos. |
Contenido tóxico | Contenido grosero, irrespetuoso u obsceno. |
Contenido sexual | Incluye referencias a actos sexual o a otro contenido obsceno. |
Contenido violento | Describe situaciones que representen violencia contra una persona o un grupo, o descripciones generales de imágenes sangrientas. |
Contenido peligroso | Promueve, facilita o fomenta actividades perjudiciales. |
Centros médicos | Contenido relacionado con temas médicos |
También puedes ver estas definiciones en la referencia de la API.
En la siguiente tabla, se describe la configuración de bloqueo que puedes ajustar para cada categoría. Por ejemplo, si estableces la configuración de bloqueo en Bloquear pocos para la categoría Derogatoria, se bloqueará todo lo que tenga una alta probabilidad de ser contenido peyorativo. Pero se permite cualquier cosa con una probabilidad más baja.
Si no se establece, la configuración de bloqueo predeterminada es Bloquear algunos o Bloquear la mayoría, según la categoría de la política.
Umbral (Google AI Studio) | Umbral (API) | Descripción |
---|---|---|
No bloquear | BLOCK_NONE | Mostrar siempre independientemente de la probabilidad de que haya contenido no seguro |
Bloquear poco | BLOCK_ONLY_HIGH | Bloquear cuando haya alta probabilidad de tener contenido no seguro |
Bloquear algunos (predeterminado para contenido sexual, violento, peligroso y médico) | BLOCK_MEDIUM_AND_ABOVE | Bloquear cuando haya una probabilidad media o alta de contenido no seguro |
Bloquear la mayoría (Configuración predeterminada para casos peyorativos o peyorativos) | BLOCK_LOW_AND_ABOVE | Bloquear cuando haya una probabilidad baja, media o alta de contenido no seguro |
HARM_BLOCK_THRESHOLD_UNSPECIFIED | Umbral sin especificar; bloqueo con umbral predeterminado |
Puedes establecer estos parámetros de configuración para cada solicitud que realices al servicio de mensajes de texto. Consulta la referencia de la API de HarmBlockThreshold
para obtener más detalles.
Comentarios sobre seguridad
Si se bloqueó contenido, la respuesta de la API contiene el motivo por el que se bloqueó en el campo ContentFilter.reason
. Si el motivo está relacionado con la seguridad, la respuesta también contiene un campo SafetyFeedback
que incluye la configuración de seguridad que se usó para esa solicitud, así como una calificación de seguridad. La calificación de seguridad incluye la categoría
y la probabilidad de la clasificación de daño. No se muestra el contenido bloqueado.
La probabilidad que se muestra corresponde a los niveles de confianza del bloque, como se indica en la siguiente tabla:
Probabilidad | Descripción |
---|---|
NEGLIGIBLE | La probabilidad de que el contenido no sea seguro es mínima |
BAJO | El contenido tiene pocas probabilidades de ser inseguro. |
INTERMEDIO | El contenido tiene una probabilidad media de no ser seguro |
ALTA | Es muy probable que el contenido no sea seguro |
Por ejemplo, si el contenido se bloqueó debido a que la categoría de toxicidad tiene una probabilidad alta, la calificación de seguridad que se muestra tendría la categoría igual a TOXICITY
y la probabilidad de daño establecida en HIGH
.
Configuración de seguridad en Google AI Studio
También puedes establecer estos parámetros de configuración en Google AI Studio. En Run settings, haz clic en Edit Safety settings:
Además, usa los controles para ajustar cada parámetro de configuración:
Si el contenido está bloqueado, aparecerá el mensaje
Sin contenido. Para ver más detalles, mantén el puntero sobre Sin contenido y haz clic en Seguridad.Ejemplos de código
En esta sección, se muestra cómo usar la configuración de seguridad en el código con la biblioteca cliente de Python.
Ejemplo de solicitud
El siguiente es un fragmento de código de Python que muestra cómo establecer la configuración de seguridad en la llamada a GenerateText
. De esta manera, se establecen las categorías de daño Derogatory
y Violence
en BLOCK_LOW_AND_ABOVE
, lo que bloquea cualquier contenido que tenga una probabilidad baja o mayor de ser violento o peyorativo.
completion = genai.generate_text(
model=model,
prompt=prompt,
safety_settings=[
{
"category": safety_types.HarmCategory.HARM_CATEGORY_DEROGATORY,
"threshold": safety_types.HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
},
{
"category": safety_types.HarmCategory.HARM_CATEGORY_VIOLENCE,
"threshold": safety_types.HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
},
]
)
Ejemplo de respuesta
A continuación, se muestra un fragmento de código para analizar los comentarios de seguridad de la respuesta. Ten en cuenta que los comentarios de seguridad estarán vacíos, a menos que el motivo del bloqueo sea una de las dimensiones de seguridad.
# First check the content filter reason
for filter in completion.filters:
print(filter["reason"])
# If any of the reason is "safety", then the safety_feedback field will be
# populated
for feedback in completion.safety_feedback:
print(feedback["rating"])
print(feedback["setting"])s
Próximos pasos
- Consulta la referencia de la API para obtener más información acerca de la API completa.
- Revisa la guía de seguridad para obtener un panorama general de las consideraciones de seguridad cuando realices desarrollos con LLM.
- Obtén más información sobre la evaluación de la probabilidad frente a la gravedad del equipo de Jigsaw.
- Obtén más información sobre los productos que contribuyen a las soluciones de seguridad, como la API de Perspective.
- Puedes usar esta configuración de seguridad para crear un clasificador de toxicidad. Consulta el ejemplo de clasificación para comenzar.