Las políticas de seguridad del contenido definen los tipos de contenido dañino que no están permitidos en una plataforma en línea. Es posible que conozcas las políticas de contenido de plataformas como YouTube o Google Play. Las políticas de contenido para aplicaciones de IA generativa son similares: definen el tipo de contenido que tu aplicación no debe generar y guían cómo ajustar los modelos y qué protecciones adecuadas debes agregar.
Tus políticas deben reflejar el caso de uso de tu aplicación. Por ejemplo, un producto de IA generativa destinado a ofrecer ideas para actividades familiares basadas en sugerencias de la comunidad podría tener una política que prohíba la generación de contenido de naturaleza violenta, ya que podría ser perjudicial para los usuarios. Por el contrario, una aplicación que resume ideas de historias de ciencia ficción propuestas por los usuarios podría permitir la generación de violencia, ya que es tema de muchas historias de este género.
Tus políticas de seguridad deben prohibir la generación de contenido ilegal o dañino para los usuarios, y deben especificar qué tipos de contenido generado cumplen con ese estándar para tu aplicación. También considera incluir excepciones para el contenido educativo, documental, científico o artístico que, de otro modo, podría considerarse perjudicial.
Definir políticas claras con un nivel de detalle muy detallado, incluidas excepciones a la política con ejemplos, es fundamental para crear un producto responsable. Tus políticas se usan en cada paso del desarrollo de tu modelo. En el caso de la limpieza o el etiquetado de datos, la imprecisión puede causar datos etiquetados incorrectamente, o bien quitar o quitar de forma excesiva los datos, lo que afectará las respuestas de seguridad de tu modelo. Para fines de evaluación, las políticas mal definidas generarán una alta variación entre evaluadores, lo que hace que sea más difícil saber si tu modelo cumple con tus estándares de seguridad.
Políticas hipotéticas (solo para fines ilustrativos)
Los siguientes son algunos ejemplos de políticas que puedes considerar para tu aplicación, siempre que coincidan con tu caso de uso.
Categoría de la política | Política |
---|---|
Información de identificación personal sensible (IIPS) | La solicitud no incluirá información sensible ni de identificación personal (p.ej., correo electrónico, número de tarjeta de crédito o número de seguridad social de una persona privada). |
Incitación al odio o a la violencia | La aplicación no generará contenido negativo ni dañino dirigido a la identidad o a atributos protegidos (p.ej., insultos raciales, fomentar la discriminación o incitar a la violencia contra grupos protegidos). |
Acoso | La aplicación no generará contenido malicioso, intimidante, de bullying ni abusivo dirigido a otra persona (p.ej., amenazas físicas, negación de sucesos trágicos o menosprecia a víctimas de violencia). |
Contenido peligroso | La aplicación no generará instrucciones ni consejos para autolesionarse o dañar a otros (p.ej., acceder o fabricar armas de fuego y dispositivos explosivos, fomentar el terrorismo o instrucciones para suicidarse). |
Sexualmente explícito | La aplicación no generará contenido que incluya referencias a actos sexuales u otro contenido lascivo (p.ej., descripciones sexualmente gráficas, contenido destinado a provocar excitación). |
Acceso a bienes y servicios dañinos | La aplicación no generará contenido que promueva o permita el acceso a bienes, servicios y actividades potencialmente dañinos (p.ej., que faciliten el acceso a la promoción de juegos de apuestas, productos farmacéuticos, fuegos artificiales o servicios sexuales). |
Contenido Malicioso | La aplicación no generará instrucciones para realizar actividades ilegales o engañosas (p.ej., generar estafas de suplantación de identidad, spam o contenido destinado a solicitudes masivas, métodos de jailbreak). |
Recursos para desarrolladores
Ejemplos de políticas de IA generativa:
- La API de Gemini y la API de PaLM de Cloud proporcionan una lista de atributos de seguridad que pueden servir como base para crear políticas de seguridad.
- Ejemplo de políticas incluidas en la Actualización del progreso de los principios de la IA de Google de 2023
- La asociación MLCommons, un consorcio de ingeniería basado en una filosofía de colaboración abierta para mejorar los sistemas de IA, hace referencia a 6 riesgos sobre los que evalúan modelos sobre la seguridad de la IA como parte de su comparativa de seguridad de la IA.