Evalúa los riesgos y establece políticas de seguridad

Las políticas de seguridad del contenido definen los tipos de contenido dañino que no están permitidos en una plataforma en línea. Es posible que conozcas las políticas de contenido de plataformas como YouTube o Google Play. Las políticas de contenido para aplicaciones de IA generativa son similares: definen el tipo de contenido que tu aplicación no debe generar y guían cómo ajustar los modelos y qué protecciones adecuadas debes agregar.

Tus políticas deben reflejar el caso de uso de tu aplicación. Por ejemplo, un producto de IA generativa destinado a ofrecer ideas para actividades familiares basadas en sugerencias de la comunidad podría tener una política que prohíba la generación de contenido de naturaleza violenta, ya que podría ser perjudicial para los usuarios. Por el contrario, una aplicación que resume ideas de historias de ciencia ficción propuestas por los usuarios podría permitir la generación de violencia, ya que es tema de muchas historias de este género.

Tus políticas de seguridad deben prohibir la generación de contenido ilegal o dañino para los usuarios, y deben especificar qué tipos de contenido generado cumplen con ese estándar para tu aplicación. También considera incluir excepciones para el contenido educativo, documental, científico o artístico que, de otro modo, podría considerarse perjudicial.

Definir políticas claras con un nivel de detalle muy detallado, incluidas excepciones a la política con ejemplos, es fundamental para crear un producto responsable. Tus políticas se usan en cada paso del desarrollo de tu modelo. En el caso de la limpieza o el etiquetado de datos, la imprecisión puede causar datos etiquetados incorrectamente, o bien quitar o quitar de forma excesiva los datos, lo que afectará las respuestas de seguridad de tu modelo. Para fines de evaluación, las políticas mal definidas generarán una alta variación entre evaluadores, lo que hace que sea más difícil saber si tu modelo cumple con tus estándares de seguridad.

Políticas hipotéticas (solo para fines ilustrativos)

Los siguientes son algunos ejemplos de políticas que puedes considerar para tu aplicación, siempre que coincidan con tu caso de uso.

Categoría de la política Política
Información de identificación personal sensible (IIPS) La solicitud no incluirá información sensible ni de identificación personal (p.ej., correo electrónico, número de tarjeta de crédito o número de seguridad social de una persona privada).
Incitación al odio o a la violencia La aplicación no generará contenido negativo ni dañino dirigido a la identidad o a atributos protegidos (p.ej., insultos raciales, fomentar la discriminación o incitar a la violencia contra grupos protegidos).
Acoso La aplicación no generará contenido malicioso, intimidante, de bullying ni abusivo dirigido a otra persona (p.ej., amenazas físicas, negación de sucesos trágicos o menosprecia a víctimas de violencia).
Contenido peligroso La aplicación no generará instrucciones ni consejos para autolesionarse o dañar a otros (p.ej., acceder o fabricar armas de fuego y dispositivos explosivos, fomentar el terrorismo o instrucciones para suicidarse).
Sexualmente explícito La aplicación no generará contenido que incluya referencias a actos sexuales u otro contenido lascivo (p.ej., descripciones sexualmente gráficas, contenido destinado a provocar excitación).
Acceso a bienes y servicios dañinos La aplicación no generará contenido que promueva o permita el acceso a bienes, servicios y actividades potencialmente dañinos (p.ej., que faciliten el acceso a la promoción de juegos de apuestas, productos farmacéuticos, fuegos artificiales o servicios sexuales).
Contenido Malicioso La aplicación no generará instrucciones para realizar actividades ilegales o engañosas (p.ej., generar estafas de suplantación de identidad, spam o contenido destinado a solicitudes masivas, métodos de jailbreak).

Recursos para desarrolladores

Ejemplos de políticas de IA generativa: