Los productos de Inteligencia Artificial generativa (IA generativa) son relativamente nuevos y sus comportamientos pueden variar más que las formas anteriores de software. Las protecciones que protegen tu producto del uso inadecuado de las capacidades de la IA generativa deben adaptarse de manera similar. En esta guía, se describe cómo puedes emplear verificadores de cumplimiento de las políticas de contenido y herramientas de marcas de agua para proteger tus productos compatibles con la IA generativa.
Cumplimiento de la política de contenido
Incluso con un ajuste previo para la seguridad y una plantilla de instrucciones bien diseñada, es posible que tu producto de IA generativa genere contenido que cause daños no deseados. Los productos de IA generativa a menudo se basan en el filtrado de entradas y salidas para garantizar un comportamiento responsable del modelo. Estas técnicas verifican que los datos que entran o salen del modelo cumplan con tus políticas, a menudo mediante una capacitación adicional sobre seguridad para crear un modelo de clasificador de contenido.
Los clasificadores de entrada se usan para filtrar contenido que está directamente o que podría inducen que tu modelo genere contenido que infrinja tus políticas de contenido. Entrada Los filtros suelen dirigirse a ataques adversarios que intentan eludir tu contenido. y políticas de seguridad.
Los clasificadores de salida filtran la salida del modelo y capturan contenido generado que incumple las políticas tus políticas de seguridad. Si supervisas cuidadosamente los comportamientos de rechazo de tu contenido, mostrar nuevas clases de instrucciones que se pueden usar para aumentar o mejorar las entradas filtros.
Te recomendamos que tengas clasificadores que abarquen todas tus políticas de contenido. Es posible que puedas lograrlo con clasificadores listos para usar o que necesites crear clasificadores personalizados que admitan tus políticas específicas.
El equilibrio también es clave. El uso excesivo de filtros puede causar daños no deseados o reducir la utilidad de la aplicación. Asegúrate de revisar los casos en los que puede ocurrir el uso excesivo de filtros. Consulta la guía de evaluación de seguridad para obtener más información.
Clasificadores de políticas de contenido listos para usar
Los clasificadores de contenido predefinidos agregan una capa adicional de protección al en el entrenamiento de seguridad inherente del modelo, lo que mitiga aún más el potencial de que se produzcan ciertos tipos de incumplimientos de política. En general, existen dos variedades:
- Los clasificadores autoalojados, como ShieldGemma, pueden descargarse y alojarse en una variedad de arquitecturas, incluida la como Google Cloud, hardware de propiedad privada y algunos clasificadores incluso puede ejecutarse en el dispositivo para aplicaciones móviles.
- Los clasificadores basados en APIs se proporcionan como servicios que ofrecen una clasificación de alto volumen y baja latencia en función de una variedad de políticas. Google proporciona
tres servicios que pueden ser de interés:
- Verifica la seguridad de la IA proporciona evaluaciones de cumplimiento y tableros que admiten la evaluación y supervisión de modelos. La herramienta de seguridad de IA está en versión beta abierta. Regístrate para obtener noticias, acceso y demostraciones.
- El servicio de moderación de texto es una API de Google Cloud que analiza el texto en busca de infracciones de seguridad, incluidas las categorías perjudiciales y temas sensibles, sujetos a los porcentajes de uso.
- La API de Perspective es una API gratuita que usa de aprendizaje automático para puntuar el impacto percibido que un comentario podría tener en un conversación. Proporciona puntuaciones que capturan la probabilidad de que un comentario sea tóxico, amenazante, insultante o irrelevante.
Es importante evaluar qué tan bien los clasificadores listos para usar cumplen con los objetivos de tu política y evaluar de forma cualitativa los casos de fallas.
Clasificadores de políticas de contenido personalizados
Los clasificadores de políticas de contenido listos para usar son un excelente punto de partida, pero tienen las siguientes limitaciones:
- Una taxonomía de políticas fija que puede no abarcar todas tus políticas de contenido o no asignarse a ellas.
- Los requisitos de hardware y conectividad que pueden no ser adecuados para el entorno en el que se implementará tu aplicación potenciada por IA generativa.
- Precios y otras restricciones de uso
Los clasificadores de políticas de contenido personalizados pueden ser una forma de abordar estas limitaciones, y el método de clasificadores ágiles proporciona un marco de trabajo eficiente y flexible para crearlos. Como este método ajusta un modelo con fines de seguridad, asegúrate de revisar los conceptos básicos del ajuste de modelos.
Identifica el contenido generado por IA con las marcas de agua de texto de SynthID
Anteriormente, la IA generativa puede generar una gama más amplia de contenido muy diverso a escalas. ni imaginario. Si bien la mayoría de este uso es con fines legítimos, existe la preocupación de que podría contribuir a la información errónea y a los problemas de atribución errónea. El uso de marcas de agua es una técnica para mitigar estos impactos potenciales. Marcas de agua que son imperceptibles para las personas se pueden aplicar al contenido generado por IA, y de detección pueden puntuar contenido arbitrario para indicar la probabilidad de que tiene una marca de agua.
SynthID es una tecnología de Google DeepMind que crea marcas de agua y identifica el contenido generado por IA incorporando marcas de agua digitales directamente en Imágenes, audio, texto o video generados por IA. El texto de SynthID es disponibles para producción en Transformers Hugging Face, consulta el artículo de investigación y los documentos para obtener más información sobre cómo usar SynthID en tu aplicación.
Google Cloud ofrece funciones de marca de agua SynthID para otras modalidades, como las imágenes generadas por imágenes, a clientes de Vertex AI.
Prácticas recomendadas para configurar protecciones
Se recomienda usar clasificadores de seguridad como protecciones. Sin embargo, los límites pueden hacer que el modelo generativo no produzca nada para el usuario si se bloquea el contenido. Las aplicaciones deben diseñarse para para determinar si este es el caso. Los chatbots más populares se encargan de esto al proporcionar respuestas estándar ("Soy Soy un modelo de lenguaje y no puedo ayudarte con esta solicitud").
Encuentra el equilibrio adecuado entre la utilidad y la inocuidad: Cuando uses clasificadores de seguridad, es importante comprender que cometerán errores, incluidos los falsos positivos (p. ej., afirmar que un resultado no es seguro cuando lo es) y los falsos negativos (no etiquetar un resultado como no seguro cuando lo es). Cuando evalúas clasificadores con métricas como F1, precisión, recuperación y AUC-ROC, puedes determinar cómo deseas compensar los errores falsos positivos en comparación con los falsos negativos. Cuando cambias el umbral de los clasificadores, ayudas a encontrar un equilibrio ideal que evite el exceso de filtrado de resultados y, al mismo tiempo, proporcione la seguridad adecuada.
Revisa tus clasificadores para detectar sesgos no intencionales: Los clasificadores de seguridad, como cualquier otro de AA, pueden propagar sesgos no intencionales, como y estereotipos. Las aplicaciones deben evaluarse de manera adecuada para detectar comportamientos potencialmente problemáticos. En particular, los clasificadores de seguridad del contenido pueden activarse de forma excesiva en el contenido relacionado con identidades que son más frecuentemente el objetivo de lenguaje abusivo en línea. Por ejemplo, cuando la API de Perspective se se lanzó por primera vez, el modelo devolvió puntuaciones más altas de toxicidad en los comentarios hacer referencia a ciertos grupos de identidad (blog) Este comportamiento de activación excesiva puede ocurrir porque los comentarios que mencionan términos de identidad para grupos más frecuentes (p. ej., palabras como “negro”, “musulmán”, “feminista”, “mujer”, “gay”, etc.) suelen ser tóxicos. Cuando los conjuntos de datos solían clasificadores de entrenamiento presentan desequilibrios significativos para los comentarios que contienen ciertos palabras, los clasificadores pueden sobregeneralizar y considerar todos los comentarios que contengan esas palabras como de ser inseguro. Lee cómo el equipo de Jigsaw mitigó este sesgo no deseado.
Recursos para desarrolladores
- SynthID: Herramientas para identificar y agregar marcas de agua generadas por IA contenido.
- Verifica la seguridad de la IA: Cumplimiento de la seguridad de la IA.
- API de Perspective: Se usa para identificar contenido tóxico.
- Servicio de moderación de texto: Para clientes de Google Cloud.