Crea protecciones de entrada y salida

Las aplicaciones de IA generativa suelen depender del filtrado de datos de entrada y salida, a veces llamadas protecciones, para ayudar a garantizar un modelo responsable de tu modelo. Las técnicas de filtrado de entrada y salida comprueban los datos que ingresan que sale del modelo cumple con las políticas que definir para tu aplicación.

Protecciones prediseñadas

Incluso con un ajuste previo de seguridad y una plantilla de instrucciones bien diseñada, es pero es posible que tu modelo genere contenido que cause daños no intencionados. Para mejorar esto, los clasificadores de contenido pueden agregar protección. Los clasificadores de contenido se pueden aplicar tanto a entradas como a salidas.

Por lo general, los clasificadores de entrada se usan para filtrar contenido que no está diseñado para usarse en tu aplicación y cuáles podrían causar que el modelo infrinja las políticas de seguridad de Google. Los filtros de entrada suelen atacar ataques adversarios que intentan eludir tus políticas de contenido. Los clasificadores de salida pueden filtrar aún más el modelo y detecta generaciones no deseadas que podrían infringir tus políticas de seguridad. Te recomendamos tener clasificadores que cubran todas tus políticas de contenido.

Para la seguridad del contenido, Google proporciona clasificadores basados en APIs que se pueden usar para lo siguiente: filtrar entradas y salidas del sistema:

  • La API de Perspective es una API gratuita que usa de aprendizaje automático para puntuar el impacto percibido que un comentario podría tener en un conversación. Proporciona puntuaciones que capturan la probabilidad de que un comentario sea tóxico, amenazante, insultante o irrelevante.
  • El servicio de moderación de texto es una API de Google Cloud que esté disponible para usarse por debajo de un determinado límite de uso y usan el aprendizaje automático para analizar un documento atributos, incluidos varios temas y categorías potencialmente dañinos que pueden considerarse sensibles.

Es importante evaluar en qué medida los clasificadores listos para usar cumplen con tu política y evaluar cualitativamente los casos de falla. También es importante Ten en cuenta que el filtrado excesivo también puede generar daños no deseados y reducir la utilidad de la aplicación, lo que significa que también es importante revisar el casos en los que se aplique un exceso de filtrado. Para obtener más detalles sobre dicha evaluación, consulta Evalúa la seguridad del modelo y del sistema.

Crea clasificadores de seguridad personalizados

Hay varias razones por las que una protección preestablecida podría no ser una buena opción para tu caso de uso, como tener una política incompatible o querer y ajustar aún más la protección con datos que observaste que afectan a tu sistema. En en este caso, los clasificadores ágiles proporcionan un marco de trabajo flexible para crear protecciones personalizadas ajustando modelos, como Gemma, según tus necesidades. También te permiten controlar por completo dónde y cómo se implementan.

Instructivos del clasificador ágil de Gemma

Iniciar codelab Iniciar Google Colab

El codelab de los clasificadores ágiles instructivo, usa LoRA para perfeccionar una Gemma modelo para que actúe como clasificador de moderación de contenido con KerasNLP biblioteca. Usando solo 200 ejemplos del conjunto de datos ETHOS, este el clasificador obtiene una puntuación F1 de 0.80 y una puntuación ROC-AUC de 0.78, lo que se compara favorablemente con los avances Resultados de la tabla de clasificación. Cuando se entrenó con los ejemplos de 800, como los otros clasificadores de la tabla de clasificación, el clasificador ágil basado en Gemma alcanza una puntuación F1 de 83.74 y una puntuación ROC-AUC de 88.17. Puedes adaptar el instrucciones del instructivo para refinar más este clasificador o crear uno propio protecciones de clasificadores de seguridad personalizados.

Prácticas recomendadas para configurar protecciones

Te recomendamos que uses clasificadores de seguridad como protección. Sin embargo, pueden hacer que el modelo generativo no produzca nada usuario si el contenido está bloqueado. Las aplicaciones deben diseñarse para para determinar si este es el caso. Los chatbots más populares se encargan de esto al proporcionar respuestas estándar ("Soy Lo siento, soy un modelo de lenguaje y no puedo ayudarte con esta solicitud").

Encuentra el equilibrio correcto entre la utilidad y la inofensividad: Cuando uses de seguridad, es importante entender que cometerán errores, incluyendo ambos falsos positivos (p.ej., afirmar que un resultado no es seguro cuando no es seguro not) y falsos negativos (no etiquetar un resultado como no seguro, cuando lo es). De evaluando clasificadores con métricas como F1, Precisión, Recuperación y AUC-ROC, puedes determinar cómo te gustaría sacrificar los falsos positivos errores negativos. Cuando cambias el umbral de los clasificadores, ayudas a encontrar un equilibrio ideal que evite el filtrado excesivo de los resultados, a la vez que proporciona para garantizar la seguridad adecuada.

Revisa tus clasificadores para detectar sesgos no intencionales: Los clasificadores de seguridad, como cualquier otro de AA, pueden propagar sesgos no intencionales, como y estereotipos. Las aplicaciones deben evaluarse adecuadamente para detectar posibles comportamientos problemáticos. En particular, los clasificadores de seguridad del contenido activar en exceso el contenido relacionado con las identidades que son objetivo de lenguaje abusivo en línea. Por ejemplo, cuando la API de Perspective se se lanzó por primera vez, el modelo devolvió puntuaciones más altas de toxicidad en los comentarios hacer referencia a ciertos grupos de identidad (blog) Esto provoca comportamiento puede ocurrir porque los comentarios que mencionan términos de identidad para más grupos a los que se dirige con frecuencia (por ejemplo, palabras como "negro", "musulmán", "feminista", "mujer", "gay", etc.) son más a menudo tóxicos. Cuando los conjuntos de datos solían clasificadores de entrenamiento presentan desequilibrios significativos para los comentarios que contienen ciertos palabras, los clasificadores pueden sobregeneralizar y considerar todos los comentarios que contengan esas palabras como de ser inseguro. Lee cómo el equipo de Jigsaw mitigó este sesgo no deseado.

Recursos para desarrolladores