Crea protecciones de entrada y salida

Las aplicaciones de IA generativa suelen depender del filtrado de datos de entrada y salida, a veces llamadas protecciones, para ayudar a garantizar un modelo responsable el comportamiento de los usuarios. Las técnicas de filtrado de entrada y salida comprueban los datos que ingresan que sale del modelo cumple con las políticas que definir para tu aplicación. Los clasificadores de entrada suelen usarse para filtrar contenido que no está diseñado para usarse en tu aplicación y que podría o hacer que el modelo infrinja las políticas de seguridad. Los filtros de entrada suelen orientarse ataques adversarios que intentan eludir tus políticas de contenido. Salida los clasificadores funcionan con un filtro adicional de entrenamiento en seguridad y detectar los resultados generados que podrían infringir tus políticas de seguridad. Te recomendamos tener clasificadores que cubran todas tus políticas de contenido.

Protecciones prediseñadas

Incluso con un ajuste previo de seguridad y una plantilla de instrucciones bien diseñada, es pero es posible que tu modelo genere contenido que cause daños no intencionados. Los clasificadores de contenido predefinidos pueden agregar una capa adicional de protección a mejorar aún más este potencial para ciertos tipos de incumplimientos de política.

ShieldGemma

ShieldGemma es un conjunto de imágenes abiertas, listas para usar, afinadas con instrucciones modelos de clasificación de contenido de pesos, compilados en Gemma 2, que pueden determinar si el contenido mixto, generado por el modelo o por el usuario infringe una política de seguridad del contenido. ShieldGemma está entrenado para identificar cuatro daños (sexuales contenido peligroso, incitación al odio o a la violencia y acoso) y viene en tres variantes de clase de talla (parámetros 2B, 9B y 27B) que te permiten equilibra la velocidad, el rendimiento y la generalización según tus necesidades en cualquier de Google Workspace. Consulta la tarjeta de modelo para obtener más información sobre el diferencia entre estas variantes.

Protege tus modelos con ShieldGemma

Iniciar Google Colab (Keras) Iniciar Google Colab (Transformers)

Puedes usar los modelos de ShieldGemma en los siguientes frameworks.

Basado en API

Para la seguridad del contenido, Google proporciona clasificadores basados en APIs que se pueden usar para lo siguiente: filtrar entradas y salidas del sistema:

  • La API de Perspective es una API gratuita que usa de aprendizaje automático para puntuar el impacto percibido que un comentario podría tener en un conversación. Proporciona puntuaciones que capturan la probabilidad de que un comentario sea tóxico, amenazante, insultante o irrelevante.
  • El servicio de moderación de texto es una API de Google Cloud que esté disponible para usarse por debajo de un determinado límite de uso y usan el aprendizaje automático para analizar un documento atributos, incluidos varios temas y categorías potencialmente dañinos que pueden considerarse sensibles.

Es importante evaluar en qué medida los clasificadores listos para usar cumplen con tu política y evaluar cualitativamente los casos de falla. También es importante Ten en cuenta que el filtrado excesivo también puede generar daños no deseados y reducir la utilidad de la aplicación, lo que significa que también es importante revisar el casos en los que se aplique un exceso de filtrado. Para obtener más detalles sobre dicha evaluación, consulta Evalúa la seguridad del modelo y del sistema.

Crea clasificadores de seguridad personalizados

Hay varias razones por las que una protección preestablecida podría no ser una buena opción para tu caso de uso, como tener una política incompatible o querer y ajustar aún más la protección con datos que observaste que afectan a tu sistema. En en este caso, los clasificadores ágiles proporcionan un marco de trabajo flexible para crear protecciones personalizadas ajustando modelos, como Gemma, según tus necesidades. También te permiten controlar por completo dónde y cómo se implementan.

Instructivos del clasificador ágil de Gemma

Iniciar codelab Iniciar Google Colab

El codelab de los clasificadores ágiles instructivo, usa LoRA para perfeccionar una Gemma modelo para que actúe como clasificador de moderación de contenido con KerasNLP biblioteca. Usando solo 200 ejemplos del conjunto de datos ETHOS, este el clasificador obtiene una puntuación F1 de 0.80 y una puntuación ROC-AUC de 0.78, lo que se compara favorablemente con los avances Resultados de la tabla de clasificación. Cuando se entrenó con los ejemplos de 800, como los otros clasificadores de la tabla de clasificación, el clasificador ágil basado en Gemma alcanza una puntuación F1 de 83.74 y una puntuación ROC-AUC de 88.17. Puedes adaptar el instrucciones del instructivo para refinar más este clasificador o crear uno propio protecciones de clasificadores de seguridad personalizados.

Prácticas recomendadas para configurar protecciones

Te recomendamos que uses clasificadores de seguridad como protección. Sin embargo, pueden hacer que el modelo generativo no produzca nada usuario si el contenido está bloqueado. Las aplicaciones deben diseñarse para para determinar si este es el caso. Los chatbots más populares se encargan de esto al proporcionar respuestas estándar ("Soy Soy un modelo de lenguaje y no puedo ayudarte con esta solicitud").

Encuentra el equilibrio correcto entre la utilidad y la inofensividad: Cuando uses de seguridad, es importante entender que cometerán errores, incluyendo ambos falsos positivos (p.ej., afirmar que un resultado no es seguro cuando no es seguro not) y falsos negativos (no etiquetar un resultado como no seguro, cuando lo es). De evaluando clasificadores con métricas como F1, Precisión, Recuperación y AUC-ROC, puedes determinar cómo te gustaría sacrificar los falsos positivos errores negativos. Cuando cambias el umbral de los clasificadores, ayudas a encontrar un equilibrio ideal que evite el filtrado excesivo de los resultados, a la vez que proporciona para garantizar la seguridad adecuada.

Revisa tus clasificadores para detectar sesgos no intencionales: Los clasificadores de seguridad, como cualquier otro de AA, pueden propagar sesgos no intencionales, como y estereotipos. Las aplicaciones deben evaluarse adecuadamente para detectar posibles comportamientos problemáticos. En particular, los clasificadores de seguridad del contenido activar en exceso el contenido relacionado con las identidades que son objetivo de lenguaje abusivo en línea. Por ejemplo, cuando la API de Perspective se se lanzó por primera vez, el modelo devolvió puntuaciones más altas de toxicidad en los comentarios hacer referencia a ciertos grupos de identidad (blog) Esto provoca comportamiento puede ocurrir porque los comentarios que mencionan términos de identidad para más grupos a los que se dirige con frecuencia (por ejemplo, palabras como "negro", "musulmán", "feminista", "mujer", "gay", etc.) son más a menudo tóxicos. Cuando los conjuntos de datos solían clasificadores de entrenamiento presentan desequilibrios significativos para los comentarios que contienen ciertos palabras, los clasificadores pueden sobregeneralizar y considerar todos los comentarios que contengan esas palabras como de ser inseguro. Lee cómo el equipo de Jigsaw mitigó este sesgo no deseado.

Recursos para desarrolladores