Tarjeta de modelo de RecurrentGemma

Página del modelo: RecurrentGemma

Recursos y documentación técnica:

Condiciones de Uso: Condiciones

Autores: Google

Información del modelo

Resumen del modelo

Descripción

RecurrentGemma es una familia de modelos de lenguaje abierto compilados sobre una arquitectura recurrente novedosa desarrollada en Google. Tanto la versión previamente entrenada como la ajustada para instrucciones están disponibles en inglés.

Al igual que Gemma, los modelos de RecurrentGemma son adecuados para una variedad de tareas de generación de texto, que incluyen la respuesta de preguntas, el resumen y el razonamiento. Debido a su nueva arquitectura, RecurrentGemma requiere menos memoria que Gemma y logra una inferencia más rápida cuando genera secuencias largas.

Entradas y salidas

  • Entrada: Es una cadena de texto (p.ej., una pregunta, una instrucción o un documento para resumir).
  • Salida: texto en inglés generado en respuesta a la entrada (p.ej., una respuesta a la pregunta o un resumen del documento).

Cita

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

Datos del modelo

Conjunto de datos de entrenamiento y procesamiento de datos

RecurrentGemma usa los mismos datos de entrenamiento y procesamiento de datos que la familia de modelos Gemma. Puedes encontrar una descripción completa en la tarjeta de modelo de Gemma.

Información de implementación

Hardware y frameworks usados durante el entrenamiento

Al igual que Gemma, RecurrentGemma se entrenó en TPUv5e, con JAX y rutas de aprendizaje de AA.

Información de la evaluación

Resultados de comparativas

Enfoque de la evaluación

Estos modelos se evaluaron en relación con una gran colección de diferentes conjuntos de datos y métricas para abarcar distintos aspectos de la generación de texto:

Resultados de la evaluación

Benchmark Métrica RecurrentGemma 2B
MMLU 5 disparos, 1 superior 38.4
HellaSwag 0 ejemplos 71,0
PIQA 0 ejemplos 78,5
SocialIQA 0 ejemplos 51,8
BoolQ 0 ejemplos 71,3
WinoGrande puntuación parcial 67,8
CommonsenseQA 7 disparos 63,7
OpenBookQA 47.2
ARC-e 72,9
ARC-c 42.3
TriviaQA 5 disparos 52.5
Preguntas naturales 5 disparos 11.5
HumanEval pase@1 21,3
MBPP 3 disparos 28.8
GSM8K maya@1 13.4
MATH 4 disparos 11.0
AGIEval 23,8
BIG-Bench 35,3
Promedio 44.6

Ética y seguridad

Evaluaciones de ética y seguridad

Enfoque de las evaluaciones

Nuestros métodos de evaluación incluyen evaluaciones estructuradas y pruebas internas del equipo de simulación de ataque de las políticas de contenido relevantes. Varios equipos diferentes llevaron a cabo la formación de equipos de simulación de ataque, cada uno con diferentes objetivos y métricas de evaluación humana. Estos modelos se evaluaron con respecto a una serie de categorías diferentes relevantes para la ética y la seguridad, incluidas las siguientes:

  • Seguridad del contenido con texto a texto: Evaluación humana sobre instrucciones que abordan políticas de seguridad, como explotación y abuso sexual infantil, acoso, violencia y imágenes sangrientas, y la incitación al odio o a la violencia.
  • Daños en la representación de texto a texto: Comparativas con conjuntos de datos académicos relevantes, como WinoBias y el conjunto de datos de barbacoa.
  • Memorización: Evaluación automatizada de la memorización de los datos de entrenamiento, incluido el riesgo de exposición de la información de identificación personal.
  • Daño a gran escala: pruebas de “capacidades peligrosas”, como riesgos químicos, biológicos, radiológicos y nucleares (CBRN), además de pruebas de persuasión y engaño, seguridad cibernética y replicación autónoma.

Resultados de la evaluación

Los resultados de las evaluaciones de ética y seguridad se encuentran dentro de umbrales aceptables para cumplir con las políticas internas de categorías como seguridad infantil, seguridad del contenido, daño de representación, memorización y daños a gran escala. Además de las evaluaciones internas sólidas, aquí se muestran los resultados de las comparativas de seguridad conocidas, como barbacoa, Winogender, Winobias, RealToxicity y TruthfulQA.

Benchmark Métrica RecurrentGemma 2B RecurrentGemma 2B IT
RealToxicity prom. 9.8 7.6
Negrita 39.3 52,4
Pares de cuervo top-1 41,1 43,4
Barbacoa Ambig top-1 62,6 71,1
Barbacoa Disambig top-1 58.4 50.8
Winogénero top-1 55.1 54.7
TruthfulQA 35.1 42,7
Winobias 1_2 58.4 56,4
Winobias 2_2 90,0 75,4
Toxígeno 56,7 50.0

Uso y limitaciones del modelo

Limitaciones conocidas

Estos modelos tienen ciertas limitaciones que los usuarios deben conocer:

  • Datos de entrenamiento
    • La calidad y diversidad de los datos de entrenamiento influyen de manera significativa en las capacidades del modelo. Los sesgos o los vacíos en los datos de entrenamiento pueden conducir a limitaciones en las respuestas del modelo.
    • El alcance del conjunto de datos de entrenamiento determina las áreas temáticas que el modelo puede manejar de manera efectiva.
  • Contexto y complejidad de la tarea
    • Los LLM son mejores para las tareas que se pueden enmarcar con instrucciones y mensajes claros. Las tareas abiertas o muy complejas pueden ser desafiantes.
    • El rendimiento de un modelo puede estar influenciado por la cantidad de contexto proporcionado (un contexto más largo suele generar mejores resultados, hasta un punto determinado).
  • Ambigüedad y matices del lenguaje
    • El lenguaje natural es intrínsecamente complejo. Es posible que los LLM tengan dificultades para captar matices sutiles, sarcasmo o lenguaje figurado.
  • Precisión fáctica
    • Los LLM generan respuestas basadas en la información que aprendieron de los conjuntos de datos de entrenamiento, pero no son bases de conocimiento. Pueden generar declaraciones fácticas incorrectas o desactualizadas.
  • Sentido común
    • Los LLM dependen de patrones estadísticos en el lenguaje. Es posible que carezca de la capacidad de aplicar el razonamiento de sentido común en ciertas situaciones.

Consideraciones y riesgos éticos

El desarrollo de modelos grandes de lenguaje (LLM) genera varios problemas éticos. Al crear un modelo abierto, hemos considerado cuidadosamente lo siguiente:

  • Sesgo y equidad
    • Los LLM entrenados con datos de texto reales a gran escala pueden reflejar sesgos socioculturales incorporados en el material de capacitación. Estos modelos se sometieron a un escrutinio cuidadoso, se describió el procesamiento previo de los datos de entrada y las evaluaciones posteriores informadas en esta tarjeta.
  • Información errónea y uso inadecuado
  • Transparencia y responsabilidad
    • En esta tarjeta de modelo, se resumen los detalles sobre la arquitectura, las capacidades, las limitaciones y los procesos de evaluación de los modelos.
    • Un modelo abierto desarrollado de forma responsable ofrece la oportunidad de compartir innovación, ya que permite que la tecnología de LLM sea accesible para los desarrolladores y los investigadores de todo el ecosistema de IA.

Riesgos identificados y mitigaciones:

  • Perpetuación de sesgos: Se recomienda realizar una supervisión continua (mediante métricas de evaluación, revisión manual) y la exploración de técnicas de eliminación de sesgo durante el entrenamiento de modelos, el ajuste y otros casos de uso.
  • Generación de contenido dañino: Los mecanismos y los lineamientos para la seguridad del contenido son esenciales. Se recomienda a los desarrolladores que tengan precaución y implementen las protecciones de seguridad del contenido adecuadas en función de sus políticas de productos y casos de uso de aplicaciones específicos.
  • Uso inadecuado con fines maliciosos: Las limitaciones técnicas y la educación para desarrolladores y usuarios finales pueden ayudar a mitigar las aplicaciones maliciosas de los LLM. Se proporcionan recursos educativos y mecanismos de denuncia para que los usuarios marquen el uso inadecuado. Los usos prohibidos de los modelos de Gemma se describen en nuestras Condiciones de uso.
  • Incumplimientos de la privacidad: Los modelos se entrenaron con datos filtrados para la eliminación de PII (información de identificación personal). Se recomienda a los desarrolladores que cumplan con las reglamentaciones de privacidad con técnicas que preserven la privacidad.

Uso previsto

Aplicación

Los modelos abiertos de lenguaje extenso (LLM) tienen una gran variedad de aplicaciones en varios sectores y dominios. La siguiente lista de posibles usos no es completa. El propósito de esta lista es proporcionar información contextual sobre los posibles casos de uso que los creadores de modelos consideraron como parte del entrenamiento y desarrollo de modelos.

  • Creación y comunicación de contenido
    • Generación de texto: Estos modelos se pueden usar para generar formatos de texto creativos, como poemas, secuencias de comandos, código, textos de marketing, borradores de correos electrónicos, etcétera.
    • Chatbots e IA conversacional: Potencia las interfaces de conversación para la atención al cliente, los asistentes virtuales o las aplicaciones interactivas.
    • Resumen de textos: Genera resúmenes concisos de un corpus de texto, trabajos de investigación o informes.
  • Investigación y educación
    • Investigación del procesamiento de lenguaje natural (PLN): Estos modelos pueden servir como base para que los investigadores experimenten con técnicas de PLN, desarrollen algoritmos y contribuyan al avance del campo.
    • Herramientas de aprendizaje de idiomas: Admiten experiencias interactivas de aprendizaje de idiomas que ayudan a corregir la gramática o practicar la escritura.
    • Exploración del conocimiento: Genera resúmenes o responde preguntas sobre temas específicos para ayudar a los investigadores a explorar grandes volúmenes de texto.

Beneficios

En el momento del lanzamiento, esta familia de modelos proporciona implementaciones de modelos grandes de lenguaje abiertos de alto rendimiento diseñadas desde cero para el desarrollo de IA responsable en comparación con modelos de tamaño similar.

Con las métricas de evaluación de comparativas que se describen en este documento, estos modelos han demostrado proporcionar un rendimiento superior al de otras alternativas de modelos abiertos de tamaño comparable.

En particular, los modelos de RecurrentGemma logran un rendimiento comparable al de los modelos de Gemma, pero son más rápidos durante la inferencia y requieren menos memoria, especialmente en secuencias largas.