Tarjeta de modelo de RecurrentGemma

Página del modelo: RecurrentGemma

Recursos y documentación técnica:

Condiciones de Uso: Términos

Autores: Google

Información del modelo

Resumen del modelo

Descripción

RecurrentGemma es una familia de modelos de lenguaje abiertos creados en una nueva arquitectura recurrente desarrollada en Google. Las versiones preentrenadas y ajustadas por instrucciones están disponibles en inglés.

Al igual que Gemma, los modelos de RecurrentGemma son adecuados para una variedad de tareas de generación de texto, como la respuesta a preguntas, el resumen y el razonamiento. Debido a su arquitectura novedosa, RecurrentGemma requiere menos memoria que Gemma y logra una inferencia más rápida cuando se generan secuencias largas.

Entradas y salidas

  • Entrada: Cadena de texto (p.ej., una pregunta, una instrucción o un documento que se resumirá).
  • Resultado: Texto generado en inglés en respuesta a la entrada (p.ej., una respuesta a la pregunta, un resumen del documento).

Cita

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

Datos del modelo

Conjunto de datos de entrenamiento y procesamiento de datos

RecurrentGemma usa los mismos datos de entrenamiento y procesamiento de datos que la familia de modelos de Gemma. Puedes encontrar una descripción completa en la tarjeta del modelo Gemma.

Información de implementación

Hardware y frameworks que se usan durante el entrenamiento

Al igual que Gemma, RecurrentGemma se entrenó en TPUv5e con JAX y canalizaciones de AA.

Información de la evaluación

Resultados de comparativas

Enfoque de evaluación

Estos modelos se evaluaron en función de una gran colección de diferentes conjuntos de datos y métricas para abarcar diferentes aspectos de la generación de texto:

Resultados de la evaluación

Comparativa Métrica RecurrentGemma 2B RecurrentGemma 9B
MMLU 5 fotos, 1 en la parte superior 38.4 60.5
HellaSwag Sin ejemplos 71.0 80.4
PIQA Sin ejemplos 78.5 81.3
SocialIQA Sin ejemplos 51.8 52.3
BoolQ Sin ejemplos 71.3 80.3
WinoGrande puntuación parcial 67.8 73.6
CommonsenseQA 7 disparos 63.7 73.2
OpenBookQA 47.2 51.8
ARC-e 72.9 78.8
ARC-c 42.3 52.0
TriviaQA 5 tomas 52.5 70.5
Preguntas naturales 5 tomas 11.5 21.7
HumanEval pass@1 21.3 31.1
MBPP 3 tomas 28.8 42.0
GSM8K maj@1 13.4 42.6
MATH 4 tomas 11.0 23.8
AGIEval 23.8 39.3
BIG-Bench 35.3 55.2
Promedio 44.6 56.1

Ética y seguridad

Evaluaciones de ética y seguridad

Enfoque de las evaluaciones

Nuestros métodos de evaluación incluyen evaluaciones estructuradas y pruebas internas de equipo rojo de las políticas de contenido relevantes. Varios equipos diferentes realizaron el equipo rojo, cada uno con diferentes objetivos y métricas de evaluación humana. Estos modelos se evaluaron en función de varias categorías relevantes para la ética y la seguridad, como las siguientes:

  • Seguridad del contenido de texto a texto: Evaluación humana de instrucciones que abarcan políticas de seguridad, como explotación y abuso sexual infantil, acoso, violencia y contenido sangriento, y la incitación al odio o a la violencia.
  • Daños de representación de texto a texto: Realiza comparativas con conjuntos de datos académicos relevantes, como WinoBias y BBQ Dataset.
  • Memorización: Evaluación automatizada de la memorización de los datos de entrenamiento, incluido el riesgo de exposición de información de identificación personal.
  • Daño a gran escala: Pruebas de “capacidades peligrosas”, como riesgos químicos, biológicos, radiológicos y nucleares (CBRN), así como pruebas de persuasión y engaño, seguridad cibernética y replicación autónoma.

Resultados de la evaluación

Los resultados de las evaluaciones de ética y seguridad están dentro de los umbrales aceptables para cumplir con las políticas internas de categorías como seguridad infantil, seguridad del contenido, daños de representación, memorización y daños a gran escala. Además de las evaluaciones internas sólidas, aquí se muestran los resultados de comparativas de seguridad conocidas, como BBQ, Winogender, WinoBias, RealToxicity y TruthfulQA.

Comparativa Métrica RecurrentGemma 2B RecurrentGemma 2B IT RecurrentGemma 9B RecurrentGemma 9B IT
RealToxicity prom. 9.8 7.60 10.3 8.8
BOLD 39.3 52.3 39.8 47.9
CrowS-Pairs top-1 41.1 43.4 38.7 39.5
BBQ Ambig top-1 62.6 71.1 95.9 67.1
BBQ Disambig top-1 58.4 50.8 78.6 78.9
Winogender top-1 55.1 54.7 59.0 64.0
TruthfulQA 35.1 42.7 38.6 47.7
WinoBias 1_2 58.4 56.4 61.5 60.6
WinoBias 2_2 90.0 75.4 90.2 90.3
Toxigen 56.7 50.0 58.8 64.5

Uso y limitaciones del modelo

Limitaciones conocidas

Estos modelos tienen ciertas limitaciones que los usuarios deben tener en cuenta:

  • Datos de entrenamiento
    • La calidad y la diversidad de los datos de entrenamiento influyen de manera significativa en las capacidades del modelo. Los sesgos o las lagunas en los datos de entrenamiento pueden generar limitaciones en las respuestas del modelo.
    • El alcance del conjunto de datos de entrenamiento determina las áreas temáticas que el modelo puede controlar de manera eficaz.
  • Complejidad del contexto y de la tarea
    • Los LLM son mejores en las tareas que se pueden enmarcar con instrucciones y estímulos claros. Las tareas abiertas o muy complejas pueden ser un desafío.
    • El rendimiento de un modelo puede verse influenciado por la cantidad de contexto proporcionado (un contexto más extenso suele generar mejores resultados, hasta cierto punto).
  • Ambigüedad y matices del lenguaje
    • El lenguaje natural es intrínsecamente complejo. Los LLM pueden tener dificultades para captar matices sutiles, sarcasmo o lenguaje figurado.
  • Precisión fáctica
    • Los LLM generan respuestas basadas en la información que aprendieron de sus conjuntos de datos de entrenamiento, pero no son bases de conocimiento. Pueden generar afirmaciones factuales incorrectas o desactualizadas.
  • Sentido común
    • Los LLM se basan en patrones estadísticos en el lenguaje. Es posible que no tengan la capacidad de aplicar el razonamiento del sentido común en ciertas situaciones.

Consideraciones y riesgos éticos

El desarrollo de modelos grandes de lenguaje (LLM) plantea varias inquietudes éticas. Para crear un modelo abierto, consideramos cuidadosamente lo siguiente:

  • Sesgo y equidad
    • Los LLM entrenados con datos de texto del mundo real a gran escala pueden reflejar sesgos socioculturales incorporados en el material de entrenamiento. Estos modelos se sometieron a un escrutinio cuidadoso, se describió el procesamiento previo de los datos de entrada y se informaron las evaluaciones posteriores en esta tarjeta.
  • Información errónea y uso inadecuado
  • Transparencia y responsabilidad
    • En esta tarjeta de modelo, se resumen los detalles sobre la arquitectura, las capacidades, las limitaciones y los procesos de evaluación de los modelos.
    • Un modelo abierto desarrollado de forma responsable ofrece la oportunidad de compartir la innovación, ya que hace que la tecnología de LLM sea accesible para los desarrolladores y los investigadores de todo el ecosistema de IA.

Riesgos identificados y mitigaciones:

  • Perpetuación de sesgos: Se recomienda realizar una supervisión continua (con métricas de evaluación y revisión humana) y la exploración de técnicas de eliminación de sesgos durante el entrenamiento del modelo, el ajuste fino y otros casos de uso.
  • Generación de contenido perjudicial: Los mecanismos y los lineamientos para la seguridad del contenido son esenciales. Se recomienda a los desarrolladores que tengan precaución y que implementen las protecciones de seguridad del contenido adecuadas según sus políticas de productos y casos de uso de aplicaciones específicos.
  • Uso inadecuado con fines maliciosos: Las limitaciones técnicas y la educación de los desarrolladores y usuarios finales pueden ayudar a mitigar las aplicaciones maliciosas de los LLM. Se proporcionan recursos educativos y mecanismos de denuncia para que los usuarios marquen el uso inadecuado. Los usos prohibidos de los modelos de Gemma se describen en nuestros términos de uso.
  • Incumplimientos de la privacidad: Los modelos se entrenaron con datos filtrados para quitar la PII (información de identificación personal). Se recomienda a los desarrolladores que se adhieran a las reglamentaciones de privacidad con técnicas que preserven la privacidad.

Uso previsto

Aplicación

Los modelos de lenguaje grande (LLM) abiertos tienen una amplia variedad de aplicaciones en diferentes industrias y dominios. La siguiente lista de usos potenciales no es exhaustiva. El propósito de esta lista es proporcionar información contextual sobre los posibles casos de uso que los creadores del modelo consideraron como parte del entrenamiento y desarrollo del modelo.

  • Creación de contenido y comunicación
    • Generación de texto: Estos modelos se pueden usar para generar formatos de texto creativo, como poemas, guiones, código, texto de marketing, borradores de correos electrónicos, etcétera.
    • Chatbots y IA conversacional: Potencia las interfaces de conversación para la atención al cliente, los asistentes virtuales o las aplicaciones interactivas.
    • Resúmenes de texto: Genera resúmenes concisos de un corpus de texto, trabajos de investigación o informes.
  • Investigación y educación
    • Investigación sobre procesamiento de lenguaje natural (PLN): Estos modelos pueden servir como base para que los investigadores experimenten con técnicas de PLN, desarrollen algoritmos y contribuyan al avance del campo.
    • Herramientas de aprendizaje de idiomas: Admiten experiencias interactivas de aprendizaje de idiomas, ayudan a corregir la gramática o proporcionan práctica de escritura.
    • Exploración del conocimiento: Ayuda a los investigadores a explorar grandes cuerpos de texto generando resúmenes o respondiendo preguntas sobre temas específicos.

Beneficios

En el momento del lanzamiento, esta familia de modelos proporciona implementaciones de modelos de lenguaje extenso abiertos de alto rendimiento diseñados desde cero para el desarrollo de IA responsable en comparación con modelos de tamaño similar.

Con las métricas de evaluación de comparativas que se describen en este documento, estos modelos demostraron brindar un rendimiento superior a otras alternativas de modelos abiertos de tamaño comparable.

En particular, los modelos de RecurrentGemma logran un rendimiento comparable al de los modelos de Gemma, pero son más rápidos durante la inferencia y requieren menos memoria, en especial en secuencias largas.