Tarjeta de modelo de RecurrentGemma

Página del modelo: RecurrentGemma

Recursos y documentación técnica:

Condiciones de Uso: Condiciones

Autores: Google

Información del modelo

Resumen del modelo

Descripción

RecurrentGemma es una familia de modelos de lenguaje abierto creados sobre una arquitectura recurrente novedosa desarrollada en Google. Tanto las versiones previamente entrenadas como las ajustadas a las instrucciones están disponibles en inglés.

Al igual que Gemma, los modelos de RecurrentGemma son adecuados para una variedad de tareas de generación de texto, como responder preguntas, resumir y razonar. Debido a su arquitectura novedosa, RecurrentGemma requiere menos memoria que Gemma y logra una inferencia más rápida cuando genera secuencias largas.

Entradas y salidas

  • Entrada: Es una cadena de texto (p.ej., una pregunta, una instrucción o un documento para resumir).
  • Resultado: Se generó texto en inglés en respuesta a la entrada (p.ej., una respuesta a la pregunta o un resumen del documento).

Cita

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

Datos del modelo

Conjunto de datos de entrenamiento y procesamiento de datos

RecurrentGemma usa los mismos datos de entrenamiento y procesamiento de datos que usa la familia de modelos Gemma. Puedes encontrar una descripción completa en la tarjeta del modelo Gemma.

Información de implementación

Hardware y frameworks que se usan durante el entrenamiento

Al igual que Gemma, RecurrentGemma se entrenó en TPUv5e con JAX y Rutas de AA.

Información de la evaluación

Resultados de comparativas

Enfoque de evaluación

Estos modelos se evaluaron en comparación con una gran colección de diferentes conjuntos de datos y métricas para abarcar diferentes aspectos de la generación de texto:

Resultados de la evaluación

Benchmark Métrica RecurrentGemma 2B RecurrentGemma 9B
MMLU 5 tomas, 1 principal 38.4 60.5
HellaSwag Sin ejemplos 71,0 80,4
PIQA Sin ejemplos 78.5 81,3
SocialIQA Sin ejemplos 51.8 52,3
BoolQ Sin ejemplos 71,3 80,3
WinoGrande puntuación parcial 67.8 73,6
CommonsenseQA 7 tomas 63.7 73.2
OpenBookQA 47.2 51.8
ARC‐e 72.9 78.8
ARC‐c 42.3 52,0
TriviaQA 5 tomas 52.5 70,5
Preguntas naturales 5 tomas 11.5 21,7
HumanEval pase@1 21,3 31,1
MBPP 3 tomas 28.8 42,0
GSM8K maj@1 13.4 42,6
MATH 4 tomas 11.0 23,8
AGIEval 23,8 39.3
BIG‐Bench 35,3 55,2
Promedio 44.6 56.1

Ética y seguridad

Evaluaciones de ética y seguridad

Enfoque de las evaluaciones

Nuestros métodos de evaluación incluyen evaluaciones estructuradas y pruebas internas del equipo de simulación de ataque de las políticas de contenido relevantes. Varios equipos diferentes realizaron la formación de equipos de simulación de ataque, cada uno con objetivos y métricas de evaluación humana diferentes. Estos modelos se evaluaron en función de una serie de categorías diferentes relevantes para la ética y la seguridad, incluidas las siguientes:

  • Seguridad del contenido de texto a texto: Evaluación humana de instrucciones sobre políticas de seguridad, como la explotación y el abuso sexual infantil, el acoso, la violencia, las imágenes sangrientas y la incitación al odio o a la violencia
  • Daños a la representación de texto a texto: Comparativas con conjuntos de datos académicos relevantes, como WinoBias y el conjunto de datos de barbacoa.
  • Memorización: Evaluación automatizada de la memorización de los datos de entrenamiento, incluido el riesgo de exposición de la información de identificación personal.
  • Daño a gran escala: Pruebas de “capacidades peligrosas”, como riesgos químicos, biológicos, radiológicos y nucleares (CBRN), además de pruebas de persuasión y engaños, seguridad cibernética y replicación autónoma.

Resultados de la evaluación

Los resultados de las evaluaciones de ética y seguridad se encuentran dentro de los umbrales aceptables para cumplir con políticas internas para categorías como seguridad infantil, seguridad del contenido, daños a la representación, memorización y perjuicios a gran escala. Además de evaluaciones internas sólidas, aquí se muestran los resultados de comparativas de seguridad conocidas, como barbacoa, Winogender, WinoBias, RealToxicity y TruthfulQA.

Benchmark Métrica RecurrentGemma 2B RecurrentGemma 2B IT RecurrentGemma 9B RecurrentGemma 9B IT
RealToxicity prom. 9.8 7.60 10.3 8.8
FRECUENCIA 39.3 52,3 39,8 47.9
Pares de cuervos top-1 41.1 43,4 38,7 39,5
Barbacoa Ambig top-1 62.6 71.1 95.9 67.1
Barbacoa Dambig top-1 58.4 50.8 78,6 78.9
Winogénero top-1 55.1 54.7 59,0 64,0
TruthfulQA 35.1 42,7 38,6 47,7
WinoBias 1_2 58.4 56,4 61.5 60,6
WinoBias 2_2 90,0 75,4 90.2 90,3
Toxígeno 56.7 50.0 58.8 64,5

Uso del modelo y limitaciones

Limitaciones conocidas

Estos modelos tienen ciertas limitaciones que los usuarios deben conocer:

  • Datos de entrenamiento
    • La calidad y la diversidad de los datos de entrenamiento tienen una influencia significativa en las capacidades del modelo. Los sesgos o brechas en los datos de entrenamiento pueden provocar limitaciones en las respuestas del modelo.
    • El alcance del conjunto de datos de entrenamiento determina las áreas temáticas que el modelo puede manejar de manera efectiva.
  • Contexto y complejidad de las tareas
    • Los LLM son mejores para tareas que se pueden enmarcar con instrucciones claras. Las tareas abiertas o muy complejas pueden ser desafiantes.
    • La cantidad de contexto que se brinda puede influir en el rendimiento de un modelo (un contexto más largo suele generar mejores resultados hasta un punto determinado).
  • Ambiguas y matices del lenguaje
    • El lenguaje natural es intrínsecamente complejo. Los LLM pueden tener dificultades para captar sutiles matices, sarcasmo o lenguaje figurado.
  • Precisión fáctica
    • Los LLM generan respuestas en función de la información que obtuvieron de sus conjuntos de datos de entrenamiento, pero no son bases de conocimiento. Pueden generar declaraciones fácticas incorrectas o desactualizadas.
  • Sentido común
    • Los LLM se basan en patrones estadísticos del lenguaje. Es posible que no tengan la capacidad de aplicar el razonamiento de sentido común en ciertas situaciones.

Consideraciones y riesgos éticos

El desarrollo de modelos grandes de lenguaje (LLM) plantea varios problemas éticos. Para crear un modelo abierto, consideramos con cuidado lo siguiente:

  • Sesgo y equidad
    • Los LLM entrenados con datos de texto reales a gran escala pueden reflejar sesgos socioculturales incorporados en el material de capacitación. Estos modelos se sometieron a un escrutinio minucioso, al procesamiento previo de los datos de entrada descritos y a las evaluaciones posteriores informadas en esta tarjeta.
  • Información errónea y uso inadecuado
  • Transparencia y responsabilidad
    • En esta tarjeta de modelo, se resumen los detalles sobre la arquitectura, las capacidades, las limitaciones y los procesos de evaluación de los modelos.
    • Un modelo abierto desarrollado de forma responsable ofrece la oportunidad de compartir la innovación, ya que permite que la tecnología de LLM sea accesible para los desarrolladores y los investigadores de todo el ecosistema de IA.

Riesgos identificados y mitigaciones:

  • Perpetuación de sesgos: Se recomienda realizar una supervisión continua (con métricas de evaluación y revisión manual) y explorar las técnicas de des sesgo durante el entrenamiento de modelos, el ajuste y otros casos de uso.
  • Generación de contenido dañino: Los mecanismos y lineamientos para la seguridad del contenido son esenciales. Se recomienda a los desarrolladores que sean cautelosos e implementen protecciones de seguridad de contenido adecuadas en función de sus políticas de productos específicas y casos de uso de aplicaciones.
  • Uso inadecuado con fines maliciosos: Las limitaciones técnicas y la educación de los desarrolladores y usuarios finales pueden ayudar a mitigar contra las aplicaciones maliciosas de los LLM. Se proporcionan recursos educativos y mecanismos de denuncia para que los usuarios marquen el uso inadecuado. Los usos prohibidos de los modelos de Gemma se describen en nuestras Condiciones de Uso.
  • Incumplimientos de la privacidad: Los modelos se entrenaron con datos filtrados para quitar PII (información de identificación personal). Se recomienda a los desarrolladores que cumplan con las reglamentaciones de privacidad con técnicas que preservan la privacidad.

Uso previsto

Application

Los modelos abiertos de lenguaje extenso (LLM) tienen una amplia variedad de aplicaciones en varias industrias y dominios. La siguiente lista de posibles usos no es completa. El propósito de esta lista es proporcionar información contextual sobre los posibles casos de uso que los creadores del modelo consideraron como parte del entrenamiento y el desarrollo de modelos.

  • Creación de contenido y comunicación
    • Generación de texto: Estos modelos se pueden usar para generar formatos de texto creativos, como poemas, secuencias de comandos, código, textos de marketing, borradores de correos electrónicos, etcétera.
    • IA conversacional y chatbots: Potencia las interfaces de conversación para atención al cliente, asistentes virtuales o aplicaciones interactivas.
    • Resumen de texto: Genera resúmenes concisos de un corpus de texto, artículos de investigación o informes.
  • Investigación y educación
    • Investigación sobre el procesamiento de lenguaje natural (PLN): Estos modelos pueden servir como base para que los investigadores experimenten con técnicas de PLN, desarrollen algoritmos y contribuyan al avance del campo.
    • Herramientas de aprendizaje de idiomas: Admite experiencias de aprendizaje de idiomas interactivas, corrección de gramática o práctica de escritura.
    • Exploración del conocimiento: Ayuda a los investigadores a explorar grandes cuerpos de texto generando resúmenes o respondiendo preguntas sobre temas específicos.

Beneficios

En el momento del lanzamiento, esta familia de modelos proporciona implementaciones de modelos grandes de lenguaje abiertos y de alto rendimiento diseñados desde cero para el desarrollo de IA responsable en comparación con modelos de tamaño similar.

Con las métricas de evaluación comparativas que se describen en este documento, se demostró que estos modelos proporcionan un rendimiento superior a otras alternativas de modelos abiertos de tamaño comparable.

En particular, los modelos de RecurrentGemma logran un rendimiento similar al de los modelos de Gemma, pero son más rápidos durante la inferencia y requieren menos memoria, especialmente en secuencias largas.