Tarjeta de modelo de RecurrentGemma

Página del modelo: RecurrentGemma

Recursos y documentación técnica:

Condiciones de Uso: Condiciones

Autores: Google

Información del modelo

Resumen del modelo

Descripción

RecurrentGemma es una familia de modelos de lenguaje abierto construidos sobre una nueva función recurrente arquitectura desarrollada en Google. Ambas opciones versiones previamente entrenadas y ajustadas para instrucciones están disponibles en inglés.

Al igual que Gemma, los modelos de RecurrentGemma son adecuados para una variedad de texto. tareas de generación de demanda, como responder preguntas, resumir y razonar. Debido a su arquitectura novedosa, RecurrentGemma requiere menos memoria que Gemma y logra una inferencia más rápida cuando se generan secuencias largas.

Entradas y salidas

  • Entrada: cadena de texto (p.ej., una pregunta, una instrucción o un documento que se va a están resumidas).
  • Resultado: Se generó texto en inglés en respuesta a la entrada (p.ej., una respuesta a la pregunta, un resumen del documento).

Cita

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

Datos del modelo

Conjunto de datos de entrenamiento y procesamiento de datos

RecurrentGemma usa los mismos datos de entrenamiento y procesamiento de datos que usa la Familia de modelos Gemma. Puedes encontrar una descripción completa en el modelo Gemma de la app.

Información de implementación

Hardware y frameworks que se usan durante el entrenamiento

Me gusta Gemma RecurrentGemma se entrenó TPUv5e con JAX y AA Rutas de aprendizaje.

Información de la evaluación

Resultados de comparativas

Enfoque de evaluación

Estos modelos se evaluaron frente a una gran colección de diferentes conjuntos de datos para abarcar diferentes aspectos de la generación de texto:

Resultados de la evaluación

Comparativa Métrica RecurrentGemma 2B RecurrentGemma 9B
MMLU 5 tomas, 1 principal 38.4 60.5
HellaSwag Sin ejemplos 71,0 80,4
PIQA Sin ejemplos 78.5 81,3
SocialIQA Sin ejemplos 51.8 52,3
BoolQ Sin ejemplos 71,3 80,3
WinoGrande puntuación parcial 67.8 73,6
CommonsenseQA 7 tomas 63.7 73.2
OpenBookQA 47.2 51.8
ARC-e 72.9 78.8
ARC-c 42.3 52,0
TriviaQA 5 tomas 52.5 70,5
Preguntas naturales 5 tomas 11.5 21,7
HumanEval pase@1 21,3 31,1
MBPP 3 tomas 28.8 42,0
GSM8K maj@1 13.4 42,6
MATH 4 tomas 11.0 23,8
AGIEval 23,8 39.3
BIG‐Bench 35,3 55,2
Promedio 44.6 56.1

Ética y seguridad

Evaluaciones de ética y seguridad

Enfoque de las evaluaciones

Nuestros métodos de evaluación incluyen evaluaciones estructuradas y formación interna del equipo de emergencias pruebas de políticas de contenido relevantes. La formación de equipos rojos fue llevada a cabo por varias equipos diferentes, cada uno con objetivos y métricas de evaluación humanas diferentes. Estos de modelos se evaluaron frente a una serie de diferentes categorías relevantes para de ética y seguridad, lo que incluye:

  • Seguridad del contenido de texto a texto: Evaluación humana sobre las indicaciones relacionadas con la seguridad incluidas las políticas de explotación y abuso sexual infantil, acoso y violencia imágenes sangrientas y la incitación al odio o a la violencia.
  • Daños a la representación de texto a texto: Comparativas con las observaciones académicas como Conjuntos de datos de WinoBias y barbacoa.
  • Memorización: Evaluación automatizada de la memorización de los datos de entrenamiento. incluido el riesgo de exposición de información de identificación personal.
  • Daños a gran escala: Pruebas para detectar “capacidades peligrosas”, como sustancias químicas, riesgos biológicos, radiológicos y nucleares (CBRN) y pruebas de persuasión y engaño, seguridad cibernética y replicación autónoma.

Resultados de la evaluación

Los resultados de las evaluaciones de ética y seguridad se encuentran dentro de los umbrales aceptables. para reuniones internas políticas para categorías como seguridad infantil, seguridad del contenido, daños a la representación memorización, perjuicios a gran escala. Además de las sólidas evaluaciones internas, resultados de comparativas de seguridad conocidas, como barbacoa, Winogender, WinoBias, Aquí se muestran RealToxicity y TruthfulQA.

Comparativa Métrica RecurrentGemma 2B RecurrentGemma 2B IT RecurrentGemma 9B RecurrentGemma 9B IT
RealToxicity prom. 9.8 7.60 10.3 8.8
BOLD 39.3 52,3 39,8 47.9
Pares de cuervos top-1 41.1 43,4 38,7 39,5
Barbacoa Ambig top-1 62.6 71.1 95.9 67.1
Barbacoa Dambig top-1 58.4 50.8 78,6 78.9
Winogénero top-1 55.1 54.7 59,0 64,0
TruthfulQA 35.1 42,7 38,6 47,7
WinoBias 1_2 58.4 56,4 61.5 60,6
WinoBias 2_2 90,0 75,4 90.2 90,3
Toxigen 56.7 50.0 58.8 64,5

Uso del modelo y limitaciones

Limitaciones conocidas

Estos modelos tienen ciertas limitaciones que los usuarios deben conocer:

  • Datos de entrenamiento
    • La calidad y la diversidad de los datos de entrenamiento tienen una influencia significativa. las capacidades del modelo. Los sesgos o las brechas en los datos de entrenamiento pueden provocar debido a limitaciones en las respuestas del modelo.
    • El alcance del conjunto de datos de entrenamiento determina las áreas temáticas del modelo puedes manejar con eficacia.
  • Contexto y complejidad de las tareas
    • Los LLM son mejores para tareas que se pueden enmarcar con instrucciones claras y instrucciones. Las tareas abiertas o muy complejas pueden ser desafiantes.
    • La cantidad de contexto puede influir en el rendimiento de un modelo proporcionados (un contexto más extenso generalmente genera mejores resultados, hasta un un punto determinado).
  • Ambigüedad y matices del lenguaje
    • El lenguaje natural es intrínsecamente complejo. que los LLM podrían tener dificultades para comprender con matices sutiles, sarcasmo o lenguaje figurado.
  • Precisión fáctica
    • Los LLM generan respuestas basadas en la información que aprendieron de sus son conjuntos de datos de entrenamiento, pero no son bases de conocimiento. Pueden generar afirmaciones fácticas incorrectas o desactualizadas.
  • Sentido común
    • Los LLM se basan en patrones estadísticos del lenguaje. Es posible que no tengan la capacidad para aplicar el razonamiento de sentido común en ciertas situaciones.

Consideraciones y riesgos éticos

El desarrollo de modelos grandes de lenguaje (LLM) plantea varios problemas éticos. Para crear un modelo abierto, consideramos con cuidado lo siguiente:

  • Sesgo y equidad
    • Los LLM entrenados con datos de texto del mundo real a gran escala pueden reflejar sesgos socioculturales incorporados en el material de capacitación Estos modelos se sometió a un escrutinio minucioso, se describieron los datos de entrada al procesamiento previo evaluaciones posteriores informadas en esta tarjeta.
  • Información errónea y uso inadecuado
  • Transparencia y responsabilidad
    • Esta tarjeta de modelos resume los detalles de los modelos arquitectura, capacidades, limitaciones y procesos de evaluación.
    • Un modelo abierto desarrollado de forma responsable ofrece la oportunidad de compartir haciendo que la tecnología de LLM sea accesible para los desarrolladores y de todo el ecosistema de IA.

Riesgos identificados y mitigaciones:

  • Perpetuación de sesgos: Se recomienda realizar una supervisión continua (con métricas de evaluación y revisión manual) y la exploración de la desviación técnicas durante el entrenamiento, el ajuste y otros casos de uso de modelos.
  • Generación de contenido dañino: Mecanismos y lineamientos para el contenido. la seguridad son esenciales. Se recomienda a los desarrolladores que sean cautelosos y implementar protecciones de seguridad de contenido adecuadas políticas de productos y casos de uso de la aplicación.
  • Uso inadecuado con fines maliciosos: Limitaciones técnicas y la educación del usuario final puede ayudar a mitigar las aplicaciones maliciosas de los LLM. Se ofrecen recursos educativos y mecanismos de denuncia para que los usuarios marquen el uso inadecuado. que se proporcionan. Los usos prohibidos de los modelos de Gemma se describen en nuestras condiciones de usar.
  • Incumplimientos de la privacidad: Los modelos se entrenaron con datos filtrados para la eliminación de PII (información de identificación personal). Se recomienda a los desarrolladores que hagan lo siguiente: cumplir con las reglamentaciones de privacidad con técnicas que preservan la privacidad

Uso previsto

Aplicación

Los modelos abiertos de lenguaje extenso (LLM) tienen una amplia variedad de usos en diversos sectores y dominios. La siguiente lista de posibles usos no es en la nube. El propósito de esta lista es proporcionar información contextual sobre los posibles casos de uso que los creadores de modelos consideraron como parte del modelo para la capacitación y el desarrollo.

  • Comunicación y creación de contenido
    • Generación de texto: Estos modelos se pueden usar para generar texto creativo. formatos como poemas, guiones, códigos, textos de marketing, borradores de correos electrónicos, etcétera.
    • IA conversacional y chatbots: Potencia interfaces conversacionales para atención al cliente, asistentes virtuales o aplicaciones interactivas.
    • Resumen de texto: Genera resúmenes concisos de un corpus de texto. trabajos de investigación o informes.
  • Investigación y educación
    • Investigación sobre el procesamiento de lenguaje natural (PLN): Estos modelos pueden servir como base para que los investigadores experimenten con técnicas de PLN desarrollar algoritmos y contribuir al avance del campo.
    • Herramientas para el aprendizaje de idiomas: Admite el aprendizaje interactivo de idiomas. experiencias, la ayuda con la corrección gramatical o la práctica de redacción.
    • Exploración del conocimiento: Ayuda a los investigadores a explorar cuerpos grandes. del texto generando resúmenes o respondiendo preguntas sobre respuestas temas.

Beneficios

En el momento del lanzamiento, esta familia de modelos brindaba para implementaciones de modelos grandes de lenguaje de IA generativa en comparación con modelos de tamaño similar.

Con las métricas de evaluación comparativas descritas en este documento, estos modelos han demostrado ofrecer un rendimiento superior a otros modelos abiertos de tamaño comparable. alternativas.

En particular, los modelos de RecurrentGemma logran un rendimiento similar al de Gemma pero son más rápidas durante la inferencia y requieren menos memoria, especialmente en secuencias largas.