Tarjeta de modelo Gemma

Página del modelo: Gemma

Recursos y documentación técnica:

Condiciones de Uso: Condiciones

Autores: Google

Información del modelo

Descripción resumida y breve definición de entradas y salidas.

Descripción

Gemma es una familia de modelos abiertos, livianos y de vanguardia de Google, creados a partir de la misma investigación y tecnología que se usaron para crear los modelos de Gemini. Son modelos de lenguaje extenso de texto a texto solo con decodificador, disponibles en inglés, con pesos abiertos, variantes previamente entrenadas y variantes ajustadas con instrucciones. Los modelos de Gemma son adecuados para una variedad de tareas de generación de texto, como la respuesta de preguntas, el resumen y el razonamiento. Su tamaño relativamente pequeño permite implementarlos en entornos con recursos limitados, como una laptop, una computadora de escritorio o tu propia infraestructura de nube, lo que democratiza el acceso a los modelos de IA de vanguardia y ayuda a fomentar la innovación para todos.

Entradas y salidas

  • Entrada: Es una cadena de texto, como una pregunta, una instrucción o un documento para resumir.
  • Salida: texto en inglés generado en respuesta a la entrada, como una respuesta a una pregunta o el resumen de un documento.

Cita

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
    year={2024}
}

Datos del modelo

Datos usados para el entrenamiento de modelos y cómo se procesaron.

Conjunto de datos de entrenamiento

Estos modelos se entrenaron con un conjunto de datos de datos de texto que incluye una amplia variedad de fuentes, con un total de 6 billones de tokens. Estos son los componentes clave:

  • Documentos web: Una colección diversa de textos web garantiza que el modelo se exponga a una amplia gama de estilos, temas y vocabulario lingüísticos. Principalmente contenido en inglés.
  • Código: Exponer el modelo al código ayuda a que aprenda la sintaxis y los patrones de los lenguajes de programación, lo que mejora su capacidad para generar código o comprender las preguntas relacionadas con este.
  • Matemáticas: El entrenamiento con texto matemático ayuda al modelo a aprender el razonamiento lógico y la representación simbólica, y a abordar consultas matemáticas.

La combinación de estas diversas fuentes de datos es crucial para entrenar un modelo de lenguaje potente que pueda manejar una amplia variedad de tareas y formatos de texto diferentes.

Procesamiento previo de los datos

Estos son los métodos clave de limpieza y filtrado de datos que se aplican a los datos de entrenamiento:

  • Filtrado de CSAM: El filtrado riguroso de CSAM (material de abuso sexual infantil) se aplicó en varias etapas del proceso de preparación de los datos para garantizar la exclusión del contenido ilegal y dañino.
  • Filtrado de datos sensibles: Como parte de hacer que los modelos previamente entrenados de Gemma sean seguros y confiables, se usaron técnicas automatizadas para filtrar cierta información personal y otros datos sensibles de los conjuntos de entrenamiento.
  • Métodos adicionales: Filtra en función de la calidad y seguridad del contenido de acuerdo con nuestras políticas.

Información de implementación

Detalles sobre las internas del modelo.

Hardware

Gemma se entrenó con la última generación de hardware de unidad de procesamiento tensorial (TPU) (TPUv5e).

El entrenamiento de modelos grandes de lenguaje requiere una potencia de procesamiento significativa. Las TPU, diseñadas específicamente para las operaciones de matrices comunes en el aprendizaje automático, ofrecen muchas ventajas en este dominio:

  • Rendimiento: Las TPU están diseñadas específicamente para manejar los cálculos masivos involucrados en el entrenamiento de los LLM. Pueden acelerar el entrenamiento considerablemente en comparación con las CPU.
  • Memoria: Las TPU suelen incluir grandes cantidades de memoria de ancho de banda alto, lo que permite controlar modelos grandes y tamaños de lote durante el entrenamiento. Esto puede mejorar la calidad del modelo.
  • Escalabilidad: Los Pods de TPU (clústeres grandes de TPU) proporcionan una solución escalable para manejar la creciente complejidad de los modelos de base grandes. Puedes distribuir el entrenamiento en varios dispositivos de TPU para obtener un procesamiento más rápido y eficiente.
  • Rentabilidad: En muchas situaciones, las TPU pueden proporcionar una solución más rentable para entrenar modelos grandes en comparación con la infraestructura basada en CPU, en especial si se tienen en cuenta el tiempo y los recursos ahorrados debido a un entrenamiento más rápido.
  • Estas ventajas están alineadas con los compromisos de Google de operar de forma sustentable.

Software

El entrenamiento se realizó con JAX y ML Pathways.

JAX permite a los investigadores aprovechar la última generación de hardware, incluidas las TPU, para un entrenamiento más rápido y eficiente de modelos grandes.

ML Pathways es el esfuerzo más reciente de Google para compilar sistemas artificialmente inteligentes capaces de generalizar en varias tareas. Esto es especialmente adecuado para modelos de base, incluidos modelos grandes de lenguaje como estos.

En conjunto, JAX y ML Pathways se usan como se describe en el artículo sobre la familia de modelos Gemini. “El modelo de programación de “controlador único” de Jax y Pathways permite que un solo proceso de Python organice la ejecución completa del entrenamiento, lo que simplifica drásticamente el flujo de trabajo de desarrollo”.

Evaluación

Métricas y resultados de evaluación del modelo.

Resultados de comparativas

Estos modelos se evaluaron en relación con una gran colección de diferentes conjuntos de datos y métricas para abarcar distintos aspectos de la generación de texto:

Benchmark Métrica Gemma PT 2B Gemma PT 7B
MMLU 5 disparos, 1 superior 42.3 64,3
HellaSwag 0 ejemplos 71,4 81,2
PIQA 0 ejemplos 77,3 81,2
SocialIQA 0 ejemplos 49,7 51,8
BoolQ 0 ejemplos 69,4 83,2
WinoGrande puntuación parcial 65,4 72,3
CommonsenseQA 7 disparos 65,3 71,3
OpenBookQA 47,8 52,8
ARC-e 73,2 81.5
ARC-c 42,1 53.2
TriviaQA 5 disparos 53.2 63,4
Preguntas naturales 5 disparos 12.5 23.0
HumanEval pase@1 22.0 32,3
MBPP 3 disparos 29.2 44,4
GSM8K maya@1 17.7 46,4
MATH 4 disparos 11.8 24,3
AGIEval 24,2 41,7
BIG-Bench 35,2 55.1
Promedio 44.9 56,4

Ética y seguridad

Enfoque y resultados de la evaluación de la ética y la seguridad.

Enfoque de evaluación

Nuestros métodos de evaluación incluyen evaluaciones estructuradas y pruebas internas del equipo de simulación de ataque de las políticas de contenido relevantes. Varios equipos diferentes llevaron a cabo la formación de equipos de simulación de ataque, cada uno con diferentes objetivos y métricas de evaluación humana. Estos modelos se evaluaron con respecto a una serie de categorías diferentes relevantes para la ética y la seguridad, incluidas las siguientes:

  • Seguridad del contenido que incluye texto a texto: Se realizan evaluaciones humanas en instrucciones que incluyan políticas de seguridad, como explotación y abuso sexual infantil, acoso, violencia y derramamiento de sangre, y la incitación al odio o a la violencia.
  • Daños representativos de texto a texto: comparativas con conjuntos de datos académicos relevantes, como WinoBias y el conjunto de datos de BBQ
  • Memorización: Evaluación automatizada de la memorización de los datos de entrenamiento, incluido el riesgo de exposición de información de identificación personal.
  • Daño a gran escala: pruebas de "capacidades peligrosas", como riesgos químicos, biológicos, radiológicos y nucleares (CBRN).

Resultados de la evaluación

Los resultados de las evaluaciones de ética y seguridad se encuentran dentro de umbrales aceptables para cumplir con las políticas internas de categorías como seguridad infantil, seguridad del contenido, daño de representación, memorización y daños a gran escala. Además de las evaluaciones internas sólidas, aquí se muestran los resultados de las comparativas de seguridad conocidas, como barbacoa, BOLD, Winogender, Winobias, RealToxicity y TruthfulQA.

Gemma 1.0

Benchmark Métrica Gemma 1.0 IT 2B Gemma 1.0 IT 7B
RealToxicity average 6,86 7,90
Negrita 45,57 49,08
Pares de cuervo top-1 45,82 51,33
Barbacoa Ambig 1 intento, 1 superior 62,58 92,54
Barbacoa Disambig top-1 54,62 71,99
Winogénero top-1 51,25 54,17
TruthfulQA 44,84 31,81
Winobias 1_2 56,12 59,09
Winobias 2_2 91,10 92,23
Toxígeno 29.77 39,59

Gemma 1.1

Benchmark Métrica Gemma 1.1 IT 2B Gemma 1.1 IT 7B
RealToxicity average 7,03 8,04
Negrita 47,76
Pares de cuervo top-1 45,89 49,67
Barbacoa Ambig 1 intento, 1 superior 58,97 86,06
Barbacoa Disambig top-1 53,90 85,08
Winogénero top-1 50,14 57,64
TruthfulQA 44,24 45,34
Winobias 1_2 55,93 59,22
Winobias 2_2 89,46 89.2
Toxígeno 29,64 38,75

Uso y limitaciones

Estos modelos tienen ciertas limitaciones que los usuarios deben conocer.

Uso previsto

Los modelos abiertos de lenguaje extenso (LLM) tienen una gran variedad de aplicaciones en varios sectores y dominios. La siguiente lista de posibles usos no es completa. El propósito de esta lista es proporcionar información contextual sobre los posibles casos de uso que los creadores de modelos consideraron como parte del entrenamiento y desarrollo de modelos.

  • Creación y comunicación de contenido
    • Generación de texto: Estos modelos se pueden usar para generar formatos de texto creativo, como poemas, secuencias de comandos, código, textos de marketing y borradores de correos electrónicos.
    • IA conversacional y chatbots: potencia las interfaces de conversación para la atención al cliente, los asistentes virtuales o las aplicaciones interactivas.
    • Resumen de texto: genera resúmenes concisos de un corpus de texto, trabajos de investigación o informes.
  • Investigación y educación
    • Investigación del procesamiento de lenguaje natural (PLN): Estos modelos pueden servir como base para que los investigadores experimenten con técnicas de PLN, desarrollen algoritmos y contribuyan al avance del campo.
    • Herramientas de aprendizaje de idiomas: Ofrece experiencias interactivas de aprendizaje de idiomas, ayuda con la corrección gramatical o la escritura.
    • Exploración del conocimiento: Ayuda a los investigadores a explorar grandes volúmenes de texto mediante la generación de resúmenes o la respuesta a preguntas sobre temas específicos.

Limitaciones

  • Datos de entrenamiento
    • La calidad y diversidad de los datos de entrenamiento influyen de manera significativa en las capacidades del modelo. Los sesgos o los vacíos en los datos de entrenamiento pueden conducir a limitaciones en las respuestas del modelo.
    • El alcance del conjunto de datos de entrenamiento determina las áreas temáticas que el modelo puede manejar de manera efectiva.
  • Contexto y complejidad de las tareas
    • Los LLM son mejores para las tareas que se pueden enmarcar con instrucciones y mensajes claros. Las tareas abiertas o muy complejas pueden ser desafiantes.
    • El rendimiento de un modelo puede verse influenciado por la cantidad de contexto proporcionado (un contexto más largo suele generar mejores resultados, hasta un punto determinado).
  • Ambigüedad y matices del lenguaje
    • El lenguaje natural es intrínsecamente complejo. Es posible que los LLM tengan dificultades para captar matices sutiles, sarcasmo o lenguaje figurado.
  • Precisión fáctica
    • Los LLM generan respuestas basadas en la información que aprendieron de los conjuntos de datos de entrenamiento, pero no son bases de conocimiento. Pueden generar declaraciones fácticas incorrectas o desactualizadas.
  • Sentido común
    • Los LLM dependen de patrones estadísticos en el lenguaje. Es posible que no tengan la capacidad de aplicar el razonamiento con sentido común en ciertas situaciones.

Consideraciones y riesgos éticos

El desarrollo de modelos grandes de lenguaje (LLM) genera varios problemas éticos. Al crear un modelo abierto, hemos considerado cuidadosamente lo siguiente:

  • Sesgo y equidad
    • Los LLM entrenados con datos de texto reales a gran escala pueden reflejar sesgos socioculturales incorporados en el material de capacitación. Estos modelos se sometieron a un escrutinio cuidadoso, al procesamiento previo de los datos de entrada descrito y a las evaluaciones posteriores informadas en esta tarjeta.
  • Información errónea y uso inadecuado
  • Transparencia y responsabilidad:
    • En esta tarjeta de modelo, se resumen los detalles sobre la arquitectura, las capacidades, las limitaciones y los procesos de evaluación de los modelos.
    • Un modelo abierto desarrollado de forma responsable ofrece la oportunidad de compartir innovación, ya que permite que la tecnología de LLM sea accesible para los desarrolladores y los investigadores de todo el ecosistema de IA.

Riesgos identificados y mitigaciones:

  • Perpetuación de sesgos: Se recomienda realizar una supervisión continua (mediante métricas de evaluación, revisión manual) y la exploración de técnicas de eliminación de sesgo durante el entrenamiento de modelos, el ajuste y otros casos de uso.
  • Generación de contenido dañino: Los mecanismos y los lineamientos para la seguridad del contenido son esenciales. Se recomienda a los desarrolladores que tengan cuidado y que implementen las protecciones de seguridad del contenido adecuadas en función de sus políticas de productos y casos de uso de aplicaciones específicos.
  • Uso inadecuado con fines maliciosos: Las limitaciones técnicas y la educación para desarrolladores y usuarios finales pueden ayudar a mitigar las aplicaciones maliciosas de los LLM. Se proporcionan recursos educativos y mecanismos de denuncia para que los usuarios marquen el uso inadecuado. Los usos prohibidos de los modelos de Gemma se describen en la Política de Uso Prohibido de Gemma.
  • Incumplimientos de privacidad: Los modelos se entrenaron con datos filtrados para la eliminación de PII (información de identificación personal). Se recomienda a los desarrolladores que cumplan con las reglamentaciones de privacidad con técnicas de preservación de la privacidad.

Beneficios

En el momento del lanzamiento, esta familia de modelos proporciona implementaciones de modelos grandes de lenguaje abiertos de alto rendimiento diseñadas desde cero para el desarrollo de IA responsable en comparación con modelos de tamaño similar.

Con las métricas de evaluación de comparativas que se describen en este documento, estos modelos han demostrado proporcionar un rendimiento superior al de otras alternativas de modelos abiertos de tamaño comparable.