Tarjeta de modelo Gemma 2

Página del modelo: Gemma

Recursos y documentación técnica:

Condiciones de Uso: Condiciones

Autores: Google

Información del modelo

Descripción resumida y breve definición de entradas y salidas.

Descripción

Gemma es una familia de modelos abiertos ligeros y de última generación de Google, creados a partir de la misma investigación y tecnología. Son modelos grandes de lenguaje de texto a texto solo con decodificador, disponibles en inglés, con pesos abiertos tanto para variantes previamente entrenadas como para variantes ajustadas para instrucciones. Los modelos Gemma son adecuados para una variedad de tareas de generación de texto, como responder preguntas, resumir y razonar. Su tamaño relativamente pequeño permite implementarlos en entornos con recursos limitados, como una laptop, una computadora de escritorio o tu propia infraestructura de nube, lo que democratiza el acceso a los modelos de IA de vanguardia y ayuda a fomentar la innovación para todo el mundo.

Entradas y salidas

  • Entrada: Es una cadena de texto, como una pregunta, una instrucción o un documento para resumir.
  • Resultado: texto generado en inglés en respuesta a la entrada, como una respuesta a una pregunta o el resumen de un documento.

Cita

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

Datos del modelo

Datos usados para el entrenamiento de modelos y cómo se procesaron los datos.

Conjunto de datos de entrenamiento

Estos modelos se entrenaron con un conjunto de datos de texto que incluye una amplia variedad de fuentes. El modelo 27,000 millones se entrenó con 13,000 millones de tokens, y el modelo 9,000, con 8,000 millones de tokens. Estos son los componentes clave:

  • Documentos web: una colección diversa de texto web garantiza que el modelo esté expuesto a una amplia variedad de estilos lingüísticos, temas y vocabulario. Principalmente en inglés.
  • Código: Exponer el modelo al código lo ayuda a aprender la sintaxis y los patrones de los lenguajes de programación, lo que mejora su capacidad para generar código o comprender preguntas relacionadas con este.
  • Matemáticas: el entrenamiento de texto matemático ayuda al modelo a aprender el razonamiento lógico y la representación simbólica, y a abordar consultas matemáticas.

La combinación de estas diversas fuentes de datos es fundamental para entrenar un modelo de lenguaje potente que pueda manejar una amplia variedad de tareas y formatos de texto diferentes.

Procesamiento previo de los datos

Estos son los métodos clave de limpieza y filtrado de datos que se aplican a los datos de entrenamiento:

  • Filtrado de CSAM: El filtrado riguroso de CSAM (material de abuso sexual infantil) se aplicó en varias etapas del proceso de preparación de datos para garantizar la exclusión de contenido ilegal y dañino.
  • Filtrado de datos sensibles: Como parte de hacer que los modelos previamente entrenados de Gemma sean seguros y confiables, se utilizaron técnicas automatizadas para filtrar cierta información personal y otros datos sensibles de los conjuntos de entrenamiento.
  • Métodos adicionales: Filtrado en función de la calidad y seguridad del contenido de acuerdo con nuestras políticas.

Información de implementación

Detalles sobre los componentes internos del modelo.

Hardware

Gemma se entrenó con la última generación de hardware de unidad de procesamiento tensorial (TPU) (TPUv5p).

El entrenamiento de modelos grandes de lenguaje requiere una potencia de procesamiento significativa. Las TPU, diseñadas específicamente para las operaciones de matrices comunes en el aprendizaje automático, ofrecen varias ventajas en este dominio:

  • Rendimiento: Las TPU están diseñadas específicamente para controlar los procesamientos masivos involucrados en el entrenamiento de los LLM. Pueden acelerar el entrenamiento considerablemente en comparación con las CPU.
  • Memoria: las TPU a menudo vienen con grandes cantidades de memoria de ancho de banda alto, lo que permite manejar modelos grandes y tamaños de lote durante el entrenamiento. Esto puede mejorar la calidad del modelo.
  • Escalabilidad: Los pods de TPU (clústeres grandes de TPU) proporcionan una solución escalable para manejar la creciente complejidad de los modelos de base grandes. Puedes distribuir el entrenamiento entre varios dispositivos de TPU para lograr un procesamiento más rápido y eficiente.
  • Rentabilidad: En muchas situaciones, las TPU pueden proporcionar una solución más rentable para entrenar modelos grandes en comparación con la infraestructura basada en CPU, en especial cuando se consideran el tiempo y los recursos ahorrados debido a un entrenamiento más rápido.
  • Estas ventajas se alinean con los compromisos de Google de operar de manera sustentable.

Software

El entrenamiento se realizó con JAX y Rutas de aprendizaje de AA.

JAX permite a los investigadores aprovechar la última generación de hardware, incluidas las TPU, para un entrenamiento más rápido y eficiente de modelos grandes.

ML Pathways es la iniciativa más reciente de Google para compilar sistemas artificialmente inteligentes que pueden generalizarse a través de varias tareas. Esto es especialmente adecuado para modelos de base, incluidos los modelos grandes de lenguaje como estos.

En conjunto, JAX y ML Pathways se usan como se describe en el documento sobre la familia de modelos de Gemini; "el modelo de programación de 'un solo controlador' de Jax y Pathways permite que un solo proceso de Python organice toda la ejecución del entrenamiento, lo que simplifica drásticamente el flujo de trabajo de desarrollo".

Evaluación

Métricas y resultados de la evaluación del modelo.

Resultados de comparativas

Estos modelos se evaluaron en comparación con una gran colección de diferentes conjuntos de datos y métricas para abarcar diferentes aspectos de la generación de texto:

Benchmark Métrica Gemma PT 9B Gemma PT 27B
MMLU 5 tomas, 1 principal 71,3 75,2
HellaSwag 10 intentos 81,9 86.4
PIQA Sin ejemplos 81,7 83,2
SocialIQA Sin ejemplos 53,4 53,7
BoolQ Sin ejemplos 84,2 84.8
WinoGrande puntuación parcial 80,6 83.7
ARC‐e Sin ejemplos 88,0 88.6
ARC‐c 25 tomas 68,4 71,4
TriviaQA 5 tomas 76,6 83.7
Preguntas naturales 5 tomas 29.2 34,5
HumanEval pase@1 40,2 51.8
MBPP 3 tomas 52,4 62.6
GSM8K 5 tomas, maj@1 68.6 74,0
MATH 4 tomas 36,6 42.3
AGIEval De 3 a 5 tomas 52.8 55.1
BIG‐Bench 3 tomas, CoT 68.2 74.9

Ética y seguridad

Enfoque y resultados de la evaluación de ética y seguridad.

Enfoque de evaluación

Nuestros métodos de evaluación incluyen evaluaciones estructuradas y pruebas internas del equipo de simulación de ataque de las políticas de contenido relevantes. Varios equipos diferentes realizaron la formación de equipos de simulación de ataque, cada uno con objetivos y métricas de evaluación humana diferentes. Estos modelos se evaluaron en función de una serie de categorías diferentes relevantes para la ética y la seguridad, incluidas las siguientes:

  • Seguridad del contenido de texto a texto: Evaluación humana de instrucciones sobre políticas de seguridad, como la explotación y el abuso sexual infantil, el acoso, la violencia, las imágenes sangrientas y la incitación al odio o a la violencia
  • Perjuicios representacionales de texto a texto: Compara con conjuntos de datos académicos relevantes, como WinoBias y Conjunto de datos Barbacoa.
  • Memorización: Evaluación automatizada de la memorización de los datos de entrenamiento, incluido el riesgo de exposición de información de identificación personal.
  • Daños a gran escala: Pruebas de "capacidades peligrosas", como riesgos químicos, biológicos, radiológicos y nucleares (CBRN).

Resultados de la evaluación

Los resultados de las evaluaciones de ética y seguridad se encuentran dentro de los umbrales aceptables para cumplir con políticas internas en categorías como seguridad infantil, seguridad del contenido, daños a la representación, memorización y daños a gran escala. Además de evaluaciones internas sólidas, aquí se muestran los resultados de comparativas de seguridad conocidas, como barbacoa, BOLD, Winogender, Winobias, RealToxicity y TruthfulQA.

Gemma 2.0

Benchmark Métrica Gemma 2 IT 9B Gemma 2 IT 27B
RealToxicity average 8,25 8,84
Pares de cuervos top-1 37,47 36,67
Barbacoa Ambig 1 toma, 1 toma principal 88,58 USD 85.99
Barbacoa Dambig top-1 82,67 86,94
Winogénero top-1 79,17 77/22
TruthfulQA 50,27 51,60
Winobias 1_2 78.09 81,94
Winobias 2_2 95,32 97,22
Toxígeno 39:30 38,42

Uso y limitaciones

Estos modelos tienen ciertas limitaciones que los usuarios deben conocer.

Uso previsto

Los modelos abiertos de lenguaje extenso (LLM) tienen una amplia variedad de aplicaciones en varias industrias y dominios. La siguiente lista de posibles usos no es completa. El propósito de esta lista es proporcionar información contextual sobre los posibles casos de uso que los creadores del modelo consideraron como parte del entrenamiento y el desarrollo de modelos.

  • Creación de contenido y comunicación
    • Generación de texto: Estos modelos se pueden usar para generar formatos de texto de creatividades, como poemas, secuencias de comandos, código, textos de marketing y borradores de correos electrónicos.
    • IA conversacional y chatbots: Potencia las interfaces de conversación para atención al cliente, asistentes virtuales o aplicaciones interactivas.
    • Resúmenes de texto: Genera resúmenes concisos de un corpus de texto, informes de investigación o informes.
  • Investigación y educación
    • Investigación sobre el procesamiento de lenguaje natural (PLN): Estos modelos pueden servir como base para que los investigadores experimenten con las técnicas del PLN, desarrollen algoritmos y contribuyan al avance del campo.
    • Herramientas de aprendizaje de idiomas: Admite experiencias de aprendizaje de idiomas interactivas, corrección de gramática o práctica de escritura.
    • Exploración del conocimiento: Ayuda a los investigadores a explorar grandes cuerpos de texto generando resúmenes o respondiendo preguntas sobre temas específicos.

Limitaciones

  • Datos de entrenamiento
    • La calidad y la diversidad de los datos de entrenamiento tienen una influencia significativa en las capacidades del modelo. Los sesgos o las brechas en los datos de entrenamiento pueden generar limitaciones en las respuestas del modelo.
    • El alcance del conjunto de datos de entrenamiento determina las áreas temáticas que el modelo puede manejar de manera eficaz.
  • Contexto y complejidad de la tarea
    • Los LLM son mejores para tareas que se pueden enmarcar con instrucciones claras. Las tareas abiertas o muy complejas pueden ser desafiantes.
    • La cantidad de contexto que se brinda puede influir en el rendimiento de un modelo (un contexto más largo suele generar mejores resultados hasta un punto determinado).
  • Ambigüedad y matices de lenguaje
    • El lenguaje natural es intrínsecamente complejo. Es posible que los LLM tengan dificultades para captar matices sutiles, sarcasmo o lenguaje figurado.
  • Precisión fáctica
    • Los LLM generan respuestas en función de la información que obtuvieron de sus conjuntos de datos de entrenamiento, pero no son bases de conocimiento. Pueden generar declaraciones fácticas incorrectas o desactualizadas.
  • Sentido común
    • Los LLM se basan en patrones estadísticos del lenguaje. Es posible que no tengan la capacidad de aplicar el razonamiento de sentido común en ciertas situaciones.

Consideraciones y riesgos éticos

El desarrollo de modelos grandes de lenguaje (LLM) plantea varios problemas éticos. Para crear un modelo abierto, consideramos con cuidado lo siguiente:

  • Sesgo y equidad
    • Los LLM entrenados con datos de texto reales a gran escala pueden reflejar sesgos socioculturales incorporados en el material de capacitación. Estos modelos se sometieron a un escrutinio cuidadoso, al procesamiento previo de los datos de entrada descritos y a las evaluaciones posteriores que se informaron en esta tarjeta.
  • Información errónea y uso inadecuado
  • Transparencia y responsabilidad:
    • En esta tarjeta de modelo, se resumen los detalles sobre la arquitectura, las capacidades, las limitaciones y los procesos de evaluación de los modelos.
    • Un modelo abierto desarrollado de forma responsable ofrece la oportunidad de compartir la innovación, ya que permite que la tecnología de LLM sea accesible para los investigadores y desarrolladores de todo el ecosistema de IA.

Riesgos identificados y mitigaciones:

  • Perpetuación de sesgos: Se recomienda realizar una supervisión continua (con métricas de evaluación y revisión manual) y explorar las técnicas de des sesgo durante el entrenamiento de modelos, el ajuste y otros casos de uso.
  • Generación de contenido dañino: Los mecanismos y lineamientos para la seguridad del contenido son esenciales. Se recomienda a los desarrolladores que sean cautelosos e implementen protecciones de seguridad de contenido adecuadas en función de sus políticas de productos y casos de uso específicos de aplicaciones.
  • Uso inadecuado con fines maliciosos: Las limitaciones técnicas y la educación de los desarrolladores y usuarios finales pueden ayudar a mitigar las aplicaciones maliciosas de los LLM. Se proporcionan recursos educativos y mecanismos de denuncia para que los usuarios marquen el uso inadecuado. Los usos prohibidos de los modelos de Gemma se describen en la Política de Uso Prohibido de Gemma.
  • Incumplimientos de privacidad: Los modelos se entrenaron con datos filtrados para quitar PII (información de identificación personal). Se recomienda a los desarrolladores que cumplan con las reglamentaciones de privacidad con técnicas que preservan la privacidad.

Beneficios

En el momento del lanzamiento, esta familia de modelos proporciona implementaciones de modelos grandes de lenguaje abiertos y de alto rendimiento diseñados desde cero para el desarrollo de IA responsable en comparación con modelos de tamaño similar.

Con las métricas de evaluación comparativas que se describen en este documento, se demostró que estos modelos proporcionan un rendimiento superior a otras alternativas de modelos abiertos de tamaño comparable.