Tarjeta de modelo Gemma 2

Página del modelo: Gemma

Recursos y documentación técnica:

Condiciones de Uso: Condiciones

Autores: Google

Información del modelo

Descripción resumida y definición breve de las entradas y salidas.

Descripción

Gemma es una familia de modelos abiertos, livianos y de vanguardia de Google, compilados a partir de la misma investigación y tecnología que se usaron para crear los modelos Gemini. Son modelos de lenguaje grandes de texto a texto, solo con decodificador, disponibles en inglés, con pesos abiertos para variantes previamente entrenadas y variantes ajustadas para instrucción. Los modelos de Gemma son adecuados para una variedad de tareas de generación de texto, como la respuesta a preguntas, el resumen y el razonamiento. Su tamaño relativamente pequeño permite implementarlos en entornos con recursos limitados, como una laptop, una computadora de escritorio o tu propia infraestructura de nube, lo que democratiza el acceso a los modelos de IA de vanguardia y ayuda a fomentar la innovación para todos.

Entradas y salidas

  • Entrada: Cadena de texto, como una pregunta, una instrucción o un documento que se resumirá.
  • Resultado: Texto generado en inglés en respuesta a la entrada, como una respuesta a una pregunta o un resumen de un documento.

Cita

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

Datos del modelo

Datos que se usaron para el entrenamiento del modelo y cómo se procesaron

Conjunto de datos de entrenamiento

Estos modelos se entrenaron con un conjunto de datos de texto que incluye una amplia variedad de fuentes. El modelo de 27,000 millones se entrenó con 13 billones de tokens, el de 9,000 millones se entrenó con 8 billones de tokens y el de 2,000 millones se entrenó con 2 billones de tokens. Estos son los componentes clave:

  • Documentos web: Una colección diversa de texto web garantiza que el modelo esté expuesto a una amplia variedad de estilos lingüísticos, temas y vocabulario. Contenido principalmente en inglés.
  • Código: Exponer el modelo al código lo ayuda a aprender la sintaxis y los patrones de los lenguajes de programación, lo que mejora su capacidad para generar código o comprender preguntas relacionadas con él.
  • Matemáticas: El entrenamiento en texto matemático ayuda al modelo a aprender el razonamiento lógico, la representación simbólica y a abordar las consultas matemáticas.

La combinación de estas diversas fuentes de datos es fundamental para entrenar un modelo de lenguaje potente que pueda controlar una amplia variedad de tareas y formatos de texto diferentes.

Procesamiento previo de los datos

Estos son los métodos clave de limpieza y filtrado de datos que se aplican a los datos de entrenamiento:

  • Filtrado de CSAM: Se aplicó un filtrado riguroso de CSAM (material de abuso sexual infantil) en varias etapas del proceso de preparación de datos para garantizar la exclusión de contenido dañino e ilegal.
  • Filtrado de datos sensibles: Como parte del proceso para que los modelos previamente entrenados de Gemma sean seguros y confiables, se utilizaron técnicas automatizadas para filtrar cierta información personal y otros datos sensibles de los conjuntos de entrenamiento.
  • Métodos adicionales: Filtros basados en la calidad y la seguridad del contenido de acuerdo con nuestras políticas

Información de implementación

Detalles sobre los elementos internos del modelo.

Hardware

Gemma se entrenó con la generación más reciente de hardware de la unidad de procesamiento tensorial (TPU) (TPUv5p).

El entrenamiento de modelos grandes de lenguaje requiere una potencia de procesamiento significativa. Las TPU, diseñadas específicamente para operaciones de matrices comunes en el aprendizaje automático, ofrecen varias ventajas en este dominio:

  • Rendimiento: Las TPU están diseñadas específicamente para manejar los cálculos masivos que implican el entrenamiento de LLM. Pueden acelerar el entrenamiento considerablemente en comparación con las CPUs.
  • Memoria: Las TPU suelen incluir grandes cantidades de memoria de gran ancho de banda, lo que permite manejar modelos y tamaños de lotes grandes durante el entrenamiento. Esto puede mejorar la calidad del modelo.
  • Escalabilidad: Los pods de TPU (grandes clústeres de TPU) proporcionan una solución escalable para controlar la creciente complejidad de los modelos de base grandes. Puedes distribuir el entrenamiento en varios dispositivos TPU para obtener un procesamiento más rápido y eficiente.
  • Rentabilidad: En muchos casos, las TPU pueden proporcionar una solución más rentable para el entrenamiento de modelos grandes en comparación con la infraestructura basada en CPU, en especial, cuando se considera el tiempo y los recursos que se ahorran debido a un entrenamiento más rápido.
  • Estas ventajas se alinean con los compromisos de Google de operar de manera sostenible.

Software

El entrenamiento se realizó con JAX y ML Pathways.

JAX permite a los investigadores aprovechar la última generación de hardware, incluidas las TPU, para entrenar modelos grandes de forma más rápida y eficiente.

ML Pathways es el esfuerzo más reciente de Google para crear sistemas de inteligencia artificial capaces de generalizar en varias tareas. Esto es especialmente adecuado para los modelos de base, incluidos los modelos grandes de lenguaje como estos.

Juntos, JAX y ML Pathways se usan como se describe en el artículo sobre la familia de modelos de Gemini: "El modelo de programación de "controlador único" de Jax y Pathways permite que un solo proceso de Python orqueste toda la ejecución de entrenamiento, lo que simplifica en gran medida el flujo de trabajo de desarrollo".

Evaluación

Métricas y resultados de la evaluación del modelo

Resultados de las comparativas

Estos modelos se evaluaron en función de una gran colección de diferentes conjuntos de datos y métricas para abarcar diferentes aspectos de la generación de texto:

Comparativa Métrica Gemma 2 PT 2B Gemma 2 PT 9B Gemma 2 PT 27B
MMLU 5 fotos, 1 en la parte superior 51.3 71.3 75.2
HellaSwag 10 fotos 73.0 81.9 86.4
PIQA Sin ejemplos 77.8 81.7 83.2
SocialIQA Sin ejemplos 51.9 53.4 53.7
BoolQ Sin ejemplos 72.5 84.2 84.8
WinoGrande puntuación parcial 70.9 80.6 83.7
ARC-e Sin ejemplos 80.1 88.0 88.6
ARC-c 25 fotos 55.4 68.4 71.4
TriviaQA 5 tomas 59.4 76.6 83.7
Preguntas naturales 5 tomas 16.7 29.2 34.5
HumanEval pass@1 17.7 40.2 51.8
MBPP 3 tomas 29.6 52.4 62.6
GSM8K 5 fotos, maj@1 23.9 68.6 74.0
MATH 4 tomas 15.0 36.6 42.3
AGIEval 3 a 5 tomas 30.6 52.8 55.1
DROP 3 fotos, F1 52.0 69.4 72.2
BIG-Bench 3 fotos, CoT 41.9 68.2 74.9

Ética y seguridad

Enfoque y resultados de la evaluación de ética y seguridad

Enfoque de evaluación

Nuestros métodos de evaluación incluyen evaluaciones estructuradas y pruebas internas de equipo rojo de las políticas de contenido relevantes. Varios equipos diferentes realizaron el equipo rojo, cada uno con diferentes objetivos y métricas de evaluación humana. Estos modelos se evaluaron en función de varias categorías relevantes para la ética y la seguridad, como las siguientes:

  • Seguridad del contenido de texto a texto: Evaluación humana de instrucciones que abarcan políticas de seguridad, como explotación y abuso sexual infantil, acoso, violencia y contenido sangriento, e incitación al odio o a la violencia.
  • Daño representativo de texto a texto: Realiza comparativas con conjuntos de datos académicos relevantes, como WinoBias y el conjunto de datos de BBQ.
  • Memorización: Evaluación automatizada de la memorización de los datos de entrenamiento, incluido el riesgo de exposición de información de identificación personal.
  • Daño a gran escala: Pruebas de "capacidades peligrosas", como riesgos químicos, biológicos, radiológicos y nucleares (CBRN).

Resultados de la evaluación

Los resultados de las evaluaciones de ética y seguridad están dentro de los umbrales aceptables para cumplir con las políticas internas de categorías como la seguridad infantil, la seguridad del contenido, los daños de representación, la memorización y los daños a gran escala. Además de las evaluaciones internas sólidas, aquí se muestran los resultados de comparativas de seguridad conocidas, como BBQ, BOLD, Winogender, Winobias, RealToxicity y TruthfulQA.

Gemma 2.0

Comparativa Métrica Gemma 2 IT 2B Gemma 2 IT 9B Gemma 2 IT 27B
RealToxicity promedio 8.16 8.25 8.84
CrowS-Pairs top-1 37.67 37.47 36.67
BBQ Ambig 1 foto, Top-1 83.20 88.58 85.99
BBQ Disambig top-1 69.31 82.67 86.94
Winogender top-1 52.91 79.17 77.22
TruthfulQA 43.72 50.27 51.60
Winobias 1_2 59.28 78.09 81.94
Winobias 2_2 88.57 95.32 97.22
Toxigen 48.32 39.30 38.42

Evaluaciones de capacidades peligrosas

Enfoque de evaluación

Evaluamos una variedad de capacidades peligrosas:

  • Seguridad cibernética ofensiva: Para evaluar el potencial de uso inadecuado del modelo en contextos de seguridad cibernética, usamos plataformas de captura de la bandera (CTF) disponibles públicamente, como InterCode-CTF y Hack the Box, así como desafíos de CTF desarrollados internamente. Estas evaluaciones miden la capacidad del modelo para aprovechar las vulnerabilidades y obtener acceso no autorizado en entornos simulados.
  • Autoproliferación: Evaluamos la capacidad del modelo para la autoproliferación mediante el diseño de tareas que involucran la adquisición de recursos, la ejecución de código y la interacción con sistemas remotos. Estas evaluaciones miden la capacidad del modelo para replicarse y propagarse de forma independiente.
  • Persuasión: Para evaluar la capacidad del modelo de persuasión y engaño, realizamos estudios de persuasión humana. Estos estudios incluyeron situaciones que miden la capacidad del modelo para establecer una buena relación, influir en las creencias y provocar acciones específicas de los participantes humanos.

Resultados de la evaluación

Todas las evaluaciones se describen en detalle en Evaluating Frontier Models for Dangerous Capabilities y de forma breve en el informe técnico de Gemma 2.

Evaluación Función Gemma 2 IT 27B
InterCode-CTF Seguridad cibernética ofensiva 34/76 desafíos
CTF interno Seguridad cibernética ofensiva Desafíos del 13/1
Hack the Box Seguridad cibernética ofensiva 0 de 13 desafíos
Alerta temprana de autoproliferación Autoproliferación Desafíos de 1/10
Ofensiva de encanto Persuasión Porcentaje de participantes que estuvieron de acuerdo: 81% interesante, 75% volvería a hablar, 80% estableció una conexión personal
Clics en vínculos Persuasión 34% de los participantes
Buscar información Persuasión 9% de los participantes
Ejecutar código Persuasión 11% de los participantes
El dinero habla Persuasión Donación promedio de GBP 3.72
Red de mentiras Persuasión Desplazamiento medio del 18% hacia la creencia correcta, desplazamiento medio del 1% hacia la creencia incorrecta

Uso y limitaciones

Estos modelos tienen ciertas limitaciones que los usuarios deben conocer.

Uso previsto

Los modelos de lenguaje grande (LLM) abiertos tienen una amplia variedad de aplicaciones en diferentes industrias y dominios. La siguiente lista de usos potenciales no es exhaustiva. El propósito de esta lista es proporcionar información contextual sobre los posibles casos de uso que los creadores del modelo consideraron como parte del entrenamiento y desarrollo del modelo.

  • Creación de contenido y comunicación
    • Generación de texto: Estos modelos se pueden usar para generar formatos de texto creativo, como poemas, guiones, código, texto de marketing y borradores de correos electrónicos.
    • Chatbots y IA conversacional: Potencia las interfaces de conversación para la atención al cliente, los asistentes virtuales o las aplicaciones interactivas.
    • Resumen de texto: Genera resúmenes concisos de un corpus de texto, trabajos de investigación o informes.
  • Investigación y educación
    • Investigación de procesamiento de lenguaje natural (PLN): Estos modelos pueden servir como base para que los investigadores experimenten con técnicas de PLN, desarrollen algoritmos y contribuyan al avance del campo.
    • Herramientas de aprendizaje de idiomas: Admite experiencias interactivas de aprendizaje de idiomas, ayuda a corregir la gramática o proporciona práctica de escritura.
    • Exploración de conocimiento: Ayuda a los investigadores a explorar grandes cuerpos de texto generando resúmenes o respondiendo preguntas sobre temas específicos.

Limitaciones

  • Datos de entrenamiento
    • La calidad y la diversidad de los datos de entrenamiento influyen de manera significativa en las capacidades del modelo. Los sesgos o las lagunas en los datos de entrenamiento pueden generar limitaciones en las respuestas del modelo.
    • El alcance del conjunto de datos de entrenamiento determina las áreas temáticas que el modelo puede controlar de manera efectiva.
  • Complejidad del contexto y de la tarea
    • Los LLM son mejores en las tareas que se pueden enmarcar con instrucciones y estímulos claros. Las tareas abiertas o muy complejas pueden ser un desafío.
    • El rendimiento de un modelo puede verse influenciado por la cantidad de contexto proporcionado (un contexto más extenso suele generar mejores resultados, hasta cierto punto).
  • Ambigüedad y matices del lenguaje
    • El lenguaje natural es intrínsecamente complejo. Los LLM pueden tener dificultades para captar matices suaves, sarcasmo o lenguaje figurado.
  • Precisión fáctica
    • Los LLM generan respuestas basadas en la información que aprendieron de sus conjuntos de datos de entrenamiento, pero no son bases de conocimiento. Pueden generar afirmaciones factuales incorrectas o desactualizadas.
  • Common Sense
    • Los LLM se basan en patrones estadísticos en el lenguaje. Es posible que no puedan aplicar el razonamiento del sentido común en ciertas situaciones.

Consideraciones y riesgos éticos

El desarrollo de modelos grandes de lenguaje (LLM) plantea varias inquietudes éticas. Para crear un modelo abierto, consideramos cuidadosamente lo siguiente:

  • Sesgos y equidad
    • Los LLM entrenados con datos de texto del mundo real a gran escala pueden reflejar sesgos socioculturales incorporados en el material de entrenamiento. Estos modelos se analizaron minuciosamente, se describió el procesamiento previo de los datos de entrada y se informaron las evaluaciones posteriores en esta tarjeta.
  • Información errónea y uso inadecuado
  • Transparencia y responsabilidad:
    • En esta tarjeta de modelo, se resumen los detalles de la arquitectura, las capacidades, las limitaciones y los procesos de evaluación de los modelos.
    • Un modelo abierto desarrollado de forma responsable ofrece la oportunidad de compartir la innovación, ya que permite que la tecnología de LLM sea accesible para los desarrolladores y los investigadores en todo el ecosistema de IA.

Riesgos identificados y mitigaciones:

  • Perpetuación de sesgos: Se recomienda realizar una supervisión continua (con métricas de evaluación y revisión humana) y explorar técnicas de eliminación de sesgos durante el entrenamiento del modelo, el perfeccionamiento y otros casos de uso.
  • Generación de contenido perjudicial: Los mecanismos y lineamientos para la seguridad del contenido son esenciales. Se recomienda a los desarrolladores que tengan precaución y que implementen las protecciones de seguridad del contenido adecuadas según sus políticas de productos y casos de uso de aplicaciones específicos.
  • Uso inadecuado con fines maliciosos: Las limitaciones técnicas y la educación de los desarrolladores y usuarios finales pueden ayudar a mitigar las aplicaciones maliciosas de los LLM. Se proporcionan recursos educativos y mecanismos de denuncia para que los usuarios marquen el uso inadecuado. Los usos prohibidos de los modelos de Gemma se describen en la Política de Uso Prohibido de Gemma.
  • Incumplimientos de la privacidad: Los modelos se entrenaron con datos filtrados para quitar la PII (información de identificación personal). Se recomienda a los desarrolladores que cumplan con las reglamentaciones de privacidad con técnicas que la preserven.

Beneficios

En el momento del lanzamiento, esta familia de modelos proporciona implementaciones de modelos de lenguaje extenso abiertos de alto rendimiento diseñados desde cero para el desarrollo de IA responsable en comparación con modelos de tamaño similar.

Con las métricas de evaluación de comparativas que se describen en este documento, estos modelos demostraron brindar un rendimiento superior a otras alternativas de modelos abiertos de tamaño comparable.