Tarjeta de modelo Gemma 2

Página del modelo: Gemma

Recursos y documentación técnica:

Condiciones de Uso: Condiciones

Autores: Google

Información del modelo

Descripción resumida y breve definición de entradas y salidas.

Descripción

Gemma es una familia de modelos abiertos ligeros y de última generación de Google, se desarrolló a partir de la misma investigación y tecnología que se usaron para crear los modelos de Gemini. Son modelos grandes de lenguaje de texto a texto solo con decodificador, disponibles en inglés, con ponderaciones abiertas tanto para variantes previamente entrenadas como para variantes ajustadas para instrucciones. Los modelos Gemma son adecuados para una variedad de tareas de generación de texto, como responder preguntas, resumir y razonar. Su tamaño relativamente pequeño posibilita su implementación en entornos con recursos limitados, como una laptop, una computadora de escritorio o tu propia infraestructura de nube, lo que permite democratizar el acceso a modelos de IA de vanguardia y que ayudan a fomentar la innovación para todo el mundo.

Entradas y salidas

  • Entrada: cadena de texto, como una pregunta, una instrucción o un documento que se va a resumirse.
  • Resultado: Se generó texto en inglés en respuesta a la entrada, como como respuesta a una pregunta o el resumen de un documento.

Cita

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

Datos del modelo

Datos usados para el entrenamiento de modelos y cómo se procesaron los datos.

Conjunto de datos de entrenamiento

Estos modelos se entrenaron con un conjunto de datos de texto que incluye una amplia variedad una variedad de fuentes. El modelo 27,000 millones se entrenó con 13 billones de tokens y el modelo 9B, se entrenó con 8 billones de tokens, y el modelo 2,000 millones se entrenó con 2 billones de tokens. Estos son los componentes clave:

  • Documentos web: una colección diversa de texto web garantiza la exposición del modelo. a una amplia gama de estilos, temas y vocabulario lingüísticos. Principalmente contenido en inglés.
  • Código: Exponer el modelo al código ayuda a aprender la sintaxis y los patrones de lenguajes de programación, lo que mejora su capacidad de generar código o comprender las preguntas relacionadas con el código.
  • Matemáticas: Entrenar con texto matemático ayuda al modelo a aprender lógica el razonamiento, la representación simbólica y abordar consultas matemáticas.

La combinación de estas diversas fuentes de datos es crucial para entrenar un modelo de lenguaje extenso que puede manejar una amplia variedad de tareas y textos formatos.

Procesamiento previo de los datos

Estos son los métodos clave de limpieza y filtrado de datos que se aplican al entrenamiento datos:

  • Filtrado de CSAM: El filtro riguroso de CSAM (material de abuso sexual infantil) era se aplican en múltiples etapas en el proceso de preparación de datos para garantizar que el exclusión de contenido dañino e ilegal.
  • Filtrado de datos sensibles: como parte del proceso para hacer que los modelos previamente entrenados de Gemma sean seguros y se usaron técnicas automatizadas para filtrar ciertas información sensible y otros datos sensibles de los conjuntos de entrenamiento.
  • Métodos adicionales: Filtrado en función de la calidad y seguridad del contenido de acuerdo con nuestras políticas.

Información de implementación

Detalles sobre los componentes internos del modelo.

Hardware

Gemma se entrenó con la última generación de Hardware de unidad de procesamiento tensorial (TPU) (TPUv5p).

El entrenamiento de modelos grandes de lenguaje requiere una potencia de procesamiento significativa. TPU, diseñadas específicamente para operaciones matriciales comunes en el aprendizaje automático, ofrecen varias ventajas en este campo:

  • Rendimiento: las TPU están diseñadas específicamente para manejar cálculos masivos que participan en el entrenamiento de los LLM. Pueden acelerar el entrenamiento considerablemente en comparación con y CPU virtuales.
  • Memoria: las TPU suelen tener grandes cantidades de memoria de alto ancho de banda, lo que permite para manejar modelos grandes y tamaños de lotes durante el entrenamiento. Esto puede mejora la calidad del modelo.
  • Escalabilidad: los pods de TPU (clústeres grandes de TPU) proporcionan una solución escalable para cómo manejar la creciente complejidad de los modelos de base grandes. Puedes distribuir en múltiples dispositivos de TPU para un procesamiento más rápido y eficiente.
  • Rentabilidad: en muchos casos, las TPU pueden proporcionar una solución para entrenar modelos grandes en comparación con infraestructuras basadas en CPU, especialmente cuando se consideran el tiempo y los recursos que se ahorraron debido a la capacitación.
  • Estas ventajas están alineadas con Compromisos de Google de operar de manera sustentable.

Software

El entrenamiento se realizó con JAX y Rutas de aprendizaje de AA.

JAX permite a los investigadores aprovechar la última generación de hardware, incluidas las TPU, para un entrenamiento más rápido y eficiente de modelos grandes.

ML Pathways es la iniciativa más reciente de Google para crear sistemas artificialmente inteligentes son capaces de generalizar a través de múltiples tareas. Esto es especialmente adecuado modelos de base, incluidos los modelos grandes de lenguaje, estas.

En conjunto, JAX y las rutas de AA se usan como se describe en el documento sobre la familia de modelos de Gemini; "el 'único" responsable del tratamiento de datos de programación Jax y Pathways permite que un único lenguaje para organizar toda la ejecución del entrenamiento, lo que simplifica del flujo de trabajo de desarrollo”.

Evaluación

Métricas y resultados de la evaluación del modelo.

Resultados de comparativas

Estos modelos se evaluaron frente a una gran colección de diferentes conjuntos de datos para abarcar diferentes aspectos de la generación de texto:

Comparativa Métrica Gemma 2 PT 2B Gemma 2 PT 9B Gemma 2 PT 27B
MMLU 5 tomas, 1 principal 51,3 71,3 75,2
HellaSwag 10 intentos 73,0 81,9 86.4
PIQA Sin ejemplos 77.8 81,7 83,2
SocialIQA Sin ejemplos 51.9 53,4 53,7
BoolQ Sin ejemplos 72,5 84,2 84.8
WinoGrande puntuación parcial 70.9 80,6 83.7
ARC-e Sin ejemplos 80,1 88,0 88.6
ARC-c 25 tomas 55,4 68,4 71,4
TriviaQA 5 tomas 59,4 76,6 83.7
Preguntas naturales 5 tomas 16,7 29.2 34,5
HumanEval pase@1 17.7 40,2 51.8
MBPP 3 tomas 29,6 52,4 62.6
GSM8K 5 tomas, maj@1 23,9 68.6 74,0
MATH 4 tomas 15.0 36,6 42.3
AGIEval De 3 a 5 tomas 30.6 52.8 55.1
DROP 3 tomas, F1 52,0 69.4 72.2
BIG‐Bench 3 tomas, CoT 41.9 68.2 74.9

Ética y seguridad

Enfoque y resultados de la evaluación de ética y seguridad.

Enfoque de evaluación

Nuestros métodos de evaluación incluyen evaluaciones estructuradas y formación interna del equipo de emergencias pruebas de políticas de contenido relevantes. La formación de equipos rojos fue llevada a cabo por varias equipos diferentes, cada uno con objetivos y métricas de evaluación humanas diferentes. Estos de modelos se evaluaron frente a una serie de diferentes categorías relevantes para de ética y seguridad, lo que incluye:

  • Seguridad del contenido de texto a texto: Evaluación humana sobre indicaciones relacionadas con la seguridad incluidas las políticas de explotación y abuso sexual infantil, acoso y violencia imágenes sangrientas y la incitación al odio o a la violencia.
  • Perjuicios representacionales de texto a texto: Comparativas con las observaciones académicas conjuntos de datos como WinoBias y BBQ Dataset.
  • Memorización: Evaluación automatizada de la memorización de los datos de entrenamiento, lo que incluye el riesgo de exposición de información de identificación personal.
  • Daños a gran escala: pruebas para “capacidades peligrosas”, como las sustancias químicas, riesgos biológicos, radiológicos y nucleares (CBRN).

Resultados de la evaluación

Los resultados de las evaluaciones de ética y seguridad se encuentran dentro de los umbrales aceptables. para cumplir con las políticas internas de categorías como seguridad, protección del contenido, daños a la representación, memorización, daños a gran escala. Además de las sólidas evaluaciones internas, los resultados de las políticas de seguridad puntos de referencia como barbacoa, BOLD, Winogender, Winobias, RealToxicity y TruthfulQA se muestran aquí.

Gemma 2.0

Comparativa Métrica Gemma 2 IT 2B Gemma 2 IT 9B Gemma 2 IT 27B
RealToxicity promedio 8,16 8,25 8,84
Pares de cuervos top-1 37,67 37,47 36,67
Barbacoa Ambig 1 toma, 1 toma principal 83,20 88,58 USD 85.99
Barbacoa Dambig top-1 69:31 82,67 86,94
Winogénero top-1 USD 52.91 79,17 77/22
TruthfulQA 43,72 50,27 51,60
Winobias 1_2 59,28 78.09 81,94
Winobias 2_2 88,57 95,32 97,22
Toxigen 48:32 39:30 38,42

Evaluaciones de capacidades peligrosas

Enfoque de evaluación

Evaluamos una variedad de capacidades peligrosas:

  • Seguridad cibernética ofensiva: Para evaluar el potencial del modelo de uso inadecuado en de seguridad cibernética en la nube, usamos recursos Plataformas Capture-the-Flag (CTF), como InterCode-CTF y Hack the Box, como y desafíos de CTF desarrollados internamente. Estas evaluaciones miden la la capacidad del modelo para explotar vulnerabilidades y obtener acceso no autorizado en entornos simulados.
  • Autoproliferación: Evaluamos la capacidad del modelo para la autoproliferación mediante el diseño de tareas que involucren la adquisición de recursos, el ejecución y la interacción con sistemas remotos. Estas evaluaciones evalúan la capacidad del modelo para replicarse y propagarse de forma independiente.
  • Persuasión: Evaluar la capacidad de persuasión del modelo. de engaños, realizamos estudios de persuasión humana. Estos estudios involucraron que miden la habilidad del modelo para entablar una buena relación, influir creencias actuales y provoquen acciones específicas de los participantes humanos.

Resultados de la evaluación

Todas las evaluaciones se describen en detalle en Evaluación de los modelos de frontera para capacidades peligrosas y, en resumen, en la Informe técnico de Gemma 2.

Evaluación Función Gemma 2 IT 27B
InterCode-CTF Seguridad cibernética ofensiva Desafíos 34/76
CTF interno Seguridad cibernética ofensiva 1/13 desafíos
Hackeando la caja Seguridad cibernética ofensiva 0/13 desafíos
Alerta temprana de autoproliferación Autoproliferación 1 de 10 desafíos
Encanto ofensivo Persuasión Porcentaje de participantes que están de acuerdo con lo siguiente: 81% interesante, el 75% volvería a hablar, El 80% estableció una conexión personal
Hacer clic en los vínculos Persuasión 34% de los participantes
Buscar información Persuasión 9% de los participantes
Ejecutar código Persuasión 11% de participantes
Charlas sobre dinero Persuasión GBP 3.72 significa donación
Red de mentiras Persuasión 18% cambio medio hacia la creencia correcta, 1% cambio medio hacia creencia incorrecta

Uso y limitaciones

Estos modelos tienen ciertas limitaciones que los usuarios deben conocer.

Uso previsto

Los modelos abiertos de lenguaje extenso (LLM) tienen una amplia variedad de usos en diversos sectores y dominios. La siguiente lista de posibles usos no es en la nube. El propósito de esta lista es proporcionar información contextual sobre los posibles casos de uso que los creadores de modelos consideraron como parte del modelo para la capacitación y el desarrollo.

  • Creación de contenido y comunicación
    • Generación de texto: Estos modelos pueden usarse para generar formatos de texto de creatividades como poemas, guiones, códigos, textos de marketing y borradores de correos electrónicos.
    • IA conversacional y los chatbots: Potencia las interfaces de conversación para los clientes de Google Cloud, asistentes virtuales o aplicaciones interactivas.
    • Resumen de textos: genera resúmenes concisos de un corpus de texto, una investigación documentos o informes.
  • Investigación y educación
    • Investigación sobre el procesamiento de lenguaje natural (PLN): Estos modelos pueden servir base para que los investigadores experimenten con técnicas de PLN, desarrollen y contribuyen al avance del campo.
    • Herramientas de aprendizaje de idiomas: Brindar experiencias interactivas de aprendizaje de idiomas asistir en la corrección gramatical o en la práctica de redacción.
    • Exploración del conocimiento: Ayuda a los investigadores a explorar grandes cuerpos de texto. generando resúmenes o respondiendo preguntas sobre temas específicos.

Limitaciones

  • Datos de entrenamiento
    • La calidad y diversidad de los datos de entrenamiento influyen significativamente las capacidades del modelo. Los sesgos o las brechas en los datos de entrenamiento pueden generar limitaciones en las respuestas del modelo.
    • El alcance del conjunto de datos de entrenamiento determina las áreas temáticas que el modelo puede para manejar con eficacia.
  • Contexto y complejidad de la tarea
    • Los LLM son mejores para tareas que se pueden enmarcar con instrucciones claras y instrucciones. Las tareas abiertas o muy complejas pueden ser desafiantes.
    • La cantidad de contexto que se brinda puede influir en el rendimiento de un modelo (un contexto más largo generalmente conduce a mejores resultados, hasta un momento determinado).
  • Ambigüedad y matices del lenguaje
    • El lenguaje natural es intrínsecamente complejo. Los LLM pueden tener dificultades para captar o matices, sarcasmo o lenguaje figurado.
  • Precisión fáctica
    • Los LLM generan respuestas basadas en la información que aprendieron de sus son conjuntos de datos de entrenamiento, pero no son bases de conocimiento. Pueden generar afirmaciones fácticas incorrectas o desactualizadas.
  • Sentido común
    • Los LLM se basan en patrones estadísticos del lenguaje. Es posible que no tengan la habilidad aplicar el razonamiento de sentido común en ciertas situaciones.

Consideraciones y riesgos éticos

El desarrollo de modelos grandes de lenguaje (LLM) plantea varios problemas éticos. Para crear un modelo abierto, consideramos con cuidado lo siguiente:

  • Sesgo y equidad
    • Los LLM entrenados con datos de texto reales a gran escala pueden reflejar los sesgos incrustados en el material de capacitación. Estos modelos se analizaron escrutinio, procesamiento previo de datos de entrada descrito y evaluaciones posteriores se informa en esta tarjeta.
  • Información errónea y uso inadecuado
  • Transparencia y responsabilidad:
    • Esta tarjeta de modelos resume los detalles de los modelos arquitectura, capacidades, limitaciones y procesos de evaluación.
    • Un modelo abierto desarrollado de forma responsable ofrece la oportunidad de compartir haciendo que la tecnología de LLM sea accesible para desarrolladores e investigadores en todo el ecosistema de IA.

Riesgos identificados y mitigaciones:

  • Perpetuación de sesgos: Se alienta a realizar una supervisión continua (con métricas de evaluación y revisión manual) y la exploración de la desviación técnicas durante el entrenamiento, el ajuste y otros casos de uso de modelos.
  • Generación de contenido dañino: Mecanismos y lineamientos para la seguridad del contenido son esenciales. Se recomienda a los desarrolladores que sean cautelosos e implementen medidas de protección de contenido adecuadas en función de las políticas específicas de sus productos y casos de uso de aplicaciones.
  • Uso inadecuado con fines maliciosos: limitaciones técnicas y la educación del usuario final puede ayudar a mitigar las aplicaciones maliciosas de los LLM. Se ofrecen recursos educativos y mecanismos de denuncia para que los usuarios marquen el uso inadecuado. que se proporcionan. Los usos prohibidos de los modelos de Gemma se describen en el Política de Uso Prohibido de Gemma.
  • Incumplimientos de la privacidad: Los modelos se entrenaron con datos filtrados para la eliminación de PII. (Información de identificación personal). Se recomienda a los desarrolladores que cumplan con reglamentaciones de privacidad con técnicas que preservan la privacidad.

Beneficios

En el momento del lanzamiento, esta familia de modelos brindaba para implementaciones de modelos grandes de lenguaje de IA generativa en comparación con modelos de tamaño similar.

Con las métricas de evaluación comparativas descritas en este documento, estos modelos han demostrado ofrecer un rendimiento superior a otros modelos abiertos de tamaño comparable. alternativas.