Tarjeta del modelo Gemma 4

Banner de Gemma 4

Hugging Face | GitHub | Blog de lanzamiento | Documentación
Licencia: Apache 2.0 | Autores: Google DeepMind

Gemma es una familia de modelos abiertos creados por Google DeepMind. Los modelos de Gemma 4 son multimodales, ya que manejan entradas de texto y de imágenes (con audio compatible en modelos pequeños) y generan salidas de texto. Esta versión incluye modelos de pesos abiertos en variantes previamente entrenadas y ajustadas con instrucciones. Gemma 4 cuenta con una ventana de contexto de hasta 256 000 tokens y mantiene la compatibilidad multilingüe en más de 140 idiomas.

Con arquitecturas densas y de mezcla de expertos (MoE), Gemma 4 es adecuado para tareas como la generación de texto, la programación y el razonamiento. Los modelos están disponibles en cuatro tamaños distintos: E2B, E4B, 26B A4B y 31B. Sus diversos tamaños permiten implementarlos en entornos que van desde teléfonos de alta gama hasta laptops y servidores, lo que democratiza el acceso a la IA de vanguardia.

Gemma 4 presenta avances clave en la capacidad y la arquitectura:

  • Razonamiento: Todos los modelos de la familia están diseñados como razonadores altamente capaces, con modos de pensamiento configurables.

  • Multimodalidades extendidas: Procesan texto, imágenes con compatibilidad de resolución y relación de aspecto variables (todos los modelos), video y audio (se incluyen de forma nativa en los modelos E2B y E4B).

  • Arquitecturas diversas y eficientes: Ofrece variantes densas y de combinación de expertos (MoE) de diferentes tamaños para una implementación escalable.

  • Optimizado para dispositivos: Los modelos más pequeños están diseñados específicamente para una ejecución local eficiente en laptops y dispositivos móviles.

  • Ventana de contexto aumentada: Los modelos pequeños tienen una ventana de contexto de 128 000, mientras que los modelos medianos admiten 256 000.

  • Capacidades mejoradas de codificación y de agente: Logra mejoras notables en las comparativas de codificación junto con la compatibilidad nativa de llamadas a funciones, lo que potencia agentes autónomos altamente capaces.

  • Compatibilidad nativa con instrucciones del sistema: Gemma 4 introduce compatibilidad nativa con el rol de system, lo que permite conversaciones más estructuradas y controlables.

Descripción general de los modelos

Los modelos Gemma 4 están diseñados para ofrecer un rendimiento de vanguardia en cada tamaño, y se orientan a situaciones de implementación que van desde dispositivos móviles y perimetrales (E2B y E4B) hasta GPU y estaciones de trabajo para el consumidor (26B A4B y 31B). Son ideales para el razonamiento, los flujos de trabajo basados en agentes, la programación y la comprensión multimodal.

Los modelos emplean un mecanismo de atención híbrido que intercala la atención de ventana deslizante local con la atención global completa, lo que garantiza que la capa final siempre sea global. Este diseño híbrido ofrece la velocidad de procesamiento y el bajo consumo de memoria de un modelo liviano sin sacrificar la profunda comprensión necesaria para las tareas complejas de contexto extenso. Para optimizar la memoria en contextos largos, las capas globales incluyen claves y valores unificados, y aplican RoPE proporcional (p-RoPE).

Modelos densos

Propiedad E2B E4B 31B, densa
Parámetros totales 2,300 millones efectivos (5,100 millones con incorporaciones) 4,500 millones efectivos (8,000 millones con incorporaciones) 30,700 millones
Capas 35 42 60
Ventana deslizante 512 tokens 512 tokens 1,024 tokens
Longitud del contexto 128,000 tokens 128,000 tokens 256,000 tokens
Tamaño del vocabulario 262,000 262,000 262,000
Modalidades admitidas Texto, imagen y audio Texto, imagen y audio Texto, imagen
Parámetros del codificador de visión Aprox. 150 millones Aprox. 150 millones Aprox. 550 millones
Parámetros del codificador de audio Aprox. 300 millones Aprox. 300 millones Sin audio

La "E" en E2B y E4B significa parámetros "eficaces". Los modelos más pequeños incorporan la técnica de Per-Layer Embeddings (PLE) para maximizar la eficiencia de los parámetros en las implementaciones en el dispositivo. En lugar de agregar más capas o parámetros al modelo, PLE le otorga a cada capa del decodificador su propia incorporación pequeña para cada token. Estas tablas de incorporación son grandes, pero solo se usan para búsquedas rápidas, por lo que el recuento de parámetros efectivos es mucho menor que el total.

Modelo de mezcla de expertos (MoE)

Propiedad 26B, A4B, MoE
Parámetros totales 25,200 millones
Parámetros activos 3,800 millones
Capas 30
Ventana deslizante 1,024 tokens
Longitud del contexto 256,000 tokens
Tamaño del vocabulario 262,000
Recuento de expertos 8 activos / 128 totales y 1 compartido
Modalidades admitidas Texto, imagen
Parámetros del codificador de visión Aprox. 550 millones

La "A" en 26B A4B significa "parámetros activos", en contraste con la cantidad total de parámetros que contiene el modelo. Al activar solo un subconjunto de 4,000 millones de parámetros durante la inferencia, el modelo de combinación de expertos se ejecuta mucho más rápido de lo que podría sugerir su total de 26,000 millones. Esto lo convierte en una excelente opción para la inferencia rápida en comparación con el modelo denso de 31B, ya que se ejecuta casi tan rápido como un modelo de 4B parámetros.

Resultados de comparativas

Estos modelos se evaluaron con una gran colección de diferentes conjuntos de datos y métricas para abarcar distintos aspectos de la generación de texto. Los resultados de la evaluación marcados en la tabla son para los modelos ajustados según las instrucciones.

Gemma 4 31B Gemma 4 26B A4B Gemma 4, E4B Gemma 4, E2B Gemma 3, 27B (sin pensamiento)
MMLU Pro 85.2% 82.6% 69.4% 60% 67.6%
AIME 2026, sin herramientas 89.2% 88.3% 42.5% 37.5% 20.8%
LiveCodeBench v6 80% 77.1% 52% 44% 29.1%
ELO de Codeforces 2150 1718 940 633 110
GPQA Diamond 84.3% 82.3% 58.6% 43.4% 42.4%
Tau2 (promedio de 3) 76.9% 68.2% 42.2% 24.5% 16.2%
HLE sin herramientas 19.5% 8.7% - - -
HLE con búsqueda 26.5% 17.2% - - -
BigBench Extra Hard 74.4% 64.8% 33.1% 21.9% 19.3%
MMMLU 88.4% 86.3% 76.6% 67.4% 70.7%
Vision
MMMU Pro 76.9% 73.8% 52.6% 44.2% 49.7%
OmniDocBench 1.5 (distancia de edición promedio, cuanto más baja, mejor) 0.131 0.149 0.181 0.290 0.365
MATH-Vision 85.6% 82.4% 59.5% 52.4% 46%
MedXPertQA MM 61.3% 58.1% 28,7% 23.5% -
Audio
CoVoST - - 35.54 33.47 -
FLEURS (cuanto más bajo, mejor) - - 0.08 0.09 -
Long Context
MRCR v2, 8 agujas, 128 000 (promedio) 66.4% 44.1% 25.4% 19.1% 13.5%

Funciones principales

Los modelos de Gemma 4 pueden realizar una amplia variedad de tareas en texto, visión y audio. Las capacidades clave incluyen las siguientes:

  • Thinking: Es un modo de razonamiento integrado que permite que el modelo piense paso a paso antes de responder.
  • Contexto largo: Ventanas de contexto de hasta 128,000 tokens (E2B/E4B) y 256,000 tokens (26B A4B/31B)
  • Comprensión de imágenes: Detección de objetos, análisis de documentos o archivos PDF, comprensión de pantallas y de la IU, comprensión de gráficos, OCR (incluido el multilingüe), reconocimiento de escritura a mano y señalamiento. Las imágenes se pueden procesar con relaciones de aspecto y resoluciones variables.
  • Comprensión de video: Analiza videos procesando secuencias de fotogramas.
  • Entrada multimodal intercalada: Mezcla libremente texto e imágenes en cualquier orden dentro de una sola instrucción.
  • Llamadas a funciones: Compatibilidad nativa con el uso estructurado de herramientas, lo que permite flujos de trabajo basados en agentes.
  • Programación: Generación, finalización y corrección de código
  • Multilingüe: Admite más de 35 idiomas de forma predeterminada y se entrenó con más de 140 idiomas.
  • Audio (solo para E2B y E4B): Reconocimiento de voz automático (ASR) y traducción de voz a texto traducido en varios idiomas.

Comenzar

Puedes usar todos los modelos de Gemma 4 con la versión más reciente de Transformers. Para comenzar, instala las dependencias necesarias en tu entorno:

pip install -U transformers torch accelerate

Una vez que tengas todo instalado, puedes cargar el modelo con el siguiente código:

import torch
from transformers import AutoProcessor, AutoModelForCausalLM

MODEL_ID = "google/gemma-4-E2B-it"

# Load model
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    dtype=torch.bfloat16,
    device_map="auto"
)

Una vez que se cargue el modelo, puedes comenzar a generar resultados:

# Prompt
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Write a short joke about saving RAM."},
]

# Process input
text = processor.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False
)
inputs = processor(text=text, return_tensors="pt").to(model.device)
input_len = inputs["input_ids"].shape[-1]

# Generate output
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)

# Parse thinking
processor.parse_response(response)

Para habilitar el razonamiento, establece enable_thinking=True y la función parse_response se encargará de analizar el resultado del pensamiento.

Prácticas recomendadas

Para obtener el mejor rendimiento, usa estas opciones de configuración y prácticas recomendadas:

1. Parámetros de muestreo

Utiliza la siguiente configuración de muestreo estandarizada en todos los casos de uso:

  • temperature=1.0
  • top_p=0.95
  • top_k=64

2. Configuración del modo de pensamiento

En comparación con Gemma 3, los modelos usan los roles estándar de system, assistant y user. Para administrar correctamente el proceso de pensamiento, usa los siguientes tokens de control:

  • Activación del pensamiento: El pensamiento se habilita incluyendo el token <|think|> al comienzo de la instrucción del sistema. Para inhabilitar el pensamiento, quita el token.
  • Generación estándar: Cuando se habilita el pensamiento, el modelo mostrará su razonamiento interno seguido de la respuesta final con esta estructura: <|channel>thought\n[Razonamiento interno]<channel|>
  • Comportamiento de pensamiento inhabilitado: Para todas las variantes de modelos, excepto E2B y E4B, si se inhabilita el pensamiento, el modelo seguirá generando las etiquetas, pero con un bloque de pensamiento vacío: <|channel>thought\n<channel|>[Respuesta final]

Ten en cuenta que muchas bibliotecas, como Transformers y llama.cpp, manejan las complejidades de la plantilla de chat por ti.

3. Conversaciones de varios turnos

  • No Thinking Content in History: En las conversaciones de varios turnos, el resultado histórico del modelo solo debe incluir la respuesta final. Las reflexiones de los turnos anteriores del modelo no se deben agregar antes de que comience el siguiente turno del usuario.

4. Orden de modalidad

  • Para obtener un rendimiento óptimo con las entradas multimodales, coloca el contenido de imagen o audio antes del texto en tu instrucción.

5. Resolución de imagen variable

Además de las relaciones de aspecto variables, Gemma 4 admite la resolución de imagen variable a través de un presupuesto de tokens visuales configurable, que controla cuántos tokens se usan para representar una imagen. Un presupuesto de tokens más alto conserva más detalles visuales a costa de un procesamiento adicional, mientras que un presupuesto más bajo permite una inferencia más rápida para las tareas que no requieren una comprensión detallada.

  • Los presupuestos de tokens admitidos son 70, 140, 280, 560 y 1, 120.
    • Usa presupuestos más bajos para la clasificación, la generación de subtítulos o la comprensión de videos, en los que la inferencia más rápida y el procesamiento de muchos fotogramas superan el detalle preciso.
    • Usa presupuestos más altos para tareas como el OCR, el análisis de documentos o la lectura de texto pequeño.

6. Audio

Usa las siguientes estructuras de instrucciones para el procesamiento de audio:

  • Reconocimiento de voz de audio (ASR)
Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
*   Only output the transcription, with no newlines.
*   When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.
  • Traducción automática de voz (AST)
Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

7. Duración de audio y video

Todos los modelos admiten entradas de imágenes y pueden procesar videos como fotogramas, mientras que los modelos E2B y E4B también admiten entradas de audio. El audio admite una duración máxima de 30 segundos. El video admite un máximo de 60 segundos, suponiendo que las imágenes se procesen a un fotograma por segundo.

Model Data

Datos que se usaron para entrenar el modelo y cómo se procesaron.

Conjunto de datos de entrenamiento

Nuestro conjunto de datos de entrenamiento previo es una colección de datos diversa y a gran escala que abarca una amplia variedad de dominios y modalidades, incluidos documentos web, código, imágenes y audio, con una fecha límite de enero de 2025. Estos son los componentes clave:

  • Documentos web: Una colección diversa de texto web garantiza que el modelo se exponga a una amplia variedad de estilos lingüísticos, temas y vocabulario. El conjunto de datos de entrenamiento incluye contenido en más de 140 idiomas.
  • Código: Exponer el modelo al código lo ayuda a aprender la sintaxis y los patrones de los lenguajes de programación, lo que mejora su capacidad para generar código y comprender preguntas relacionadas con el código.
  • Matemáticas: El entrenamiento con texto matemático ayuda al modelo a aprender razonamiento lógico, representación simbólica y a responder consultas matemáticas.
  • Imágenes: Una amplia variedad de imágenes permite que el modelo realice tareas de análisis de imágenes y extracción de datos visuales.

La combinación de estas diversas fuentes de datos es fundamental para entrenar un potente modelo multimodal que pueda manejar una amplia variedad de diferentes tareas y formatos de datos.

Preprocesamiento de datos

A continuación, se indican los principales métodos de limpieza y filtrado de datos que se aplican a los datos de entrenamiento:

  • Filtrado de CSAM: Se aplicó un filtrado riguroso de CSAM (material de abuso sexual infantil) en varias etapas del proceso de preparación de datos para garantizar la exclusión de contenido dañino e ilegal.
  • Filtrado de datos sensibles: Como parte del proceso para garantizar la seguridad y confiabilidad de los modelos previamente entrenados de Gemma, se utilizaron técnicas automatizadas para filtrar cierta información personal y otros datos sensibles de los conjuntos de entrenamiento.
  • Métodos adicionales: Filtrado basado en la calidad y la seguridad del contenido de conformidad con nuestras políticas.

Ética y seguridad

A medida que los modelos abiertos se vuelven fundamentales para la infraestructura empresarial, la procedencia y la seguridad son primordiales. Gemma 4, desarrollado por Google DeepMind, se somete a las mismas evaluaciones de seguridad rigurosas que nuestros modelos propietarios de Gemini.

Enfoque de evaluación

Los modelos de Gemma 4 se desarrollaron en colaboración con los equipos internos de seguridad y de IA responsable. Se realizaron diversas evaluaciones automatizadas y humanas para ayudar a mejorar la seguridad del modelo. Estas evaluaciones se alinean con los principios de IA de Google, así como con las políticas de seguridad, cuyo objetivo es evitar que nuestros modelos de IA generativa creen contenido dañino, como los siguientes:

  • Contenido relacionado con la explotación y el material de abuso sexual infantil
  • Contenido peligroso (p.ej., que promueva el suicidio o que brinde instrucciones sobre actividades que podrían causar daños en el mundo real)
  • Contenido sexual explícito
  • Incitación al odio o a la violencia (p.ej., deshumanización de miembros de grupos protegidos)
  • Hostigamiento (p.ej., fomentar la violencia contra las personas)

Resultados de la evaluación

En todas las áreas de las pruebas de seguridad, observamos mejoras significativas en todas las categorías de seguridad del contenido en relación con los modelos de Gemma anteriores. En general, los modelos de Gemma 4 superan significativamente a los modelos de Gemma 3 y 3n en la mejora de la seguridad, al tiempo que mantienen bajas las negativas injustificadas. Todas las pruebas se realizaron sin filtros de seguridad para evaluar las capacidades y el comportamiento del modelo. En el caso de la conversión de texto a texto y de imagen a texto, y en todos los tamaños de modelos, el modelo produjo una cantidad mínima de incumplimientos de políticas y mostró mejoras significativas en comparación con el rendimiento de los modelos de Gemma anteriores.

Uso y limitaciones

Estos modelos tienen ciertas limitaciones que los usuarios deben conocer.

Uso previsto

Los modelos multimodales (capaces de procesar visión, lenguaje o audio) tienen una amplia variedad de aplicaciones en diferentes industrias y dominios. La siguiente lista de usos potenciales no es exhaustiva. El propósito de esta lista es proporcionar información contextual sobre los posibles casos de uso que los creadores del modelo consideraron como parte del entrenamiento y desarrollo del modelo.

  • Creación y comunicación de contenido
    • Generación de texto: Estos modelos se pueden usar para generar formatos de texto creativo, como poemas, guiones, código, texto de marketing y borradores de correos electrónicos.
    • Chatbots y IA conversacional: Potencia las interfaces conversacionales para la atención al cliente, los asistentes virtuales o las aplicaciones interactivas.
    • Resumen de texto: Genera resúmenes concisos de un corpus de texto, artículos de investigación o informes.
    • Extracción de datos de imágenes: Estos modelos se pueden usar para extraer, interpretar y resumir datos visuales para comunicaciones de texto.
    • Procesamiento e interacción de audio: Los modelos más pequeños (E2B y E4B) pueden analizar e interpretar entradas de audio, lo que permite interacciones y transcripciones basadas en la voz.
  • Investigación y educación
    • Investigación sobre el procesamiento de lenguaje natural (PLN) y los VLMs: Estos modelos pueden servir como base para que los investigadores experimenten con técnicas de PLN y VLM, desarrollen algoritmos y contribuyan al avance del campo.
    • Herramientas de aprendizaje de idiomas: Admiten experiencias interactivas de aprendizaje de idiomas, ayudan a corregir la gramática o brindan práctica de escritura.
      • Exploración de conocimiento: Ayuda a los investigadores a explorar grandes cantidades de texto generando resúmenes o respondiendo preguntas sobre temas específicos.

Limitaciones

  • Datos de Entrenamiento
    • La calidad y la diversidad de los datos de entrenamiento influyen significativamente en las capacidades del modelo. Los sesgos o las brechas en los datos de entrenamiento pueden generar limitaciones en las respuestas del modelo.
    • El alcance del conjunto de datos de entrenamiento determina las áreas temáticas que el modelo puede abordar de manera eficaz.
  • Contexto y complejidad de la tarea
    • Los modelos funcionan bien en tareas que se pueden enmarcar con instrucciones y mensajes claros. Las tareas abiertas o muy complejas pueden ser difíciles.
    • El rendimiento de un modelo puede verse afectado por la cantidad de contexto que se proporciona (en general, un contexto más largo genera mejores resultados, hasta cierto punto).
  • Ambigüedad y matices del lenguaje
    • El lenguaje natural es inherentemente complejo. Es posible que los modelos tengan dificultades para comprender matices sutiles, sarcasmo o lenguaje figurativo.
  • Precisión fáctica
    • Los modelos generan respuestas basadas en la información que aprendieron de sus conjuntos de datos de entrenamiento, pero no son bases de conocimiento. Pueden generar afirmaciones fácticas incorrectas o desactualizadas.
  • Common Sense
    • Los modelos se basan en patrones estadísticos del lenguaje. Es posible que no puedan aplicar el sentido común en ciertas situaciones.

Consideraciones y riesgos éticos

El desarrollo de modelos de lenguaje de visión (VLM) plantea varias preocupaciones éticas. Para crear un modelo abierto, consideramos cuidadosamente lo siguiente:

  • Sesgo y equidad
    • Los VLM entrenados con datos de texto e imágenes a gran escala del mundo real pueden reflejar sesgos socioculturales integrados en el material de entrenamiento. Los modelos de Gemma 4 se sometieron a un análisis minucioso, un preprocesamiento de los datos de entrada y evaluaciones posteriores al entrenamiento, como se indica en esta tarjeta, para ayudar a mitigar el riesgo de estos sesgos.
  • Información errónea y uso inadecuado
  • Transparencia y responsabilidad
    • En esta tarjeta de modelo, se resumen los detalles sobre la arquitectura, las capacidades, las limitaciones y los procesos de evaluación de los modelos.
    • Un modelo abierto desarrollado de forma responsable ofrece la oportunidad de compartir la innovación, ya que hace que la tecnología de VLM sea accesible para los desarrolladores y los investigadores de todo el ecosistema de la IA.

Riesgos identificados y mitigaciones:

  • Generación de contenido dañino: Los mecanismos y los lineamientos para la seguridad del contenido son fundamentales. Se recomienda a los desarrolladores que actúen con precaución y que implementen las protecciones de seguridad de contenido adecuadas según las políticas de productos y los casos de uso de la aplicación específicos.
  • Uso inadecuado con fines maliciosos: Las limitaciones técnicas y la capacitación de los desarrolladores y los usuarios finales pueden ayudar a mitigar las aplicaciones maliciosas de los MVL. Se proporcionan recursos educativos y mecanismos de denuncia para que los usuarios marquen el uso inadecuado.
  • Incumplimientos de la privacidad: Los modelos se entrenaron con datos filtrados para quitar cierta información personal y otros datos sensibles. Se recomienda a los desarrolladores que cumplan con las reglamentaciones de privacidad utilizando técnicas que preserven la privacidad.
  • Perpetuación de sesgos: Se recomienda realizar un monitoreo continuo (con métricas de evaluación y revisión humana) y explorar técnicas de reducción de sesgos durante el entrenamiento, el ajuste y otros casos de uso del modelo.

Beneficios

En el momento del lanzamiento, esta familia de modelos proporciona implementaciones de modelos de visión y lenguaje abiertos de alto rendimiento diseñados desde cero para el desarrollo de IA responsable en comparación con modelos de tamaño similar.