Se lanzó Gemma 4 con entrada de texto, audio y video, y una ventana de contexto de hasta 256,000 tokens. Más información

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Tarjeta del modelo Gemma 4

Banner de Gemma 4

Hugging Face | GitHub | Blog de lanzamiento | Documentación
Licencia: Apache 2.0 | Autores: Google DeepMind

Gemma es una familia de modelos abiertos creados por Google DeepMind. Los modelos de Gemma 4 son multimodales, ya que procesan entradas de texto y de imágenes (con audio compatible en los modelos pequeños) y generan texto como salida. Esta versión incluye modelos de pesos abiertos en variantes previamente entrenadas y ajustadas con instrucciones. Gemma 4 cuenta con una ventana de contexto de hasta 256 000 tokens y mantiene la compatibilidad multilingüe en más de 140 idiomas.

Con arquitecturas densas y de mezcla de expertos (MoE), Gemma 4 es adecuado para tareas como la generación de texto, la programación y el razonamiento. Los modelos están disponibles en cuatro tamaños distintos: E2B, E4B, 26B A4B y 31B. Sus diversos tamaños permiten implementarlos en entornos que van desde teléfonos de alta gama hasta laptops y servidores, lo que democratiza el acceso a la IA de vanguardia.

Gemma 4 presenta avances clave en la capacidad y la arquitectura:

Razonamiento: Todos los modelos de la familia están diseñados como razonadores altamente capaces, con modos de pensamiento configurables.
Multimodalidades extendidas: Procesan texto, imágenes con relación de aspecto y resolución variables (todos los modelos), video y audio (se incluyen de forma nativa en los modelos E2B y E4B).
Arquitecturas diversas y eficientes: Ofrece variantes densas y de combinación de expertos (MoE) de diferentes tamaños para una implementación escalable.
Optimizado para dispositivos: Los modelos más pequeños están diseñados específicamente para una ejecución local eficiente en laptops y dispositivos móviles.
Ventana de contexto aumentada: Los modelos pequeños tienen una ventana de contexto de 128 000, mientras que los modelos medianos admiten 256 000.
Capacidades mejoradas de codificación y de agentes: Logra mejoras notables en las comparativas de codificación junto con la compatibilidad nativa de llamadas a funciones, lo que potencia agentes autónomos altamente capaces.
Compatibilidad nativa con instrucciones del sistema: Gemma 4 introduce compatibilidad nativa con el rol de system, lo que permite conversaciones más estructuradas y controlables.

Descripción general de los modelos

Los modelos Gemma 4 están diseñados para ofrecer un rendimiento de vanguardia en cada tamaño, y se orientan a situaciones de implementación que van desde dispositivos móviles y perimetrales (E2B y E4B) hasta GPU y estaciones de trabajo para el consumidor (26B A4B y 31B). Son ideales para el razonamiento, los flujos de trabajo basados en agentes, la programación y la comprensión multimodal.

Los modelos emplean un mecanismo de atención híbrido que intercala la atención de ventana deslizante local con la atención global completa, lo que garantiza que la capa final siempre sea global. Este diseño híbrido ofrece la velocidad de procesamiento y el bajo consumo de memoria de un modelo liviano sin sacrificar la profunda comprensión necesaria para las tareas complejas de contexto extenso. Para optimizar la memoria en contextos largos, las capas globales incluyen claves y valores unificados, y aplican RoPE proporcional (p-RoPE).

Modelos densos

Propiedad	E2B	E4B	31B, denso
Parámetros totales	2,300 millones efectivas (5,100 millones con embeddings)	4,500 millones efectivos (8,000 millones con embeddings)	30,700 millones
Capas	35	42	60
Ventana deslizante	512 tokens	512 tokens	1,024 tokens
Longitud del contexto	128,000 tokens	128,000 tokens	256,000 tokens
Tamaño del vocabulario	262,000	262,000	262,000
Modalidades admitidas	Texto, imagen y audio	Texto, imagen y audio	Texto, imagen
Parámetros del codificador de visión	Aprox. 150 millones	Aprox. 150 millones	Aprox. 550 millones
Parámetros del codificador de audio	Aprox. 300 millones	Aprox. 300 millones	Sin audio

La "E" en E2B y E4B significa parámetros "eficaces". Los modelos más pequeños incorporan la técnica de Per-Layer Embeddings (PLE) para maximizar la eficiencia de los parámetros en las implementaciones integradas en el dispositivo. En lugar de agregar más capas o parámetros al modelo, PLE le otorga a cada capa del decodificador su propia incorporación pequeña para cada token. Estas tablas de incorporación son grandes, pero solo se usan para búsquedas rápidas, por lo que el recuento de parámetros efectivos es mucho menor que el total.

Modelo de mezcla de expertos (MoE)

Propiedad	26B, A4B, MoE
Parámetros totales	25,200 millones
Parámetros activos	3,800 millones
Capas	30
Ventana deslizante	1,024 tokens
Longitud del contexto	256,000 tokens
Tamaño del vocabulario	262,000
Recuento de expertos	8 activos / 128 totales y 1 compartido
Modalidades admitidas	Texto, imagen
Parámetros del codificador de visión	Aprox. 550 millones

La "A" en 26B A4B significa "parámetros activos", en contraste con la cantidad total de parámetros que contiene el modelo. Al activar solo un subconjunto de 4,000 millones de parámetros durante la inferencia, el modelo de combinación de expertos se ejecuta mucho más rápido de lo que podría sugerir su total de 26,000 millones. Esto lo convierte en una excelente opción para la inferencia rápida en comparación con el modelo denso de 31B, ya que se ejecuta casi tan rápido como un modelo de 4B parámetros.

Resultados de comparativas

Estos modelos se evaluaron con una gran colección de diferentes conjuntos de datos y métricas para abarcar distintos aspectos de la generación de texto. Los resultados de la evaluación marcados en la tabla son para los modelos ajustados según las instrucciones.

	Gemma 4 31B	Gemma 4 26B A4B	Gemma 4, E4B	Gemma 4, E2B	Gemma 3, 27B (sin pensamiento)
MMLU Pro	85.2%	82.6%	69.4%	60%	67.6%
AIME 2026, sin herramientas	89.2%	88.3%	42.5%	37.5%	20.8%
LiveCodeBench v6	80%	77.1%	52%	44%	29.1%
ELO de Codeforces	2150	1718	940	633	110
GPQA Diamond	84.3%	82.3%	58.6%	43.4%	42.4%
Tau2 (promedio de 3)	76.9%	68.2%	42.2%	24.5%	16.2%
HLE, sin herramientas	19.5%	8.7%	-	-	-
HLE con búsqueda	26.5%	17.2%	-	-	-
BigBench Extra Hard	74.4%	64.8%	33.1%	21.9%	19.3%
MMMLU	88.4%	86.3%	76.6%	67.4%	70.7%
Vision
MMMU Pro	76.9%	73.8%	52.6%	44.2%	49.7%
OmniDocBench 1.5 (distancia de edición promedio, cuanto más baja, mejor)	0.131	0.149	0.181	0.290	0.365
MATH-Vision	85.6%	82.4%	59.5%	52.4%	46%
MedXPertQA MM	61.3%	58.1%	28,7%	23.5%	-
Audio
CoVoST	-	-	35.54	33.47	-
FLEURS (cuanto más bajo, mejor)	-	-	0.08	0.09	-
Long Context
MRCR v2, 8 agujas, 128 000 (promedio)	66.4%	44.1%	25.4%	19.1%	13.5%

Funciones principales

Los modelos de Gemma 4 pueden realizar una amplia variedad de tareas en texto, visión y audio. Las capacidades clave incluyen las siguientes:

Thinking: Es un modo de razonamiento integrado que permite que el modelo piense paso a paso antes de responder.
Contexto largo: Ventanas de contexto de hasta 128,000 tokens (E2B/E4B) y 256,000 tokens (26B A4B/31B).
Comprensión de imágenes: Detección de objetos, análisis de documentos o archivos PDF, comprensión de pantallas y de la IU, comprensión de gráficos, OCR (incluido el multilingüe), reconocimiento de escritura a mano y señalamiento. Las imágenes se pueden procesar con relaciones de aspecto y resoluciones variables.
Comprensión de video: Analiza videos procesando secuencias de fotogramas.
Entrada multimodal intercalada: Mezcla libremente texto e imágenes en cualquier orden dentro de una sola instrucción.
Llamadas a funciones: Compatibilidad nativa con el uso estructurado de herramientas, lo que permite flujos de trabajo basados en agentes.
Programación: Generación, finalización y corrección de código
Multilingüe: Admite más de 35 idiomas de forma predeterminada y se entrenó con más de 140 idiomas.
Audio (solo para E2B y E4B): Reconocimiento de voz automático (ASR) y traducción de voz a texto traducido en varios idiomas.

Prácticas recomendadas

Para obtener el mejor rendimiento, usa estas opciones de configuración y prácticas recomendadas:

1. Parámetros de muestreo

Utiliza la siguiente configuración de muestreo estandarizada en todos los casos de uso:

temperature=1.0
top_p=0.95
top_k=64

2. Configuración del modo de pensamiento

En comparación con Gemma 3, los modelos usan los roles estándar system, assistant y user. Para administrar correctamente el proceso de pensamiento, usa los siguientes tokens de control:

Activación del pensamiento: El pensamiento se habilita incluyendo el token <|think|> al comienzo de la instrucción del sistema. Para inhabilitar el pensamiento, quita el token.
Generación estándar: Cuando se habilita el pensamiento, el modelo mostrará su razonamiento interno seguido de la respuesta final con esta estructura: <|channel>thought\n[Razonamiento interno]<channel|>
Comportamiento de pensamiento inhabilitado: Para todas las variantes de modelos, excepto E2B y E4B, si se inhabilita el pensamiento, el modelo seguirá generando las etiquetas, pero con un bloque de pensamiento vacío: <|channel>thought\n<channel|>[Respuesta final]

Ten en cuenta que muchas bibliotecas, como Transformers y llama.cpp, manejan las complejidades de la plantilla de chat por ti.

3. Conversaciones de varios turnos

No Thinking Content in History: En las conversaciones de varios turnos, el resultado del modelo histórico solo debe incluir la respuesta final. Las reflexiones de los turnos anteriores del modelo no se deben agregar antes de que comience el siguiente turno del usuario.

4. Orden de modalidad

Para obtener un rendimiento óptimo con las entradas multimodales, coloca el contenido de imagen o audio antes del texto en tu instrucción.

5. Resolución de imagen variable

Además de las relaciones de aspecto variables, Gemma 4 admite la resolución de imagen variable a través de un presupuesto de tokens visuales configurable, que controla cuántos tokens se usan para representar una imagen. Un presupuesto de tokens más alto conserva más detalles visuales a costa de un procesamiento adicional, mientras que un presupuesto más bajo permite una inferencia más rápida para las tareas que no requieren una comprensión detallada.

Los presupuestos de tokens admitidos son 70, 140, 280, 560 y 1, 120.
- Usa presupuestos más bajos para la clasificación, la generación de subtítulos o la comprensión de videos, en los que la inferencia más rápida y el procesamiento de muchos fotogramas superan el detalle preciso.
- Usa presupuestos más altos para tareas como el OCR, el análisis de documentos o la lectura de texto pequeño.

6. Audio

Usa las siguientes estructuras de instrucciones para el procesamiento de audio:

Reconocimiento de voz de audio (ASR)

Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
*   Only output the transcription, with no newlines.
*   When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.

Traducción automática de voz (AST)

Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

7. Duración de audio y video

Todos los modelos admiten entradas de imágenes y pueden procesar videos como fotogramas, mientras que los modelos E2B y E4B también admiten entradas de audio. El audio admite una duración máxima de 30 segundos. El video admite un máximo de 60 segundos, suponiendo que las imágenes se procesen a un fotograma por segundo.

Model Data

Datos que se usaron para entrenar el modelo y cómo se procesaron.

Conjunto de datos de entrenamiento

Nuestro conjunto de datos de entrenamiento previo es una colección diversa y a gran escala de datos que abarca una amplia variedad de dominios y modalidades, y que incluye documentos web, código, imágenes y audio, con una fecha límite de enero de 2025. Estos son los componentes clave:

Documentos web: Una colección diversa de texto web garantiza que el modelo se exponga a una amplia variedad de estilos lingüísticos, temas y vocabulario. El conjunto de datos de entrenamiento incluye contenido en más de 140 idiomas.
Código: Exponer el modelo al código lo ayuda a aprender la sintaxis y los patrones de los lenguajes de programación, lo que mejora su capacidad para generar código y comprender preguntas relacionadas con el código.
Matemáticas: El entrenamiento con texto matemático ayuda al modelo a aprender razonamiento lógico, representación simbólica y a responder consultas matemáticas.
Imágenes: Una amplia variedad de imágenes permite que el modelo realice tareas de análisis de imágenes y extracción de datos visuales.

La combinación de estas diversas fuentes de datos es fundamental para entrenar un potente modelo multimodal que pueda manejar una amplia variedad de diferentes tareas y formatos de datos.

Preprocesamiento de datos

A continuación, se indican los principales métodos de limpieza y filtrado de datos que se aplican a los datos de entrenamiento:

Filtrado de CSAM: Se aplicó un filtrado riguroso de CSAM (material de abuso sexual infantil) en varias etapas del proceso de preparación de datos para garantizar la exclusión de contenido dañino e ilegal.
Filtrado de datos sensibles: Como parte del proceso para garantizar la seguridad y confiabilidad de los modelos previamente entrenados de Gemma, se utilizaron técnicas automatizadas para filtrar cierta información personal y otros datos sensibles de los conjuntos de entrenamiento.
Métodos adicionales: Filtrado basado en la calidad y la seguridad del contenido de conformidad con nuestras políticas.

Ética y seguridad

A medida que los modelos abiertos se vuelven fundamentales para la infraestructura empresarial, la procedencia y la seguridad son primordiales. Gemma 4, desarrollado por Google DeepMind, se somete a las mismas evaluaciones de seguridad rigurosas que nuestros modelos Gemini patentados.

Enfoque de evaluación

Los modelos de Gemma 4 se desarrollaron en colaboración con equipos internos de seguridad y de IA responsable. Se realizaron diversas evaluaciones automatizadas y humanas para ayudar a mejorar la seguridad del modelo. Estas evaluaciones se alinean con los principios de la IA de Google, así como con las políticas de seguridad, cuyo objetivo es evitar que nuestros modelos de IA generativa creen contenido dañino, como los siguientes:

Contenido relacionado con la explotación y el material de abuso sexual infantil
Contenido peligroso (p.ej., que promueva el suicidio o que brinde instrucciones sobre actividades que podrían causar daños en el mundo real)
Contenido sexual explícito
Incitación al odio o a la violencia (p.ej., deshumanización de miembros de grupos protegidos)
Hostigamiento (p.ej., fomentar la violencia contra las personas)

Resultados de la evaluación

En todas las áreas de las pruebas de seguridad, observamos mejoras significativas en todas las categorías de seguridad del contenido en relación con los modelos de Gemma anteriores. En general, los modelos de Gemma 4 superan significativamente a los modelos de Gemma 3 y 3n en la mejora de la seguridad, al tiempo que mantienen bajos los rechazos injustificados. Todas las pruebas se realizaron sin filtros de seguridad para evaluar las capacidades y el comportamiento del modelo. En el caso de la conversión de texto a texto y de imagen a texto, y en todos los tamaños de modelos, el modelo produjo una cantidad mínima de incumplimientos de políticas y mostró mejoras significativas en comparación con el rendimiento de los modelos de Gemma anteriores.

Uso y limitaciones

Estos modelos tienen ciertas limitaciones que los usuarios deben conocer.

Uso previsto

Los modelos multimodales (capaces de procesar visión, lenguaje o audio) tienen una amplia variedad de aplicaciones en diferentes industrias y dominios. La siguiente lista de usos potenciales no es exhaustiva. El propósito de esta lista es proporcionar información contextual sobre los posibles casos de uso que los creadores del modelo consideraron como parte del entrenamiento y el desarrollo del modelo.

Creación y comunicación de contenido
- Generación de texto: Estos modelos se pueden usar para generar formatos de texto creativo, como poemas, guiones, código, texto de marketing y borradores de correos electrónicos.
- Chatbots y IA conversacional: Potencia las interfaces conversacionales para la atención al cliente, los asistentes virtuales o las aplicaciones interactivas.
- Resumen de texto: Genera resúmenes concisos de un corpus de texto, artículos de investigación o informes.
- Extracción de datos de imágenes: Estos modelos se pueden usar para extraer, interpretar y resumir datos visuales para comunicaciones de texto.
- Procesamiento e interacción de audio: Los modelos más pequeños (E2B y E4B) pueden analizar e interpretar entradas de audio, lo que permite interacciones y transcripciones basadas en la voz.
Investigación y educación
- Investigación sobre el procesamiento de lenguaje natural (PLN) y los VLMs: Estos modelos pueden servir como base para que los investigadores experimenten con técnicas de PLN y VLM, desarrollen algoritmos y contribuyan al avance del campo.
- Herramientas de aprendizaje de idiomas: Ayudan a brindar experiencias interactivas de aprendizaje de idiomas, ya sea corrigiendo la gramática o proporcionando práctica de escritura.
  - Exploración de conocimiento: Ayuda a los investigadores a explorar grandes cantidades de texto generando resúmenes o respondiendo preguntas sobre temas específicos.

Limitaciones

Datos de Entrenamiento
- La calidad y la diversidad de los datos de entrenamiento influyen significativamente en las capacidades del modelo. Los sesgos o las brechas en los datos de entrenamiento pueden generar limitaciones en las respuestas del modelo.
- El alcance del conjunto de datos de entrenamiento determina las áreas temáticas que el modelo puede abordar de manera eficaz.
Contexto y complejidad de la tarea
- Los modelos funcionan bien en tareas que se pueden enmarcar con instrucciones y mensajes claros. Las tareas abiertas o muy complejas pueden ser difíciles.
- El rendimiento de un modelo puede verse afectado por la cantidad de contexto que se proporciona (en general, un contexto más largo genera mejores resultados, hasta cierto punto).
Ambigüedad y matices del lenguaje
- El lenguaje natural es inherentemente complejo. Es posible que los modelos tengan dificultades para comprender matices sutiles, sarcasmo o lenguaje figurativo.
Precisión fáctica
- Los modelos generan respuestas basadas en la información que aprendieron de sus conjuntos de datos de entrenamiento, pero no son bases de conocimiento. Pueden generar afirmaciones fácticas incorrectas o desactualizadas.
Common Sense
- Los modelos se basan en patrones estadísticos del lenguaje. Es posible que no puedan aplicar el sentido común en ciertas situaciones.

Consideraciones y riesgos éticos

El desarrollo de modelos de lenguaje de visión (VLM) plantea varias preocupaciones éticas. Para crear un modelo abierto, consideramos cuidadosamente lo siguiente:

Sesgo y equidad
- Los VLM entrenados con datos de texto e imágenes a gran escala del mundo real pueden reflejar sesgos socioculturales integrados en el material de entrenamiento. Los modelos de Gemma 4 se sometieron a un análisis minucioso, un preprocesamiento de los datos de entrada y evaluaciones posteriores al entrenamiento, como se indica en esta tarjeta, para ayudar a mitigar el riesgo de estos sesgos.
Información errónea y uso inadecuado
- Los VLM se pueden usar de forma inadecuada para generar texto falso, engañoso o dañino.
- Se proporcionan lineamientos para el uso responsable del modelo. Consulta el kit de herramientas de IA generativa responsable.
Transparencia y responsabilidad
- En esta tarjeta de modelo, se resumen los detalles sobre la arquitectura, las capacidades, las limitaciones y los procesos de evaluación de los modelos.
- Un modelo abierto desarrollado de forma responsable ofrece la oportunidad de compartir la innovación, ya que hace que la tecnología de VLM sea accesible para los desarrolladores y los investigadores de todo el ecosistema de la IA.

Riesgos identificados y mitigaciones:

Generación de contenido dañino: Los mecanismos y los lineamientos para la seguridad del contenido son fundamentales. Se recomienda a los desarrolladores que actúen con precaución y que implementen las protecciones de seguridad de contenido adecuadas según las políticas de productos y los casos de uso de la aplicación específicos.
Uso inadecuado con fines maliciosos: Las limitaciones técnicas y la capacitación de los desarrolladores y los usuarios finales pueden ayudar a mitigar las aplicaciones maliciosas de los MVL. Se proporcionan recursos educativos y mecanismos de denuncia para que los usuarios marquen el uso inadecuado.
Incumplimientos de la privacidad: Los modelos se entrenaron con datos filtrados para quitar cierta información personal y otros datos sensibles. Se recomienda a los desarrolladores que cumplan con las reglamentaciones de privacidad utilizando técnicas que preserven la privacidad.
Perpetuación de sesgos: Se recomienda realizar un monitoreo continuo (con métricas de evaluación y revisión humana) y explorar técnicas de reducción de sesgos durante el entrenamiento de modelos, el ajuste y otros casos de uso.

Beneficios

En el momento del lanzamiento, esta familia de modelos proporciona implementaciones de modelos de visión y lenguaje abiertos de alto rendimiento diseñados desde cero para el desarrollo de IA responsable en comparación con modelos de tamaño similar.