Se lanzó Gemma 4 con entrada de texto, audio y video, y una ventana de contexto de hasta 256,000 tokens. Más información

Google utiliza tecnología de IA para traducir contenido a tu idioma preferido. Las traducciones realizadas con IA pueden contener errores.

Descripción general del modelo Gemma 4

Gemma es una familia de modelos de inteligencia artificial generativa que puedes usar en una amplia variedad de tareas de generación, lo que incluye la búsqueda de respuestas, el resumen y el razonamiento. Los modelos de Gemma se proporcionan con pesos abiertos y permiten el uso comercial responsable, lo que te permite ajustarlos e implementarlos en tus propios proyectos y aplicaciones.

La familia de modelos de Gemma 4 abarca cuatro arquitecturas distintas diseñadas para requisitos de hardware específicos:

Tamaños pequeños: Modelos de parámetros efectivos de 2B y 4B diseñados para la implementación en dispositivos móviles, perimetrales y navegadores (p. ej., Pixel y Chrome)
Densos: Un potente modelo denso de 31B parámetros que une la brecha entre el rendimiento de nivel de servidor y la ejecución local
Mixture-of-Experts: Un modelo MoE de 26B altamente eficiente diseñado para un alto rendimiento y un razonamiento avanzado
Unificados: Un modelo sin codificador de 12B parámetros para tareas multimodales, reemplazó los codificadores de visión y audio por proyecciones lineales directas de la entrada

Puedes descargar los modelos de Gemma 4 desde Kaggle y Hugging Face. Para obtener más detalles técnicos sobre Gemma 4, consulta la tarjeta de modelo y el informe técnico. Las versiones anteriores de los modelos principales de Gemma también están disponibles para descargar. Para obtener más información, consulta Modelos anteriores de Gemma.

Obtener en Kaggle Obtener en Hugging Face

Funciones

Razonamiento: Todos los modelos de la familia están diseñados como razonadores altamente capaces, con modos de pensamiento configurables.
Multimodalidades extendidas: Procesa texto, imágenes con relación de aspecto variable y compatibilidad con resolución (todos los modelos), video y audio (que se incluyen de forma nativa en los modelos E2B, E4B y 12B).
Ventana de contexto aumentada: Los modelos pequeños cuentan con una ventana de contexto de 128K, mientras que los modelos medianos admiten 256K.
Capacidades de codificación y de agentes mejoradas: Logra mejoras notables en las comparativas de codificación junto con la compatibilidad integrada de llamadas a funciones compatibilidad, lo que potencia agentes autónomos altamente capaces.
Compatibilidad nativa con instrucciones del sistema: Gemma 4 presenta compatibilidad integrada para el rol del sistema, lo que permite conversaciones más estructuradas y controlables.
Predicción de varios tokens: Todos los modelos de Gemma 4 (E2B, E4B, 12B, 31B y 26B A4B) incluyen un modelo de borrador dedicado para la decodificación especulativa, lo que permite una inferencia significativamente más rápida sin pérdida de calidad.

Tamaños de parámetros y cuantización

Los modelos de Gemma 4 están disponibles en 5 tamaños de parámetros: E2B, E4B, 12B, 31B y 26B A4B. Los modelos se pueden usar con su precisión predeterminada (16 bits) o con una precisión más baja mediante la cuantización. Los diferentes tamaños y precisiones representan un conjunto de compensaciones para tu aplicación de IA. Los modelos con parámetros y recuentos de bits más altos (mayor precisión) suelen ser más capaces, pero son más costosos de ejecutar en términos de ciclos de procesamiento, costo de memoria y consumo de energía. Los modelos con parámetros y recuentos de bits más bajos (menor precisión) tienen menos capacidades, pero pueden ser suficientes para tu tarea de IA.

Requisitos de memoria de inferencia de Gemma 4

En la siguiente tabla, se detallan los requisitos aproximados de memoria de GPU o TPU para ejecutar la inferencia con cada tamaño de las versiones del modelo de Gemma 4.

Parámetros	BF16 (16 bits)	SFP8 (8 bits)	Q4_0 (4 bits)	Dispositivos móviles	Dispositivos móviles (solo texto)
Gemma 4 E2B	11.4 GB	5.7 GB	2.9 GB	1.1 GB	0.84 GB
Gemma 4 E4B	17.9 GB	8.9 GB	4.5 GB	2.5 GB	2.2 GB
Gemma 4 12B	26.7 GB	13.4 GB	6.7 GB	-	-
Gemma 4 26B A4B	57.7 GB	28.8 GB	14.4 GB	-	-
Gemma 4 31B	69.9 GB	34.9 GB	17.5 GB	-	-

Tabla 1: Memoria aproximada de GPU o TPU necesaria para cargar modelos de Gemma 4 según el recuento de parámetros, el nivel de cuantización y el 20% de sobrecarga de carga de elementos adicionales Las versiones para dispositivos móviles usan LiteRT-LM.

Consideraciones clave para la planificación de la memoria

Arquitectura eficiente (E2B y E4B): La "E" significa parámetros "efectivos". Los modelos más pequeños incorporan incorporaciones por capa (PLE) para maximizar la eficiencia de los parámetros en las implementaciones en el dispositivo. En lugar de agregar más capas al modelo, PLE le da a cada capa de decodificador su propia incorporación pequeña para cada token. Estas tablas de incorporación son grandes, pero solo se usan para búsquedas rápidas, por lo que la memoria total necesaria para cargar pesos estáticos es mayor de lo que sugiere el recuento de parámetros efectivos.
La arquitectura MoE (26B A4B): El 26B es un modelo de mezcla de expertos. Si bien solo activa 4,000 millones de parámetros por token durante la generación, se deben cargar los 26,000 millones de parámetros en la memoria para mantener velocidades rápidas de enrutamiento e inferencia. Por este motivo, su requisito de memoria de referencia está mucho más cerca de un modelo denso de 26B que de un modelo de 4B.
Solo pesos base: Las estimaciones de la tabla anterior solo tienen en cuenta la memoria necesaria para cargar los pesos del modelo estático. No incluyen la VRAM adicional necesaria para admitir software ni la ventana de contexto.
Ventana de contexto (caché KV): El consumo de memoria aumentará de forma dinámica según la cantidad total de tokens en tu instrucción y la respuesta generada. Las ventanas de contexto más grandes requieren mucha más VRAM además de los pesos del modelo base.
Sobrecarga de ajuste: Los requisitos de memoria para el ajuste de los modelos de Gemma son mucho más altos que para la inferencia estándar. Tu huella exacta dependerá en gran medida del framework de desarrollo, el tamaño del lote y si usas un ajuste de precisión completa en comparación con un método de ajuste eficiente de parámetros (PEFT), como la adaptación de bajo rango (LoRA).

Entrenamiento sobre la cuantización (QAT)

Para las implementaciones que requieren la máxima eficiencia con un compromiso mínimo de calidad, Gemma ofrece modelos oficiales de entrenamiento sobre la cuantización (QAT).

A diferencia de la cuantización posterior al entrenamiento (PTQ) estándar, que comprime un modelo completamente entrenado y puede provocar una degradación de la calidad, QAT integra la simulación de cuantización en el proceso de entrenamiento. Esto permite que el modelo aprenda a compensar la pérdida de precisión, lo que da como resultado modelos más pequeños que funcionan casi de forma idéntica a sus líneas de base de alta precisión.

Tabla de enrutamiento rápido

Motor de destino de implementación	Sufijo de descarga	Caso de uso principal
llama.cpp / LM Studio (local)	`{model-name}-qat-q4_0-gguf`	Implementación local sin configuración en CPU, Apple Silicon o GPUs de consumidor
vLLM / SGLang	SERVIDOR: `{model-name}-qat-w4a16-ct` DISPOSITIVOS MÓVILES: `{model-name}-qat-mobile-ct`	Inferencia de alto rendimiento que utiliza pesos de 4 bits con activaciones de 16 bits
Decodificación especulativa	MODELO: `{model-name}-qat-q4_0-unquantized` BORRADOR: `{model-name}-qat-q4_0-unquantized-assistant`	Ejecución de un modelo principal junto con su modelo de borrador MTP coincidente para acelerar drásticamente la generación de tokens El modelo debe estar cuantificado.
Otros formatos	`{model-name}-qat-q4_0-unquantized`	Pesos no cuantificados para la conversión a otros formatos (p.ej., MLX)
Implementación para dispositivos móviles (Transformers)	`{model-name}-qat-mobile-transformers`	Pesos perimetrales optimizados para casos de uso de dispositivos móviles Sirven como referencia para otros formatos.

Colecciones oficiales de QAT en Hugging Face

collections/google/gemma-4-qat-q4-0
- Puntos de control de QAT no cuantificados (-unquantized / -assistant): Pesos de media precisión extraídos directamente de la canalización de QAT Son ideales para la compilación personalizada en etapas posteriores, la investigación o la ejecución de la decodificación especulativa con los modelos de borrador del asistente. Disponible para Gemma 4 E2B, E4B, 12B, 26B A4B y 31B.
- GGUF (-gguf): Puntos de control disponibles para la compatibilidad inmediata en todo el ecosistema local de LLM Disponible para Gemma 4 E2B, E4B, 12B, 26B A4B y 31B.
- Tensores comprimidos (-w4a16-ct): Serializados de forma nativa en el estándar compressed-tensors para la publicación optimizada en la nube de alta simultaneidad Disponible para Gemma 4 E2B, E4B, 12B y 31B.
collections/google/gemma-4-qat-mobile
- Optimizado para dispositivos móviles (-mobile-transformers / -mobile-ct): Se basa en un esquema wNa8o8 personalizado diseñado específicamente para los límites de hardware de dispositivos móviles. Utiliza capas de decodificación de 2 bits segmentadas, cachés KV optimizadas y activaciones estáticas para maximizar el ahorro de RAM en el dispositivo sin bloquear los procesadores perimetrales. Disponible para Gemma 4 E2B y E4B.

También se puede acceder a todos los puntos de control oficiales de QAT de Gemma 4 directamente desde Kaggle.

Modelos anteriores de Gemma

Puedes trabajar con generaciones anteriores de modelos de Gemma, que también están disponibles en Kaggle y Hugging Face. Para obtener más detalles técnicos sobre los modelos anteriores de Gemma, consulta las siguientes páginas de tarjetas de modelo:

Tarjeta de modelo de Gemma 3 Tarjeta de modelo
Tarjeta de modelo de Gemma 2 Tarjeta de modelo
Tarjeta de modelo de Gemma 1 Model Card

¿Estás listo para empezar a realizar compilaciones? Comienza a usar los modelos de Gemma.