Gemma es una familia de modelos de inteligencia artificial generativa que puedes usar en una amplia variedad de tareas de generación, como la búsqueda de respuestas, el resumen y el razonamiento. Los modelos de Gemma se proporcionan con pesos abiertos y permiten el uso comercial responsable, lo que te permite ajustarlos y, luego, implementarlos en tus propios proyectos y aplicaciones.
La familia de modelos Gemma 4 abarca cuatro arquitecturas distintas adaptadas a requisitos de hardware específicos:
- Tamaños pequeños: Modelos de parámetros efectivos de 2B y 4B creados para la implementación en dispositivos ultraportátiles, perimetrales y navegadores (p.ej., Pixel y Chrome).
- Denso: Un potente modelo denso de 31 mil millones de parámetros que cierra la brecha entre el rendimiento de nivel de servidor y la ejecución local.
- Mixture-of-Experts: Un modelo de MoE de 26B altamente eficiente diseñado para un procesamiento avanzado de alto rendimiento.
- Unificado: Es un modelo de codificador gratuito con 12 mil millones de parámetros para tareas multimodales, que reemplazó los codificadores de audio y visión por proyecciones lineales directas de la entrada.
Puedes descargar los modelos de Gemma 4 desde Kaggle y Hugging Face. Para obtener más detalles técnicos sobre Gemma 4, consulta la tarjeta de modelo. También se pueden descargar versiones anteriores de los modelos principales de Gemma. Para obtener más información, consulta Modelos anteriores de Gemma.
Obtener en Kaggle Obtener en Hugging Face
Funciones
- Razonamiento: Todos los modelos de la familia están diseñados como razonadores altamente capaces, con modos de razonamiento configurables.
- Multimodalidades extendidas: Procesa texto, imágenes con compatibilidad con relaciones de aspecto y resoluciones variables (todos los modelos), videos y audio (se incluye de forma nativa en los modelos E2B, E4B y 12B).
- Ventana de contexto aumentada: Los modelos pequeños tienen una ventana de contexto de 128 000, mientras que los modelos medianos admiten 256 000.
- Capacidades mejoradas de codificación y de agente: Logra mejoras notables en las comparativas de codificación junto con la compatibilidad integrada con llamadas a funciones, lo que potencia a los agentes autónomos altamente capaces.
- Compatibilidad nativa con instrucciones del sistema: Gemma 4 introduce compatibilidad integrada con el rol del sistema, lo que permite conversaciones más estructuradas y controlables.
- Predicción de varios tokens: Todos los modelos de Gemma 4 (E2B, E4B, 12B, 31B y 26B A4B) incluyen un modelo de borrador dedicado para la decodificación especulativa, lo que permite una inferencia significativamente más rápida sin pérdida de calidad.
Tamaños de los parámetros y cuantización
Los modelos de Gemma 4 están disponibles en 5 tamaños de parámetros: E2B, E4B, 12B, 31B y 26B A4B. Los modelos se pueden usar con su precisión predeterminada (16 bits) o con una precisión más baja a través de la cuantificación. Los diferentes tamaños y precisiones representan un conjunto de compensaciones para tu aplicación de IA. En general, los modelos con más parámetros y recuentos de bits (mayor precisión) son más capaces, pero son más costosos de ejecutar en términos de ciclos de procesamiento, costo de memoria y consumo de energía. Los modelos con menos parámetros y recuentos de bits (menor precisión) tienen menos capacidades, pero pueden ser suficientes para tu tarea de IA.
Requisitos de memoria de inferencia de Gemma 4
En la siguiente tabla, se detallan los requisitos aproximados de memoria de la GPU o TPU para ejecutar la inferencia con cada tamaño de las versiones del modelo de Gemma 4.
| Parámetros | BF16 (16 bits) | SFP8 (8 bits) | Q4_0 (4 bits) | Dispositivos móviles | Dispositivos móviles (solo texto) |
|---|---|---|---|---|---|
| Gemma 4 E2B | 11.4 GB | 5.7 GB | 2.9 GB | 1.1 BG | 0.84 GB |
| Gemma 4 E4B | 17.9 GB | 8.9 GB | 4.5 GB | 2.5 GB | 2.2 GB |
| Gemma 4 12B | 26.7 GB | 13.4 GB | 6.7 GB | - | - |
| Gemma 4 26B A4B | 57.7 GB | 28.8 GB | 14.4 GB | - | - |
| Gemma 4 31B | 69.9 GB | 34.9 GB | 17.5 GB | - | - |
Tabla 1: Memoria aproximada de GPU o TPU necesaria para cargar los modelos de Gemma 4 según el recuento de parámetros, el nivel de cuantización y el 20% de sobrecarga de la carga de elementos adicionales. Las versiones para dispositivos móviles usan LiteRT-LM.
Consideraciones clave para la planificación de la memoria
- Arquitectura eficiente (E2B y E4B): La "E" significa parámetros "eficaces". Los modelos más pequeños incorporan la técnica de Per-Layer Embeddings (PLE) para maximizar la eficiencia de los parámetros en las implementaciones integrado en el dispositivo. En lugar de agregar más capas al modelo, PLE le proporciona a cada capa del decodificador su propia incorporación pequeña para cada token. Estas tablas de incorporación son grandes, pero solo se usan para búsquedas rápidas, por lo que la memoria total necesaria para cargar los pesos estáticos es mayor de lo que sugiere el recuento de parámetros efectivos.
- La arquitectura de MoE (26B A4B): El modelo de 26B es una mezcla de expertos. Si bien solo activa 4,000 millones de parámetros por token durante la generación, todos los 26,000 millones de parámetros deben cargarse en la memoria para mantener velocidades rápidas de enrutamiento y de inferencia. Por eso, su requisito de memoria de referencia está mucho más cerca de un modelo denso de 26B que de un modelo de 4B.
- Solo pesos base: Las estimaciones de la tabla anterior solo tienen en cuenta la memoria necesaria para cargar los pesos del modelo estático. No incluyen la VRAM adicional necesaria para el software de asistencia o la ventana de contexto.
- Ventana de contexto (caché de KV): El consumo de memoria aumentará de forma dinámica según la cantidad total de tokens en tu instrucción y la respuesta generada. Las ventanas de contexto más grandes requieren mucha más VRAM además de los pesos del modelo base.
- Sobrecarga del ajuste: Los requisitos de memoria para el ajuste de los modelos de Gemma son mucho más altos que para la inferencia estándar. Tu huella exacta dependerá en gran medida del framework de desarrollo, el tamaño del lote y si usas un ajuste de precisión completa o un método de ajuste eficiente de parámetros (PEFT) como la adaptación de bajo rango (LoRA).
Entrenamiento sobre la cuantización (QAT)
Para las implementaciones que requieren la máxima eficiencia con una calidad mínima, Gemma ofrece modelos oficiales de entrenamiento con reconocimiento de la cuantización (QAT).
A diferencia de la cuantización posterior al entrenamiento (PTQ) estándar, que comprime un modelo completamente entrenado y puede provocar una degradación de la calidad, la QAT integra la simulación de cuantización en el proceso de entrenamiento. Esto permite que el modelo aprenda a compensar la pérdida de precisión, lo que genera modelos más pequeños que funcionan casi de forma idéntica a sus modelos de referencia de alta precisión.
Tabla de enrutamiento rápido
| Motor de implementación de destino | Sufijo de descarga | Caso de uso principal |
|---|---|---|
| llama.cpp / LM Studio (local) | {model-name}-qat-q4_0-gguf |
Implementación local sin configuración en CPU, Apple Silicon o GPU para el consumidor |
| vLLM / SGLang | SERVIDOR: {model-name}-qat-w4a16-ctMÓVIL: {model-name}-qat-mobile-ct |
Inferencia de alto rendimiento que utiliza pesos de 4 bits con activaciones de 16 bits. |
| Decodificación especulativa | MODELO: {model-name}-qat-q4_0-unquantizedDRAFTER: {model-name}-qat-q4_0-unquantized-assistant |
Ejecuta un modelo principal junto con su modelo de borrador de MTP correspondiente para acelerar drásticamente la generación de tokens. El modelo debe estar cuantificado. |
| Otros formatos | {model-name}-qat-q4_0-unquantized |
Ponderaciones sin cuantificar para convertir a otros formatos (p.ej., MLX) |
| Implementación para dispositivos móviles (Transformers) | {model-name}-qat-mobile-transformers |
Son pesos de borde optimizados para casos de uso en dispositivos móviles que sirven como referencia para otros formatos. |
Colecciones oficiales de QAT en Hugging Face
- collections/google/gemma-4-qat-q4_0
- Puntos de control de QAT sin cuantificar (
-unquantized/-assistant): Son pesos de media precisión extraídos directamente de la canalización de QAT. Son ideales para la compilación, la investigación o la ejecución de decodificación especulativa personalizadas en etapas posteriores con los modelos de borrador del asistente. Disponible para Gemma 4 E2B, E4B, 12B, 26B A4B y 31B. - GGUF (
-gguf): Puntos de control disponibles para la compatibilidad inmediata en todo el ecosistema de LLM local. Disponible para Gemma 4 E2B, E4B, 12B, 26B A4B y 31B. - Tensores comprimidos (
-w4a16-ct): Se serializan de forma nativa en el estándarcompressed-tensorspara la entrega optimizada y de alta simultaneidad en la nube. Disponible para Gemma 4 E2B, E4B, 12B y 31B.
- Puntos de control de QAT sin cuantificar (
- collections/google/gemma-4-qat-mobile
- Optimizado para dispositivos móviles (
-mobile-transformers/-mobile-ct): Se basa en un esquemawNa8o8personalizado diseñado específicamente para los límites de hardware de los dispositivos móviles. Utiliza capas de decodificación de 2 bits segmentadas, cachés de KV optimizadas y activaciones estáticas para maximizar el ahorro de RAM integrado en el dispositivo sin sobrecargar los procesadores perimetrales. Disponible para Gemma 4 E2B y E4B.
- Optimizado para dispositivos móviles (
También se puede acceder a todos los puntos de control de QAT oficiales de Gemma 4 directamente desde Kaggle.
Modelos anteriores de Gemma
Puedes trabajar con generaciones anteriores de los modelos de Gemma, que también están disponibles en Kaggle y Hugging Face. Para obtener más detalles técnicos sobre los modelos anteriores de Gemma, consulta las siguientes páginas de fichas del modelo:
- Tarjeta de modelo de Gemma 3
- Tarjeta de modelo de Gemma 2
- Tarjeta de modelo de Gemma 1
¿Estás listo para empezar a realizar compilaciones? Comienza a usar los modelos de Gemma.