Gemma es una familia de modelos de Inteligencia Artificial generativa que puedes usar en una amplia variedad de tareas de generación, lo que incluye la búsqueda de respuestas, el resumen y el razonamiento. Los modelos de Gemma se proporcionan con pesos abiertos y permiten el uso comercial responsable, lo que te permite ajustarlos e implementarlos en tus propios proyectos y aplicaciones.
La familia de modelos de Gemma 4 abarca cuatro arquitecturas distintas diseñadas para requisitos de hardware específicos:
- Tamaños pequeños: Modelos de parámetros efectivos de 2B y 4B creados para la implementación en dispositivos móviles, perimetrales y navegadores (p. ej., Pixel y Chrome)
- Densos: Un potente modelo denso de 31B parámetros que cierra la brecha entre el rendimiento de nivel de servidor y la ejecución local
- Mixture-of-Experts: Un modelo MoE de 26B altamente eficiente diseñado para un razonamiento avanzado y de alto rendimiento
- Unificados: Un modelo de codificador de 12B parámetros gratuito para tareas multimodales, reemplazó los codificadores de visión y audio por proyecciones lineales directas de la entrada
Puedes descargar los modelos de Gemma 4 desde Kaggle y Hugging Face. Para obtener más detalles técnicos sobre Gemma 4, consulta la tarjeta de modelo. Las versiones anteriores de los modelos principales de Gemma también están disponibles para su descarga. Para obtener más información, consulta Modelos anteriores de Gemma.
Disponible en Kaggle Disponible en Hugging Face
Funciones
- Razonamiento: Todos los modelos de la familia están diseñados como razonadores altamente capaces, con modos de pensamiento configurables.
- Multimodalidades extendidas: Procesan texto, imágenes con relación de aspecto variable y compatibilidad con la resolución (todos los modelos), video, y audio (que se incluyen de forma nativa en los modelos E2B, E4B y 12B).
- Ventana de contexto aumentada: Los modelos pequeños cuentan con una ventana de contexto de 128K, mientras que los modelos medianos admiten 256K.
- Capacidades de codificación y de agentes mejoradas: Logra mejoras notables en las comparativas de codificación junto con la compatibilidad integrada para la llamada a funciones compatibilidad, lo que potencia agentes autónomos altamente capaces.
- Compatibilidad nativa con instrucciones del sistema: Gemma 4 presenta compatibilidad integrada para el rol del sistema, lo que permite conversaciones más estructuradas y controlables.
- Predicción de varios tokens: Todos los modelos de Gemma 4 (E2B, E4B, 12B, 31B y 26B A4B) incluyen un modelo de borrador dedicado para la decodificación especulativa, lo que permite una inferencia significativamente más rápida sin pérdida de calidad.
Tamaños de parámetros y cuantización
Los modelos de Gemma 4 están disponibles en 5 tamaños de parámetros: E2B, E4B, 12B, 31B y 26B A4B. Los modelos se pueden usar con su precisión predeterminada (16 bits) o con una precisión más baja mediante la cuantización. Los diferentes tamaños y precisiones representan un conjunto de compensaciones para tu aplicación de IA. Los modelos con parámetros y recuentos de bits más altos (mayor precisión) suelen ser más capaces, pero son más costosos de ejecutar en términos de ciclos de procesamiento, costo de memoria y consumo de energía. Los modelos con parámetros y recuentos de bits más bajos (menor precisión) tienen menos capacidades, pero pueden ser suficientes para tu tarea de IA.
Requisitos de memoria de inferencia de Gemma 4
En la siguiente tabla, se detallan los requisitos aproximados de memoria de GPU o TPU para ejecutar la inferencia con cada tamaño de las versiones del modelo de Gemma 4.
| Parámetros | BF16 (16 bits) | SFP8 (8 bits) | Q4_0 (4 bits) | Dispositivos móviles | Dispositivos móviles (solo texto) |
|---|---|---|---|---|---|
| Gemma 4 E2B | 11.4 GB | 5.7 GB | 2.9 GB | 1.1 GB | 0.84 GB |
| Gemma 4 E4B | 17.9 GB | 8.9 GB | 4.5 GB | 2.5 GB | 2.2 GB |
| Gemma 4 12B | 26.7 GB | 13.4 GB | 6.7 GB | - | - |
| Gemma 4 26B A4B | 57.7 GB | 28.8 GB | 14.4 GB | - | - |
| Gemma 4 31B | 69.9 GB | 34.9 GB | 17.5 GB | - | - |
Tabla 1: Memoria aproximada de GPU o TPU necesaria para cargar modelos de Gemma 4 según el recuento de parámetros, el nivel de cuantización y el 20% de sobrecarga de la carga de elementos adicionales Las versiones para dispositivos móviles usan LiteRT-LM.
Consideraciones clave para la planificación de la memoria
- Arquitectura eficiente (E2B y E4B): La "E" significa parámetros "efectivos". Los modelos más pequeños incorporan incorporaciones por capa (PLE) para maximizar la eficiencia de los parámetros en las implementaciones integrado en el dispositivo. En lugar de agregar más capas al modelo, PLE le da a cada capa de decodificador su propia incorporación pequeña para cada token. Estas tablas de incorporación son grandes, pero solo se usan para búsquedas rápidas, por lo que la memoria total necesaria para cargar pesos estáticos es mayor que lo que sugiere el recuento de parámetros efectivos.
- La arquitectura MoE (26B A4B): El 26B es un modelo de mezcla de expertos. Si bien solo activa 4,000 millones de parámetros por token durante la generación, se deben cargar en la memoria los 26,000 millones de parámetros para mantener velocidades rápidas de enrutamiento e inferencia. Por este motivo, su requisito de memoria de referencia está mucho más cerca de un modelo denso de 26B que de un modelo de 4B.
- Solo pesos base: Las estimaciones de la tabla anterior solo tienen en cuenta la memoria necesaria para cargar los pesos del modelo estático. No incluyen la VRAM adicional necesaria para admitir software ni la ventana de contexto.
- Ventana de contexto (caché KV): El consumo de memoria aumentará de forma dinámica según la cantidad total de tokens en tu instrucción y la respuesta generada. Las ventanas de contexto más grandes requieren mucha más VRAM además de los pesos del modelo base.
- Sobrecarga de ajuste: Los requisitos de memoria para ajustar los modelos de Gemma son mucho más altos que para la inferencia estándar. Tu espacio exacto dependerá en gran medida del framework de desarrollo, el tamaño del lote y si usas un ajuste de precisión completa en comparación con un método de ajuste eficiente de parámetros (PEFT), como la adaptación de rango bajo (LoRA).
Entrenamiento sobre la cuantización (QAT)
Para las implementaciones que requieren la máxima eficiencia con un compromiso mínimo de calidad, Gemma ofrece modelos oficiales de entrenamiento sobre la cuantización (QAT).
A diferencia de la cuantización posterior al entrenamiento (PTQ) estándar, que comprime un modelo completamente entrenado y puede provocar una degradación de la calidad, QAT integra la simulación de cuantización en el proceso de entrenamiento. Esto permite que el modelo aprenda a compensar la pérdida de precisión, lo que da como resultado modelos más pequeños que funcionan casi de forma idéntica a sus líneas de base de alta precisión.
Tabla de enrutamiento rápido
| Motor de destino de implementación | Sufijo de descarga | Caso de uso principal |
|---|---|---|
| llama.cpp / LM Studio (local) | {model-name}-qat-q4_0-gguf |
Implementación local sin configuración en CPU, Apple Silicon o GPUs de consumidor |
| vLLM / SGLang | SERVIDOR: {model-name}-qat-w4a16-ctDISPOSITIVOS MÓVILES: {model-name}-qat-mobile-ct |
Inferencia de alto rendimiento que utiliza pesos de 4 bits con activaciones de 16 bits |
| Decodificación especulativa | MODELO: {model-name}-qat-q4_0-unquantizedBORRADOR: {model-name}-qat-q4_0-unquantized-assistant |
Ejecución de un modelo principal junto con su modelo de borrador MTP coincidente para acelerar drásticamente la generación de tokens (el modelo debe estar cuantizado) |
| Otros formatos | {model-name}-qat-q4_0-unquantized |
Pesos no cuantizados para la conversión a otros formatos (p.ej., MLX) |
| Implementación para dispositivos móviles (Transformers) | {model-name}-qat-mobile-transformers |
Pesos perimetrales optimizados para casos de uso de dispositivos móviles (sirven como referencia para otros formatos) |
Colecciones oficiales de QAT en Hugging Face
- collections/google/gemma-4-qat-q4-0
- Puntos de control de QAT no cuantizados (
-unquantized/-assistant): Pesos de media precisión extraídos directamente de la canalización de QAT (son ideales para la compilación, la investigación o la ejecución de decodificación especulativa personalizada en etapas posteriores con los modelos de borrador del asistente) Disponible para Gemma 4 E2B, E4B, 12B, 26B A4B y 31B - GGUF (
-gguf): Puntos de control disponibles para la compatibilidad inmediata en todo el ecosistema local de LLM Disponible para Gemma 4 E2B, E4B, 12B, 26B A4B y 31B - Tensores comprimidos (
-w4a16-ct): Serializados de forma nativa en el estándarcompressed-tensorspara la publicación optimizada y de alta simultaneidad en la nube Disponible para Gemma 4 E2B, E4B, 12B y 31B
- Puntos de control de QAT no cuantizados (
- collections/google/gemma-4-qat-mobile
- Optimizado para dispositivos móviles (
-mobile-transformers/-mobile-ct): Creado en un esquemawNa8o8personalizado diseñado específicamente para los límites de hardware de dispositivos móviles utiliza capas de decodificación de 2 bits segmentadas, cachés KV optimizadas y activaciones estáticas para maximizar el ahorro de RAM integrado en el dispositivo sin bloquear los procesadores perimetrales Disponible para Gemma 4 E2B y E4B
- Optimizado para dispositivos móviles (
También se puede acceder a todos los puntos de control oficiales de QAT de Gemma 4 directamente desde Kaggle.
Modelos anteriores de Gemma
Puedes trabajar con generaciones anteriores de modelos de Gemma, que también están disponibles en Kaggle y Hugging Face. Para obtener más detalles técnicos sobre los modelos anteriores de Gemma, consulta las siguientes páginas de fichas del modelo:
- Tarjeta de modelo de Gemma 3 Tarjeta de modelo
- Tarjeta de modelo de Gemma 2 Tarjeta de modelo
- Tarjeta de modelo de Gemma 1 Model Card
¿Estás listo para empezar a realizar compilaciones? Comienza a usar los modelos de Gemma.