Gemma es una familia de modelos de inteligencia artificial generativa que puedes usar en una amplia variedad de tareas de generación, como la búsqueda de respuestas, el resumen y el razonamiento. Los modelos de Gemma se proporcionan con pesos abiertos y permiten el uso comercial responsable, lo que te permite ajustarlos e implementarlos en tus propios proyectos y aplicaciones.
La familia de modelos de Gemma 4 abarca tres arquitecturas distintas diseñadas para requisitos de hardware específicos:
- Tamaños pequeños: Modelos de parámetros efectivos de 2, 000 millones y 4, 000 millones creados para la implementación en dispositivos móviles, perimetrales y navegadores (p.ej., Pixel y Chrome)
- Densos: Un potente modelo denso de 31,000 millones de parámetros que cierra la brecha entre el rendimiento de nivel de servidor y la ejecución local
- Mixture-of-Experts: Un modelo MoE de 26, 000 millones altamente eficiente diseñado para un alto rendimiento y un razonamiento avanzado
Puedes descargar los modelos de Gemma 4 desde Kaggle y Hugging Face. Para obtener más detalles técnicos sobre Gemma 4, consulta la tarjeta de modelo. Las versiones anteriores de los modelos principales de Gemma también están disponibles para descargar. Para obtener más información, consulta Modelos anteriores de Gemma.
Obtener en Kaggle Obtener en Hugging Face
Funciones
- Razonamiento: Todos los modelos de la familia están diseñados como razonadores altamente capaces, con modos de pensamiento configurables.
- Multimodalidades extendidas: Procesa texto, imágenes con relación de aspecto variable y compatibilidad con la resolución (todos los modelos), video, y audio (que se incluyen de forma nativa en los modelos E2B y E4B).
- Ventana de contexto aumentada: Los modelos pequeños cuentan con una ventana de contexto de 128,000, mientras que los modelos medianos admiten 256,000.
- Capacidades mejoradas de codificación y de agentes: Logra mejoras notables en los comparativos de codificación junto con la compatibilidad integrada de llamadas a funciones support, lo que potencia agentes autónomos altamente capaces.
- Compatibilidad nativa con instrucciones del sistema: Gemma 4 presenta compatibilidad integrada con el rol del sistema, lo que permite conversaciones más estructuradas y controlables.
- Predicción de varios tokens: Todos los modelos de Gemma 4 (E2B, E4B, 31B y 26B A4B) incluyen un modelo de borrador dedicado para la decodificación especulativa, lo que permite una inferencia significativamente más rápida sin pérdida de calidad.
Tamaños de parámetros y cuantización
Los modelos de Gemma 4 están disponibles en 4 tamaños de parámetros: E2B, E4B, 31B y 26B A4B. Los modelos se pueden usar con su precisión predeterminada (16 bits) o con una precisión más baja mediante la cuantización. Los diferentes tamaños y precisiones representan un conjunto de compensaciones para tu aplicación de IA. Los modelos con parámetros y recuentos de bits más altos (mayor precisión) suelen ser más capaces, pero son más costosos de ejecutar en términos de ciclos de procesamiento, costo de memoria y consumo de energía. Los modelos con parámetros y recuentos de bits más bajos (menor precisión) tienen menos capacidades, pero pueden ser suficientes para tu tarea de IA.
Requisitos de memoria de inferencia de Gemma 4
En la siguiente tabla, se detallan los requisitos aproximados de memoria de GPU o TPU para ejecutar la inferencia con cada tamaño de las versiones del modelo de Gemma 4.
| Parámetros | BF16 (16 bits) | SFP8 (8 bits) | Q4_0 (4 bits) |
|---|---|---|---|
| Gemma 4 E2B | 9.6 GB | 4.6 GB | 3.2 GB |
| Gemma 4 E4B | 15 GB | 7.5 GB | 5 GB |
| Gemma 4 31B | 58.3 GB | 30.4 GB | 17.4 GB |
| Gemma 4 26B A4B | 48 GB | 25 GB | 15.6 GB |
Tabla 1: Memoria aproximada de GPU o TPU necesaria para cargar modelos de Gemma 4 según el recuento de parámetros y el nivel de cuantización
Consideraciones clave para la planificación de la memoria
- Arquitectura eficiente (E2B y E4B): La "E" significa parámetros "efectivos". Los modelos más pequeños incorporan incorporaciones por capa (PLE) para maximizar la eficiencia de los parámetros en las implementaciones integrado en el dispositivo. En lugar de agregar más capas al modelo, PLE le da a cada capa de decodificador su propia incorporación pequeña para cada token. Estas tablas de embedding son grandes, pero solo se usan para búsquedas rápidas, por lo que la memoria total necesaria para cargar pesos estáticos es mayor de lo que sugiere el recuento de parámetros efectivos.
- La arquitectura MoE (26B A4B): El 26B es un modelo de mezcla de expertos. Si bien solo activa 4,000 millones de parámetros por token durante la generación, se deben cargar los 26,000 millones de parámetros en la memoria para mantener velocidades rápidas de enrutamiento e inferencia. Por este motivo, su requisito de memoria de referencia está mucho más cerca de un modelo denso de 26,000 millones que de un modelo de 4,000 millones.
- Solo pesos base: Las estimaciones de la tabla anterior solo tienen en cuenta la memoria necesaria para cargar los pesos del modelo estático. No incluyen la VRAM adicional necesaria para admitir software ni la ventana de contexto.
- Ventana de contexto (caché KV): El consumo de memoria aumentará de forma dinámica según la cantidad total de tokens en tu instrucción y la respuesta generada. Las ventanas de contexto más grandes requieren mucha más VRAM además de los pesos del modelo base.
- Sobrecarga de ajuste: Los requisitos de memoria para ajustar los modelos de Gemma son mucho más altos que para la inferencia estándar. Tu espacio exacto dependerá en gran medida del framework de desarrollo, el tamaño del lote y si usas el ajuste de precisión completa en comparación con un método de ajuste eficiente de parámetros (PEFT) como la adaptación de bajo rango (LoRA).
Modelos anteriores de Gemma
Puedes trabajar con generaciones anteriores de modelos de Gemma, que también están disponibles en Kaggle y Hugging Face. Para obtener más detalles técnicos sobre los modelos anteriores de Gemma, consulta las siguientes páginas de tarjetas de modelo:
- Tarjeta de modelo de Gemma 3 Tarjeta de modelo
- Tarjeta de modelo de Gemma 2 Tarjeta de modelo
- Tarjeta de modelo de Gemma 1 Model Card
¿Estás listo para empezar a realizar compilaciones? Comienza a usar los modelos de Gemma.