Gemma es una familia de modelos de inteligencia artificial generativa que puedes usar en una amplia variedad de tareas de generación, como la búsqueda de respuestas, el resumen y el razonamiento. Los modelos de Gemma se proporcionan con pesos abiertos y permiten el uso comercial responsable, lo que te permite ajustarlos e implementarlos en tus propios proyectos y aplicaciones.
La familia de modelos de Gemma 4 abarca tres arquitecturas distintas diseñadas para requisitos de hardware específicos:
- Tamaños pequeños: Modelos de parámetros efectivos de 2B y 4B creados para la implementación en dispositivos móviles, perimetrales y navegadores (p.ej., Pixel y Chrome).
- Densos: Un potente modelo denso de 31B parámetros que une la brecha entre el rendimiento de nivel de servidor y la ejecución local.
- Mixture-of-Experts: Un modelo MoE de 26B altamente eficiente diseñado para un alto rendimiento y un razonamiento avanzado.
Puedes descargar los modelos de Gemma 4 desde Kaggle y Hugging Face. Para obtener más detalles técnicos sobre Gemma 4, consulta la tarjeta de modelo. Las versiones anteriores de los modelos principales de Gemma también están disponibles para descargar. Para obtener más información, consulta Modelos anteriores de Gemma.
Disponible en Kaggle Disponible en Hugging Face
Funciones
- Razonamiento: Todos los modelos de la familia están diseñados como razonadores altamente capaces, con modos de pensamiento configurables.
- Multimodalidades extendidas: Procesa texto, imágenes con relación de aspecto variable y compatibilidad con resolución (todos los modelos), video, y audio (que se incluyen de forma nativa en los modelos E2B y E4B).
- Ventana de contexto aumentada: Los modelos pequeños cuentan con una ventana de contexto de 128K, mientras que los modelos medianos admiten 256K.
- Capacidades de codificación y de agentes mejoradas: Logra mejoras notables en las comparativas de codificación junto con la compatibilidad integrada para la llamada a funciones compatibilidad, lo que potencia agentes autónomos altamente capaces.
- Compatibilidad nativa con instrucciones del sistema: Gemma 4 presenta compatibilidad integrada para el rol del sistema, lo que permite conversaciones más estructuradas y controlables.
Tamaños de parámetros y cuantización
Los modelos de Gemma 4 están disponibles en 4 tamaños de parámetros: E2B, E4B, 31B y 26B A4B. Los modelos se pueden usar con su precisión predeterminada (16 bits) o con una precisión más baja mediante la cuantización. Los diferentes tamaños y precisiones representan un conjunto de compensaciones para tu aplicación de IA. Los modelos con parámetros y recuentos de bits más altos (mayor precisión) suelen ser más capaces, pero son más costosos de ejecutar en términos de ciclos de procesamiento, costo de memoria y consumo de energía. Los modelos con parámetros y recuentos de bits más bajos (menor precisión) tienen menos capacidades, pero pueden ser suficientes para tu tarea de IA.
Requisitos de memoria de inferencia de Gemma 4
En la siguiente tabla, se detallan los requisitos aproximados de memoria de GPU o TPU para ejecutar la inferencia con cada tamaño de las versiones del modelo de Gemma 4.
| Parámetros | BF16 (16 bits) | SFP8 (8 bits) | Q4_0 (4 bits) |
|---|---|---|---|
| Gemma 4 E2B | 9.6 GB | 4.6 GB | 3.2 GB |
| Gemma 4 E4B | 15 GB | 7.5 GB | 5 GB |
| Gemma 4 31B | 58.3 GB | 30.4 GB | 17.4 GB |
| Gemma 4 26B A4B | 48 GB | 25 GB | 15.6 GB |
Tabla 1: Memoria aproximada de GPU o TPU necesaria para cargar modelos de Gemma 4 según el recuento de parámetros y el nivel de cuantización
Consideraciones clave para la planificación de la memoria
- Arquitectura eficiente (E2B y E4B): La "E" significa parámetros "efectivos". Los modelos más pequeños incorporan incorporaciones por capa (PLE) para maximizar la eficiencia de los parámetros en las implementaciones en el dispositivo. En lugar de agregar más capas al modelo, PLE le da a cada capa de decodificador su propia incorporación pequeña para cada token. Estas tablas de incorporación son grandes, pero solo se usan para búsquedas rápidas, por lo que la memoria total necesaria para cargar pesos estáticos es mayor de lo que sugiere el recuento de parámetros efectivos.
- La arquitectura MoE (26B A4B): El 26B es un modelo de mezcla de expertos. Si bien solo activa 4,000 millones de parámetros por token durante la generación, se deben cargar los 26,000 millones de parámetros en la memoria para mantener velocidades rápidas de enrutamiento e inferencia. Por este motivo, su requisito de memoria de referencia está mucho más cerca de un modelo denso de 26B que de un modelo de 4B.
- Solo pesos base: Las estimaciones de la tabla anterior solo tienen en cuenta la memoria necesaria para cargar los pesos del modelo estático. No incluyen la VRAM adicional necesaria para admitir software ni la ventana de contexto.
- Ventana de contexto (caché KV): El consumo de memoria aumentará de forma dinámica según la cantidad total de tokens en tu instrucción y la respuesta generada. Las ventanas de contexto más grandes requieren mucha más VRAM además de los pesos del modelo base.
- Sobrecarga de ajuste: Los requisitos de memoria para ajustar los modelos de Gemma son mucho más altos que para la inferencia estándar. Tu espacio exacto dependerá en gran medida del framework de desarrollo, el tamaño del lote y si usas el ajuste de precisión completa en comparación con un método de ajuste eficiente de parámetros (PEFT), como la adaptación de rango bajo (LoRA).
Modelos anteriores de Gemma
Puedes trabajar con generaciones anteriores de modelos de Gemma, que también están disponibles en Kaggle y Hugging Face. Para obtener más detalles técnicos sobre los modelos anteriores de Gemma, consulta las siguientes páginas de tarjetas de modelo:
- Tarjeta de modelo de Gemma 3 Tarjeta de modelo
- Tarjeta de modelo de Gemma 2 Tarjeta de modelo
- Tarjeta de modelo de Gemma 1 Model Card
¿Estás listo para empezar a realizar compilaciones? Comienza a usar los modelos de Gemma.