Página del modelo: Gemma
Recursos y documentación técnica:
- Informe técnico de Gemma 3
- Kit de herramientas de IA generativa responsable
- Gemma en Kaggle
- Gemma en Vertex Model Garden
Condiciones de Uso: Condiciones
Autores: Google DeepMind
Información del modelo
Descripción resumida y definición breve de las entradas y salidas.
Descripción
Gemma es una familia de modelos abiertos, livianos y de vanguardia de Google, compilados a partir de la misma investigación y tecnología que se usaron para crear los modelos Gemini. Los modelos de Gemma 3 son multimodales, manejan entradas de texto e imágenes y generan salidas de texto, con pesos abiertos para las variantes previamente entrenadas y las variantes ajustadas a instrucciones. Gemma 3 tiene una ventana de contexto grande de 128K, compatibilidad con varios idiomas en más de 140 idiomas y está disponible en más tamaños que las versiones anteriores. Los modelos de Gemma 3 son adecuados para una variedad de tareas de generación de texto y comprensión de imágenes, como la respuesta a preguntas, el resumen y el razonamiento. Su tamaño relativamente pequeño permite implementarlos en entornos con recursos limitados, como laptops, computadoras de escritorio o tu propia infraestructura de nube, lo que democratiza el acceso a modelos de IA de vanguardia y ayuda a fomentar la innovación para todos.
Entradas y salidas
Entrada:
- Cadena de texto, como una pregunta, una instrucción o un documento que se resumirá
- Imágenes, normalizadas a una resolución de 896 x 896 y codificadas en 256 tokens cada una
- Contexto de entrada total de 128,000 tokens para los tamaños de 4,000 millones, 12,000 millones y 27,000 millones, y 32,000 tokens para el tamaño de 1,000 millones
Resultado:
- Texto generado en respuesta a la entrada, como una respuesta a una pregunta, un análisis del contenido de una imagen o un resumen de un documento
- Contexto de salida total de hasta 128,000 tokens para los tamaños de 4,000 millones, 12,000 millones y 27,000 millones, y 32,000 tokens para el tamaño de 1,000 millones por solicitud, menos los tokens de entrada de la solicitud
Cita
@article{gemma_2025,
title={Gemma 3},
url={https://arxiv.org/abs/2503.19786},
publisher={Google DeepMind},
author={Gemma Team},
year={2025}
}
Modela datos
Datos que se usaron para el entrenamiento del modelo y cómo se procesaron
Conjunto de datos de entrenamiento
Estos modelos se entrenaron con un conjunto de datos de texto que incluye una amplia variedad de fuentes. El modelo de 27,000 millones se entrenó con 14,000 millones de tokens, el de 12,000 millones se entrenó con 12,000 millones de tokens, el de 4,000 millones se entrenó con 4,000 millones de tokens y el de 1,000 millones se entrenó con 2,000 millones de tokens. La fecha límite del conocimiento para los datos de entrenamiento fue agosto de 2024. Estos son los componentes clave:
- Documentos web: Una colección diversa de texto web garantiza que el modelo esté sometido a una amplia variedad de estilos lingüísticos, temas y vocabulario. El conjunto de datos de entrenamiento incluye contenido en más de 140 idiomas.
- Código: Exponer el modelo al código lo ayuda a aprender la sintaxis y los patrones de los lenguajes de programación, lo que mejora su capacidad para generar código y comprender preguntas relacionadas con él.
- Matemáticas: El entrenamiento en texto matemático ayuda al modelo a aprender el razonamiento lógico, la representación simbólica y a abordar las consultas matemáticas.
- Imágenes: Una amplia variedad de imágenes permite que el modelo realice tareas de análisis de imágenes y extracción de datos visuales.
La combinación de estas diversas fuentes de datos es fundamental para entrenar un modelo multimodal potente que pueda controlar una amplia variedad de tareas y formatos de datos diferentes.
Procesamiento previo de los datos
Estos son los métodos clave de limpieza y filtrado de datos que se aplican a los datos de entrenamiento:
- Filtrado de CSAM: Se aplicó un filtrado riguroso de CSAM (material de abuso sexual infantil) en varias etapas del proceso de preparación de datos para garantizar la exclusión de contenido dañino e ilegal.
- Filtrado de datos sensibles: Como parte del proceso para que los modelos previamente entrenados de Gemma sean seguros y confiables, se utilizaron técnicas automatizadas para filtrar cierta información personal y otros datos sensibles de los conjuntos de entrenamiento.
- Métodos adicionales: Filtrado según la calidad y seguridad del contenido en línea con nuestras políticas
Información de implementación
Detalles sobre los elementos internos del modelo.
Hardware
Gemma se entrenó con hardware de unidad de procesamiento tensorial (TPU) (TPUv4p, TPUv5p y TPUv5e). El entrenamiento de modelos de lenguaje de visión (VLM) requiere una potencia de procesamiento significativa. Las TPU, diseñadas específicamente para operaciones de matrices comunes en el aprendizaje automático, ofrecen varias ventajas en este dominio:
- Rendimiento: Las TPU están diseñadas específicamente para manejar los cálculos masivos que implican el entrenamiento de los VLM. Pueden acelerar el entrenamiento de manera considerable en comparación con las CPUs.
- Memoria: Las TPU suelen incluir grandes cantidades de memoria de gran ancho de banda, lo que permite el manejo de modelos y tamaños de lotes grandes durante el entrenamiento. Esto puede mejorar la calidad del modelo.
- Escalabilidad: Los pods de TPU (clústeres grandes de TPU) proporcionan una solución escalable para controlar la creciente complejidad de los modelos de base grandes. Puedes distribuir el entrenamiento en varios dispositivos de TPU para obtener un procesamiento más rápido y eficiente.
- Rentabilidad: En muchos casos, las TPU pueden proporcionar una solución más rentable para el entrenamiento de modelos grandes en comparación con la infraestructura basada en CPU, en especial, si se considera el tiempo y los recursos que se ahorran debido a un entrenamiento más rápido.
- Estas ventajas se alinean con los compromisos de Google de operar de manera sostenible.
Software
El entrenamiento se realizó con JAX y ML Pathways.
JAX permite a los investigadores aprovechar la última generación de hardware, incluidas las TPU, para el entrenamiento más rápido y eficiente de modelos grandes. Las rutas de acceso de AA son el esfuerzo más reciente de Google para crear sistemas de inteligencia artificial capaces de generalizarse en varias tareas. Esto es especialmente adecuado para los modelos de base, incluidos los modelos de lenguaje extensos como estos.
Juntos, JAX y ML Pathways se usan como se describe en el artículo sobre la familia de modelos de Gemini: "el modelo de programación de "controlador único" de Jax y Pathways permite que un solo proceso de Python orqueste toda la ejecución de entrenamiento, lo que simplifica en gran medida el flujo de trabajo de desarrollo".
Evaluación
Métricas y resultados de la evaluación del modelo
Resultados de las comparativas
Estos modelos se evaluaron en función de una gran colección de diferentes conjuntos de datos y métricas para abarcar diferentes aspectos de la generación de texto. Los resultados de la evaluación marcados con IT son para modelos ajustados a la instrucción. Los resultados de la evaluación marcados con PT son para modelos previamente entrenados.
Razonamiento y facticidad
Comparativa | n-shot | Gemma 3 IT 1B | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
---|---|---|---|---|---|
Diamante de GPQA | Sin ejemplos | 19.2 | 30.8 | 40.9 | 42.4 |
SimpleQA | Sin ejemplos | 2.2 | 4.0 | 6.3 | 10.0 |
Fundamentación de FACTS | - | 36.4 | 70.1 | 75.8 | 74.9 |
BIG-Bench Hard | Sin ejemplos | 39.1 | 72.2 | 85.7 | 87.6 |
BIG-Bench Extra Hard | Sin ejemplos | 7.2 | 11.0 | 16.3 | 19.3 |
IFEval | Sin ejemplos | 80.2 | 90.2 | 88.9 | 90.4 |
Comparativa | n-shot | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|---|
HellaSwag | 10 fotos | 62.3 | 77.2 | 84.2 | 85.6 |
BoolQ | Sin ejemplos | 63.2 | 72.3 | 78.8 | 82.4 |
PIQA | Sin ejemplos | 73.8 | 79.6 | 81.8 | 83.3 |
SocialIQA | Sin ejemplos | 48.9 | 51.9 | 53.4 | 54.9 |
TriviaQA | 5 tomas | 39.8 | 65.8 | 78.2 | 85.5 |
Preguntas naturales | 5 tomas | 9.48 | 20.0 | 31.4 | 36.1 |
ARC-c | 25 fotos | 38.4 | 56.2 | 68.9 | 70.6 |
ARC-e | Sin ejemplos | 73.0 | 82.4 | 88.3 | 89.0 |
WinoGrande | 5 tomas | 58.2 | 64.7 | 74.3 | 78.8 |
BIG-Bench Hard | ejemplos limitados | 28.4 | 50.9 | 72.6 | 77.7 |
DROP | 1 foto | 42.4 | 60.1 | 72.2 | 77.2 |
CTIM y código
Comparativa | n-shot | Gemma 3 IT 1B | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
---|---|---|---|---|---|
MMLU (Pro) | Sin ejemplos | 14.7 | 43.6 | 60.6 | 67.5 |
LiveCodeBench | Sin ejemplos | 1.9 | 12.6 | 24.6 | 29.7 |
Bird-SQL (versión para desarrolladores) | - | 6.4 | 36.3 | 47.9 | 54.4 |
Matemáticas | Sin ejemplos | 48.0 | 75.6 | 83.8 | 89.0 |
HiddenMath | Sin ejemplos | 15.8 | 43.0 | 54.5 | 60.3 |
MBPP | 3 tomas | 35.2 | 63.2 | 73.0 | 74.4 |
HumanEval | Sin ejemplos | 41.5 | 71.3 | 85.4 | 87.8 |
Natural2Code | Sin ejemplos | 56.0 | 70.3 | 80.7 | 84.5 |
GSM8K | Sin ejemplos | 62.8 | 89.2 | 94.4 | 95.9 |
Comparativa | n-shot | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
MMLU | 5 tomas | 59.6 | 74.5 | 78.6 |
MMLU (COT profesional) | 5 tomas | 29.2 | 45.3 | 52.2 |
AGIEval | 3-5 tomas | 42.1 | 57.4 | 66.2 |
MATH | 4 tomas | 24.2 | 43.3 | 50.0 |
GSM8K | 8 fotos | 38.4 | 71.0 | 82.6 |
GPQA | 5 tomas | 15.0 | 25.4 | 24.3 |
MBPP | 3 tomas | 46.0 | 60.4 | 65.6 |
HumanEval | Sin ejemplos | 36.0 | 45.7 | 48.8 |
Multilingüe
Comparativa | n-shot | Gemma 3 IT 1B | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
---|---|---|---|---|---|
Global-MMLU-Lite | Sin ejemplos | 34.2 | 54.5 | 69.5 | 75.1 |
ECLeKTic | Sin ejemplos | 1.4 | 4.6 | 10.3 | 16.7 |
WMT24++ | Sin ejemplos | 35.9 | 46.8 | 51.6 | 53.4 |
Comparativa | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
MGSM | 2.04 | 34.7 | 64.3 | 74.3 |
Global-MMLU-Lite | 24.9 | 57.0 | 69.4 | 75.7 |
WMT24++ (ChrF) | 36.7 | 48.4 | 53.9 | 55.7 |
FloRes | 29.5 | 39.2 | 46.0 | 48.8 |
XQuAD (todos) | 43.9 | 68.0 | 74.5 | 76.8 |
ECLeKTic | 4.69 | 11.0 | 17.2 | 24.4 |
IndicGenBench | 41.4 | 57.2 | 61.7 | 63.4 |
Multimodal
Comparativa | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
---|---|---|---|
MMMU (val) | 48.8 | 59.6 | 64.9 |
DocVQA | 75.8 | 87.1 | 86.6 |
InfoVQA | 50.0 | 64.9 | 70.6 |
TextVQA | 57.8 | 67.7 | 65.1 |
AI2D | 74.8 | 84.2 | 84.5 |
ChartQA | 68.8 | 75.7 | 78.0 |
VQAv2 (val) | 62.4 | 71.6 | 71.0 |
MathVista (testmini) | 50.0 | 62.9 | 67.6 |
Comparativa | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|
COCOcap | 102 | 111 | 116 |
DocVQA (val) | 72.8 | 82.3 | 85.6 |
InfoVQA (val) | 44.1 | 54.8 | 59.4 |
MMMU (pt) | 39.2 | 50.3 | 56.1 |
TextVQA (val) | 58.9 | 66.5 | 68.6 |
RealWorldQA | 45.5 | 52.2 | 53.9 |
ReMI | 27.3 | 38,5 | 44.8 |
AI2D | 63.2 | 75.2 | 79.0 |
ChartQA | 63.6 | 74.7 | 76.3 |
VQAv2 | 63.9 | 71.2 | 72.9 |
BLINK | 38.0 | 35.9 | 39.6 |
OKVQA | 51.0 | 58.7 | 60.2 |
TallyQA | 42.5 | 51.8 | 54.3 |
VQA de SpatialSense | 50.9 | 60.0 | 59.4 |
CountBenchQA | 26.1 | 17.8 | 68.0 |
Ética y seguridad
Enfoque y resultados de la evaluación de ética y seguridad
Enfoque de evaluación
Nuestros métodos de evaluación incluyen evaluaciones estructuradas y pruebas internas de equipo rojo de las políticas de contenido relevantes. Varios equipos diferentes realizaron el equipo rojo, cada uno con diferentes objetivos y métricas de evaluación humana. Estos modelos se evaluaron en función de varias categorías relevantes para la ética y la seguridad, como las siguientes:
- Seguridad infantil: Evaluación de instrucciones de texto a texto y de imagen a texto que abarcan las políticas de seguridad infantil, incluido el abuso y la explotación sexual infantil.
- Seguridad del contenido: Evaluación de instrucciones de texto a texto y de imagen a texto que abarcan las políticas de seguridad, como acoso, violencia y contenido sangriento, y lenguaje de odio.
- Daños de representación: Evaluación de instrucciones de texto a texto y de imagen a texto que abarcan políticas de seguridad, incluidos sesgos, estereotipos y asociaciones o imprecisiones dañinas.
Además de las evaluaciones a nivel de desarrollo, realizamos "evaluaciones de garantía", que son nuestras evaluaciones internas "independientes" para la toma de decisiones de la administración de responsabilidad. Se llevan a cabo por separado del equipo de desarrollo del modelo para fundamentar la toma de decisiones sobre el lanzamiento. Los hallazgos de alto nivel se retroalimentan al equipo del modelo, pero los conjuntos de instrucciones se reservan para evitar el sobreajuste y preservar la capacidad de los resultados para informar la toma de decisiones. Los resultados de la evaluación de garantía se informan a nuestro Consejo de Responsabilidad y Seguridad como parte de la revisión de lanzamientos.
Resultados de la evaluación
En todas las áreas de las pruebas de seguridad, observamos mejoras importantes en las categorías de seguridad infantil, seguridad del contenido y daños de representación en comparación con los modelos anteriores de Gemma. Todas las pruebas se realizaron sin filtros de seguridad para evaluar las capacidades y los comportamientos del modelo. En el caso de texto a texto y de imagen a texto, y en todos los tamaños de modelo, el modelo produjo incumplimientos mínimos de políticas y mostró mejoras significativas en el rendimiento de los modelos de Gemma anteriores en relación con las inferencias no fundamentadas. Una limitación de nuestras evaluaciones fue que solo incluyeron instrucciones en inglés.
Uso y limitaciones
Estos modelos tienen ciertas limitaciones que los usuarios deben conocer.
Uso previsto
Los modelos abiertos de lenguaje de visión (VLM) tienen una amplia variedad de aplicaciones en diferentes industrias y dominios. La siguiente lista de usos potenciales no es exhaustiva. El propósito de esta lista es proporcionar información contextual sobre los posibles casos de uso que los creadores del modelo consideraron como parte del entrenamiento y desarrollo del modelo.
- Creación de contenido y comunicación
- Generación de texto: Estos modelos se pueden usar para generar formatos de texto creativo, como poemas, guiones, código, texto de marketing y borradores de correos electrónicos.
- Chatbots y IA conversacional: Potencian las interfaces de conversación para la atención al cliente, los asistentes virtuales o las aplicaciones interactivas.
- Resumen de texto: Genera resúmenes concisos de un corpus de texto, trabajos de investigación o informes.
- Extracción de datos de imágenes: Estos modelos se pueden usar para extraer, interpretar y resumir datos visuales para comunicaciones de texto.
- Investigación y educación
- Procesamiento de lenguaje natural (PLN) y la investigación de VLM: Estos modelos pueden servir como base para que los investigadores experimenten con técnicas de VLM y PLN, desarrollen algoritmos y contribuyan al avance del campo.
- Herramientas de aprendizaje de idiomas: Admiten experiencias interactivas de aprendizaje de idiomas, ayudan a corregir la gramática o proporcionan práctica de escritura.
- Exploración de conocimiento: Ayuda a los investigadores a explorar grandes cuerpos de texto generando resúmenes o respondiendo preguntas sobre temas específicos.
Limitaciones
- Datos de entrenamiento
- La calidad y diversidad de los datos de entrenamiento influyen de manera significativa en las capacidades del modelo. Los sesgos o las lagunas en los datos de entrenamiento pueden generar limitaciones en las respuestas del modelo.
- El alcance del conjunto de datos de entrenamiento determina las áreas temáticas que el modelo puede controlar de manera eficaz.
- Contexto y complejidad de la tarea
- Los modelos son mejores en las tareas que se pueden enmarcar con instrucciones y estímulos claros. Las tareas abiertas o muy complejas pueden ser desafiantes.
- El rendimiento de un modelo puede verse influenciado por la cantidad de contexto proporcionado (un contexto más extenso suele generar mejores resultados, hasta cierto punto).
- Ambigüedad y matices del lenguaje
- El lenguaje natural es intrínsecamente complejo. Es posible que los modelos tengan dificultades para captar matices sutiles, sarcasmo o lenguaje figurado.
- Precisión fáctica
- Los modelos generan respuestas basadas en la información que aprendieron de sus conjuntos de datos de entrenamiento, pero no son bases de conocimiento. Pueden generar afirmaciones fácticas incorrectas o desactualizadas.
- Common Sense
- Los modelos se basan en patrones estadísticos en el lenguaje. Es posible que no tengan la capacidad de aplicar el razonamiento de sentido común en ciertas situaciones.
Consideraciones y riesgos éticos
El desarrollo de modelos de lenguaje visual (VLM) plantea varias inquietudes éticas. Para crear un modelo abierto, consideramos cuidadosamente lo siguiente:
- Sesgos y equidad
- Los VLM entrenados con datos de texto e imágenes del mundo real a gran escala pueden reflejar los sesgos socioculturales incorporados en el material de entrenamiento. Estos modelos se sometieron a un escrutinio cuidadoso, al procesamiento previo de los datos de entrada descrito y a las evaluaciones posteriores que se informan en esta tarjeta.
- Información errónea y uso inadecuado
- Los VLM se pueden usar de manera inadecuada para generar texto falso, engañoso o dañino.
- Se proporcionan lineamientos para el uso responsable del modelo. Consulta el kit de herramientas de IA generativa responsable.
- Transparencia y responsabilidad:
- En esta tarjeta de modelo, se resumen los detalles de la arquitectura, las capacidades, las limitaciones y los procesos de evaluación de los modelos.
- Un modelo abierto desarrollado de forma responsable ofrece la oportunidad de compartir la innovación, ya que permite que la tecnología de VLM sea accesible para los desarrolladores y los investigadores de todo el ecosistema de IA.
Riesgos identificados y mitigaciones:
- Perpetuación de sesgos: Se recomienda realizar una supervisión continua (con métricas de evaluación y revisión humana) y la exploración de técnicas de eliminación de sesgos durante el entrenamiento del modelo, el ajuste fino y otros casos de uso.
- Generación de contenido dañino: Los mecanismos y los lineamientos para la seguridad del contenido son esenciales. Se recomienda a los desarrolladores que tengan precaución y que implementen las protecciones de seguridad del contenido adecuadas según sus políticas de productos y casos de uso de aplicaciones específicos.
- Uso inadecuado con fines maliciosos: Las limitaciones técnicas y la educación de los desarrolladores y los usuarios finales pueden ayudar a mitigar las aplicaciones maliciosas de los VLM. Se proporcionan recursos educativos y mecanismos de denuncia para que los usuarios marquen el uso inadecuado. Los usos prohibidos de los modelos de Gemma se describen en la Política de Uso Prohibido de Gemma.
- Incumplimientos de la privacidad: Los modelos se entrenaron con datos filtrados para quitar cierta información personal y otros datos sensibles. Se recomienda a los desarrolladores que cumplan con las reglamentaciones de privacidad con técnicas que preserven la privacidad.
Beneficios
En el momento del lanzamiento, esta familia de modelos proporciona implementaciones de modelos de lenguaje visual abiertos de alto rendimiento diseñados desde cero para el desarrollo de IA responsable en comparación con modelos de tamaño similar.
Con las métricas de evaluación de comparativas que se describen en este documento, estos modelos demostraron brindar un rendimiento superior a otras alternativas de modelos abiertos de tamaño comparable.