Hugging Face |
GitHub |
Blog de lanzamiento |
Documentación
Licencia: Apache 2.0 | Autores: Google DeepMind
DiffusionGemma es un modelo generativo creado por Google DeepMind. Basado en la arquitectura de Gemma 4 de mezcla de expertos (MoE) A4B de 26B, DiffusionGemma genera tokens con difusión discreta. Este modelo de código abierto es multimodal y procesa entradas de texto, imágenes y video para generar texto como salida.
DiffusionGemma, que se basa en una arquitectura de MoE, se diseñó para mejorar la velocidad de generación (tokens por segundo) y, al mismo tiempo, seguir siendo apta para la implementación en diversos entornos de hardware. DiffusionGemma se basa en los avances arquitectónicos y de capacidad de Gemma 4, y presenta varias funciones principales:
- Discrete Text Diffusion: Pasa de la autorregresión token por token al muestreo autorregresivo por bloques de múltiples lienzos. Genera texto de forma iterativa, eliminando el ruido de bloques de tokens (un "lienzo") en paralelo, lo que aumenta significativamente la velocidad de decodificación.
- Procesamiento de entrada multimodal: Procesa entradas intercaladas de texto, imágenes (con compatibilidad con resolución y relación de aspecto variables) y video para generar salidas de texto.
- Arquitectura de codificador-decodificador: Utiliza un codificador autorregresivo para procesar y almacenar en caché el contexto de la instrucción, junto con un decodificador que aplica atención bidireccional sobre el lienzo de generación.
- Eficiencia de Mixture-of-Experts (MoE): Aprovecha un diseño de MoE disperso (8 expertos activos de un total de 128) para proporcionar sólidas capacidades de razonamiento y, al mismo tiempo, mantener un bajo espacio en memoria adecuado para la ejecución local.
- Modo de pensamiento (razonamiento): Se diseñó como un razonador altamente capaz, con modos de pensamiento configurables.
- Optimizado para la inferencia con tamaños de lote pequeños: Está diseñado específicamente para la generación de alta velocidad y baja latencia en un solo acelerador capaz.
- Compatibilidad nativa con instrucciones del sistema: Al igual que con Gemma 4, admite la actualización del rol de
system, lo que permite conversaciones más estructuradas y controlables.
Descripción general del modelo
DiffusionGemma se diseñó para reducir los cuellos de botella secuenciales de los modelos de lenguaje causales estándares. Emplea una arquitectura de codificador-decodificador optimizada específicamente para la velocidad de inferencia.
El codificador opera con capacidad de precompletado, procesando la instrucción inicial y generando la caché de KV. Luego, el decodificador utiliza la atención bidireccional para procesar un bloque de entrada (un "lienzo") de tokens, y accede al contexto almacenado en caché a través de la atención cruzada.
Durante la inferencia, DiffusionGemma aprovecha el muestreo de múltiples lienzos. En lugar de generar un token a la vez, el modelo elimina el ruido de forma iterativa de un bloque completo de tokens con un muestreador de difusión. Una vez que se reduce el ruido de un lienzo por completo, el codificador lo procesa y lo agrega a la caché de KV, después de lo cual el modelo genera el siguiente lienzo. Este enfoque autorregresivo por bloques facilita la generación de texto a velocidades más altas.
DiffusionGemma
| Parámetros totales | 25.2 mil millones | | Parámetros activos | 3.8 mil millones | | Capas | 30 | | Ventana deslizante | 1,024 tokens | | Longitud del contexto | Hasta 256,000 tokens | | Longitud del lienzo | 256 | | Tamaño del vocabulario | 262,000 | | Cantidad de expertos | 8 activos / 128 en total y 1 compartido | | Modalidades admitidas | Texto, imagen | | Parámetros del codificador de visión | ~550 millones |
Resultados de comparativas
Estos modelos se evaluaron en función de una gran colección de diferentes conjuntos de datos y métricas para abarcar diferentes aspectos de la generación de texto. Los resultados de la evaluación marcados en la tabla corresponden a los modelos ajustados según las instrucciones, con el muestreador de límite de entropía (EB) recomendado (consulta las prácticas recomendadas a continuación).
| Comparativa | DiffusionGemma 26B A4B | Gemma 4 26B A4B |
|---|---|---|
| MMLU Pro | 77.6% | 82.6% |
| AIME 2026, sin herramientas | 69.1% | 88.3% |
| LiveCodeBench v6 | 69.1% | 77.1% |
| ELO de Codeforces | 1429 | 1718 |
| GPQA Diamond | 73,2% | 82.3% |
| Tau2 (promedio de 3) | 56.2% | 68.2% |
| HLE, sin herramientas | 11.0% | 8.7% |
| HLE con búsqueda | 11.9% | 17.2% |
| BigBench Extra Hard | 47.6% | 64.8% |
| MMMLU | 81.5% | 86.3% |
| Vision | ||
| MMMU Pro | 54.3% | 73.8% |
| OmniDocBench 1.5 (distancia de edición promedio, cuanto más baja, mejor) | 0.319 | 0.149 |
| MATH-Vision | 70.5% | 82.4% |
| MedXPertQA MM | 49.0% | 58.1% |
| Long Context | ||
| MRCR v2, 8 agujas, 128 000 (promedio) | 32% | 44.1% |
Funciones principales
DiffusionGemma maneja una amplia variedad de tareas en texto y visión. Las capacidades clave incluyen las siguientes:
- Generación de alta velocidad: La eliminación de ruido paralela de 256 tokens a través del muestreo de difusión logra una latencia baja, ya que genera de 15 a 20 tokens por pase hacia adelante, lo que desbloquea velocidades de generación por usuario que superan los 1,100 tokens por segundo en configuraciones de tamaño de lote bajo (H100, FP8).
- Cálculo adaptativo del tiempo de inferencia: Las instrucciones más sencillas y las tareas estructuradas, como el código, requieren menos pasos de reducción de ruido, lo que permite velocidades dinámicas de tokens por segundo según la complejidad de la tarea.
- Pensar: Es un modo de razonamiento integrado que permite que el modelo piense paso a paso antes de responder.
- Contexto largo: Ventanas de contexto de hasta 256,000 tokens
- Comprensión de imágenes: Detección de objetos, análisis de documentos o archivos PDF, comprensión de pantallas y de la IU, comprensión de gráficos, OCR (incluido el multilingüe), reconocimiento de escritura a mano y señalamiento. Las imágenes se pueden procesar con relaciones de aspecto y resoluciones variables.
- Comprensión de video: Analiza y describe el contenido de video procesando secuencias de fotogramas.
- Entrada multimodal intercalada: Mezcla imágenes, videos y texto en una sola instrucción para un razonamiento con mucho contexto.
- Llamadas a funciones: Compatibilidad nativa con el uso estructurado de herramientas, lo que permite flujos de trabajo basados en agentes
- Programación y razonamiento: Es capaz de generar y completar código, y de realizar razonamientos lógicos paso a paso.
- Multilingüe: Admite más de 35 idiomas de forma predeterminada y se entrenó con más de 140 idiomas.
Prácticas recomendadas
Para obtener el mejor rendimiento, usa estas opciones de configuración y prácticas recomendadas:
1. Configuración de muestreo de difusión
Utiliza la siguiente configuración de muestreo estandarizada en todos los casos de uso:
- Método: Muestreo de difusión con eliminación de ruido limitada por entropía y detención adaptable.
- Configuración de muestreo:
- Cantidad máxima de pasos de reducción de ruido = 48
- Programa de temperatura (para el ajuste de logit): Decaimiento lineal de 0.8 a 0.4
- Selección de tokens: En cada paso, el muestreador selecciona los tokens con la entropía más baja, de modo que su límite de información mutua se mantenga por debajo del límite de entropía = 0.1.
- Eliminación de ruido de tokens: El muestreador elimina por completo el ruido de los tokens no seleccionados.
- Detención adaptable: El muestreo finaliza de forma anticipada solo si se cumplen simultáneamente las siguientes condiciones:
- Predicciones confiables: La entropía promedio del modelo en el lienzo es inferior al umbral de entropía = 0.005.
- Predicciones estables: Las predicciones de tokens con la probabilidad más alta siguen siendo idénticas en dos pasos de eliminación de ruido consecutivos.
2. Configuración del modo de pensamiento
Al igual que con los modelos de Gemma 4, usamos los roles estándar system, assistant y user. Para administrar correctamente el proceso de pensamiento, usa los siguientes tokens de control:
- Activación del pensamiento: El pensamiento se habilita incluyendo el token
<|think|>al comienzo de la instrucción del sistema. Para inhabilitar el pensamiento, quita el token (ten en cuenta que es posible que se siga emitiendo un canal de pensamiento vacío). - Generación estándar: Cuando se habilita el pensamiento, el modelo mostrará su razonamiento interno seguido de la respuesta final con esta estructura:
<|channel>thought\n[Razonamiento interno]<channel|>. - Comportamiento de pensamiento inhabilitado: Si el pensamiento está inhabilitado, el modelo seguirá generando las etiquetas, pero con un bloque de pensamiento vacío:
<|channel>thought\n<channel|>[Respuesta final].
Ten en cuenta que muchas bibliotecas, como las de Transformers, manejan las complejidades de la plantilla de chat por ti.
3. Conversaciones de varios turnos
- No Thinking Content in History: En las conversaciones de varios turnos, el resultado del modelo histórico solo debe incluir la respuesta final. Los pensamientos de los turnos anteriores del modelo no se deben agregar antes de que comience el siguiente turno del usuario.
4. Orden de modalidad
- Para obtener un rendimiento óptimo con las entradas multimodales, coloca el contenido de la imagen antes del texto en tu instrucción.
5. Resolución de imagen variable
Además de las relaciones de aspecto variables, DiffusionGemma admite resoluciones de imagen variables a través de un presupuesto de tokens visuales configurable, que controla cuántos tokens se usan para representar una imagen. Un presupuesto de tokens más alto conserva más detalles visuales a costa de un procesamiento adicional, mientras que un presupuesto más bajo permite una inferencia más rápida para las tareas que no requieren una comprensión detallada.
- Los presupuestos de tokens admitidos son 70, 140, 280, 560 y 1, 120.
- Usa presupuestos más bajos para la clasificación, la generación de subtítulos o la comprensión de videos, en los que la inferencia más rápida y el procesamiento de muchos fotogramas superan el detalle preciso.
- Usa presupuestos más altos para tareas como el OCR, el análisis de documentos o la lectura de texto pequeño.
6. Duración del video
Todos los modelos admiten entradas de imágenes y pueden procesar videos como fotogramas. El video admite un máximo de 60 segundos, suponiendo que las imágenes se procesen a un fotograma por segundo.
Model Data
Datos que se usaron para entrenar el modelo y cómo se procesaron.
Conjunto de datos de entrenamiento
Nuestro conjunto de datos de entrenamiento previo es una colección diversa y a gran escala de datos que abarca una amplia variedad de dominios y modalidades, incluidos documentos web, código, imágenes y audio, con una fecha límite de enero de 2025. Estos son los componentes clave:
- Documentos web: Una colección diversa de texto web garantiza que el modelo se exponga a una amplia variedad de estilos lingüísticos, temas y vocabulario. El conjunto de datos de entrenamiento incluye contenido en más de 140 idiomas.
- Código: Exponer el modelo al código lo ayuda a aprender la sintaxis y los patrones de los lenguajes de programación, lo que mejora su capacidad para generar código y comprender preguntas relacionadas con el código.
- Matemáticas: El entrenamiento con texto matemático ayuda al modelo a aprender razonamiento lógico, representación simbólica y a responder consultas matemáticas.
- Imágenes: Una amplia variedad de imágenes permite que el modelo realice tareas de análisis de imágenes y extracción de datos visuales.
La combinación de estas diversas fuentes de datos es fundamental para entrenar un potente modelo multimodal que pueda manejar una amplia variedad de diferentes tareas y formatos de datos.
Procesamiento previo de datos
Estos son los principales métodos de limpieza y filtrado de datos que se aplican a los datos de entrenamiento:
- Filtrado de CSAM: Se aplicó un filtrado riguroso de CSAM (material de abuso sexual infantil) en varias etapas del proceso de preparación de datos para garantizar la exclusión de contenido dañino e ilegal.
- Filtrado de datos sensibles: Como parte del proceso para garantizar la seguridad y confiabilidad de los modelos previamente entrenados de Gemma, se utilizaron técnicas automatizadas para filtrar cierta información personal y otros datos sensibles de los conjuntos de entrenamiento.
- Métodos adicionales: Filtrado basado en la calidad y la seguridad del contenido de conformidad con nuestras políticas.
Ética y seguridad
A medida que los modelos abiertos se vuelven fundamentales para la infraestructura empresarial, la procedencia y la seguridad son primordiales. Desarrollado por Google DeepMind, DiffusionGemma se somete a las mismas evaluaciones de seguridad rigurosas que nuestros modelos de Gemini patentados.
Enfoque de evaluación
DiffusionGemma se desarrolló en colaboración con equipos internos de seguridad y de IA responsable. Se realizaron diversas evaluaciones automatizadas y humanas para ayudar a mejorar la seguridad del modelo. Estas evaluaciones se alinean con los principios de la IA de Google, así como con las políticas de seguridad, cuyo objetivo es evitar que nuestros modelos de IA generativa creen contenido dañino, como los siguientes:
- Contenido relacionado con la explotación y el material de abuso sexual infantil
- Contenido peligroso (p.ej., que promueva el suicidio o que brinde instrucciones sobre actividades que podrían causar daños en el mundo real)
- Contenido sexual explícito
- Incitación al odio o a la violencia (p.ej., deshumanización de miembros de grupos protegidos)
- Hostigamiento (p.ej., fomentar la violencia contra las personas)
Resultados de la evaluación
En todas las áreas de las pruebas de seguridad, observamos mejoras significativas en todas las categorías de seguridad del contenido en relación con las generaciones anteriores de modelos de Gemma. En general, DiffusionGemma, al igual que los modelos de Gemma 4, supera significativamente a los modelos de Gemma 3 y 3n en la mejora de la seguridad, al tiempo que mantiene bajos los rechazos injustificados. Todas las pruebas se realizaron intencionalmente sin filtros de seguridad para evaluar las capacidades sin procesar y los comportamientos de referencia del modelo. Tanto para la generación de texto a texto como de imagen a texto, y en todos los tamaños de modelos, el modelo produjo una cantidad mínima de incumplimientos de políticas y mostró mejoras significativas en comparación con los modelos de Gemma anteriores.
Uso y limitaciones
Estos modelos tienen ciertas limitaciones que los usuarios deben conocer.
Uso previsto
Los modelos multimodales (capaces de procesar visión, lenguaje o audio) tienen una amplia variedad de aplicaciones en diferentes industrias y dominios. La siguiente lista de usos potenciales no es exhaustiva. El propósito de esta lista es proporcionar información contextual sobre los posibles casos de uso que los creadores del modelo consideraron como parte del entrenamiento y desarrollo del modelo.
- Creación y comunicación de contenido
- Generación de texto: Genera formatos de texto creativos, como poemas, guiones, código, textos de marketing y borradores de correos electrónicos.
- Chatbots y la IA conversacional: Potencian las interfaces conversacionales para la atención al cliente, los asistentes virtuales o las aplicaciones interactivas.
- Resumen de texto: Genera resúmenes concisos de un corpus de texto, artículos de investigación o informes.
- Extracción de datos de imágenes: Extrae, interpreta y resume datos visuales para comunicaciones de texto.
- Investigación y educación
- Investigación sobre el procesamiento de lenguaje natural (PLN) y los VLMs: Sirve como base para que los investigadores experimenten con técnicas de PLN y VLM, desarrollen algoritmos y contribuyan al avance del campo.
- Herramientas de aprendizaje de idiomas: Admite experiencias interactivas de aprendizaje de idiomas, ayuda con la corrección gramatical o proporciona práctica de escritura.
- Exploración de conocimiento: Ayuda a los investigadores a explorar grandes cantidades de texto generando resúmenes o respondiendo preguntas sobre temas específicos.
Limitaciones
- Datos de Entrenamiento
- La calidad y la diversidad de los datos de entrenamiento influyen significativamente en las capacidades del modelo. Los sesgos o las brechas en los datos de entrenamiento pueden generar limitaciones en las respuestas del modelo.
- El alcance del conjunto de datos de entrenamiento determina las áreas temáticas que el modelo puede abordar de manera eficaz.
- Contexto y complejidad de la tarea
- El modelo tiene un buen rendimiento en tareas que se pueden enmarcar con instrucciones y mensajes claros. Las tareas abiertas o muy complejas pueden ser difíciles.
- El rendimiento del modelo puede verse afectado por la cantidad de contexto proporcionado (en general, un contexto más largo genera mejores resultados, hasta cierto punto).
- Ambigüedad y matices del lenguaje
- El lenguaje natural es inherentemente complejo. Es posible que el modelo tenga dificultades para comprender matices sutiles, sarcasmo o lenguaje figurativo.
- Precisión fáctica
- El modelo genera respuestas basadas en la información que aprendió de sus conjuntos de datos de entrenamiento, pero no son bases de conocimiento. Puede generar afirmaciones fácticas incorrectas o desactualizadas.
- Common Sense
- El modelo se basa en patrones estadísticos del lenguaje. Es posible que no pueda aplicar el razonamiento de sentido común en ciertas situaciones.
Consideraciones y riesgos éticos
Para crear un modelo abierto de lenguaje y visión, tuvimos en cuenta cuidadosamente lo siguiente:
- Sesgo y equidad
- Los VLM entrenados con datos de texto e imágenes a gran escala del mundo real pueden reflejar sesgos socioculturales integrados en el material de entrenamiento. DiffusionGemma se sometió a un análisis cuidadoso, un procesamiento previo de los datos de entrada y evaluaciones posteriores al entrenamiento, como se informa en esta tarjeta, para ayudar a mitigar el riesgo de estos sesgos.
- Información errónea y uso inadecuado
- Los VLM se pueden usar de forma inadecuada para generar texto falso, engañoso o dañino.
- Se proporcionan lineamientos para el uso responsable del modelo. Consulta el kit de herramientas de IA generativa responsable.
- Transparencia y responsabilidad
- En esta ficha del modelo, se resumen los detalles sobre la arquitectura, las capacidades, las limitaciones y los procesos de evaluación del modelo.
- Un modelo abierto desarrollado de forma responsable ofrece la oportunidad de compartir la innovación, ya que hace que la tecnología de VLM sea accesible para los desarrolladores y los investigadores de todo el ecosistema de la IA.
Riesgos identificados y mitigaciones:
- Generación de contenido dañino: Los mecanismos y los lineamientos para la seguridad del contenido son fundamentales. Se recomienda a los desarrolladores que actúen con precaución y que implementen las protecciones de seguridad de contenido adecuadas según las políticas de productos y los casos de uso de la aplicación específicos.
- Uso inadecuado con fines maliciosos: Las limitaciones técnicas y la capacitación de los desarrolladores y los usuarios finales pueden ayudar a mitigar las aplicaciones maliciosas de los VLMs. Se proporcionan recursos educativos y mecanismos de denuncia para que los usuarios marquen el uso inadecuado.
- Incumplimientos de la privacidad: Los modelos se entrenaron con datos filtrados para quitar cierta información personal y otros datos sensibles. Se recomienda a los desarrolladores que cumplan con las reglamentaciones de privacidad utilizando técnicas que preserven la privacidad.
- Perpetuación de sesgos: Se recomienda realizar una supervisión continua (con métricas de evaluación y revisión humana) y explorar técnicas de reducción de sesgos durante el entrenamiento del modelo, el ajuste y otros casos de uso.
Beneficios
En el momento del lanzamiento, este es un modelo de lenguaje visual abierto de alto rendimiento y baja latencia que proporciona una opción atractiva para los desarrolladores y las personas interesadas en investigar modelos de lenguaje de difusión. En comparación con modelos de tamaño similar, este se diseñó desde cero para el desarrollo de IA responsable.