Descripción general del modelo DiffusionGemma

DiffusionGemma es un modelo experimental de código abierto que explora la difusión de texto, un enfoque excepcionalmente rápido para la generación de texto. Basado en la arquitectura de mezcla de expertos (MoE) de 26B (4B activos) de Gemma 4, DiffusionGemma genera tokens mediante la difusión discreta. Este modelo de pesos abiertos es multimodal y maneja entradas de texto, imágenes y video para generar texto como resultado.

DiffusionGemma, que se basa en una base de MoE, está diseñado para mejorar la velocidad de generación (tokens por segundo) y, al mismo tiempo, seguir siendo implementable en varios entornos de hardware. DiffusionGemma se basa en los avances arquitectónicos y de capacidad de Gemma 4, y presenta varias funciones principales:

  • Difusión de texto discreta: Se aleja de la generación de tokens causales tradicional para el muestreo de múltiples lienzos autorregresivos en bloque. El modelo genera texto mediante la reducción de ruido iterativa de bloques de tokens (un "lienzo") en paralelo para aumentar drásticamente las velocidades de decodificación.
  • Procesamiento multimodal: Acepta de forma nativa texto, imágenes (con relación de aspecto variable y compatibilidad con la resolución) y entradas de video. (Nota: No se admite la entrada de audio).
  • Arquitectura de codificador-decodificador: Utiliza un codificador autorregresivo para procesar y almacenar en caché el contexto de la instrucción, junto con la reducción de ruido que aplica la atención bidireccional sobre el lienzo de generación.
  • Eficiencia de la mezcla de expertos (MoE): Aprovecha un diseño de MoE disperso basado en la variante de MoE de 26B (4B activos), que ofrece capacidades de razonamiento profundo con una sobrecarga mínima. Cuando se cuantifica, se ajusta a los límites de 18 GB de VRAM de las GPUs de los consumidores, lo que es ideal para la ejecución local.
  • Modo de razonamiento: Los canales de razonamiento configurables integrados permiten que el modelo piense paso a paso antes de emitir una respuesta final.

Compensación con modelos tradicionales

Si bien los modelos de lenguaje tradicionales son muy eficientes para las implementaciones en la nube a gran escala porque pueden procesar miles de solicitudes por lotes, ejecutarlos de forma local para un solo usuario deja el hardware subutilizado. DiffusionGemma resuelve este problema generando un bloque completo de 256 tokens de forma simultánea en lugar de un token a la vez, lo que maximiza el rendimiento del hardware local.

Sin embargo, este enfoque está estrictamente orientado al uso local de baja simultaneidad y para el consumidor; debido a que su decodificación paralela ofrece rendimientos decrecientes en cargas de trabajo en la nube de QPS altas, la ventaja de capacidad de procesamiento es más fuerte en tamaños de lote bajos a medios en un solo acelerador.

Para obtener una latencia y una calidad óptimas, te recomendamos que realices la implementación con los siguientes parámetros predeterminados para la configuración de muestreo de difusión:

Parámetro Valor recomendado Función Razones
Cantidad máxima de pasos de reducción de ruido 48 Límite superior de la cantidad de pasos de reducción de ruido por lienzo Un límite seguro en la cantidad de pasos de reducción de ruido La reducción de ruido se detendrá en menos pasos cuando se habilite la detención adaptativa, por lo general, entre 12 y 16 pasos, según la tarea.
Programa de temperatura Lineal 0.8 -> 0.4 Programa de ajuste de temperatura que comienza alto y se reduce en función de los pasos de reducción de ruido La temperatura alta (0.8) fomenta la exploración temprana; la temperatura baja (0.4) bloquea los tokens finales.
Early Stopping adaptativo Umbral de entropía: 0.005 Detiene la ejecución antes de tiempo si
A) la entropía promedio del modelo sobre el lienzo está por debajo del umbral, y
B) si dos predicciones consecutivas del reductor de ruido siguen siendo idénticas.
Las instrucciones más simples y las tareas estructuradas, como el código, requieren menos pasos de reducción de ruido, lo que permite velocidades dinámicas de tokens por segundo según la complejidad de la tarea.
Selección de tokens Límite de entropía: 0.1 En cada paso, el muestreador selecciona los tokens de entropía más bajos de modo que su límite de información mutua permanezca por debajo del límite de entropía. El muestreador vuelve a reducir el ruido de los tokens no seleccionados. Garantiza que solo se seleccionen los tokens sobre los que el modelo está relativamente seguro para refinar el lienzo, y deja que otros tokens se refinen en pasos posteriores de reducción de ruido.

Disponible en Hugging Face Disponible en Kaggle Acceder en Vertex

Accede a los pesos del modelo experimental (publicados bajo la licencia Apache 2.0), lo que te permite implementarlo en tus propios proyectos y aplicaciones.

Obtén más información sobre la arquitectura de DiffusionGemma Prueba DiffusionGemma

Ajusta DiffusionGemma Implementa DiffusionGemma