Card de modelo do DiffusionGemma

Hugging Face | GitHub | Blog de lançamento | Documentação
Licença: Apache 2.0 | Autores: Google DeepMind

O DiffusionGemma é um modelo generativo criado pelo Google DeepMind. Com base na arquitetura do Gemma 4 de 26 bilhões de parâmetros e combinação de especialistas (MoE) A4B, o DiffusionGemma gera tokens usando difusão discreta. Esse modelo de código aberto é multimodal e processa entradas de texto, imagem e vídeo para gerar saídas de texto.

Criado com base em uma arquitetura MoE, o DiffusionGemma foi projetado para melhorar a velocidade de geração (tokens por segundo) e permanecer implantável em vários ambientes de hardware. O DiffusionGemma se baseia nos avanços arquitetônicos e de capacidade do Gemma 4, introduzindo vários recursos principais:

  • Difusão de texto discreto: muda da regressão automática token a token para amostragem multicanvas autorregressiva em blocos. Ele gera texto removendo o ruído de maneira iterativa de blocos de tokens (uma "tela") em paralelo, o que aumenta significativamente a velocidade de decodificação.
  • Processamento de entrada multimodal: processa entradas de texto, imagem (com suporte a proporção e resolução variáveis) e vídeo intercaladas para gerar saídas de texto.
  • Arquitetura de codificador-decodificador: usa um codificador autorregressivo para processar e armazenar em cache o contexto do comando, combinado com um decodificador que aplica atenção bidirecional na tela de geração.
  • Eficiência do Mix de Especialistas (MoE): usa um design MoE esparso (8 especialistas ativos de um total de 128) para oferecer recursos de raciocínio avançados, mantendo um baixo consumo de memória adequado para execução local.
  • Modo de pensamento (raciocínio): projetado como um raciocinador altamente capaz, com modos de pensamento configuráveis.
  • Otimizado para inferência de tamanho de lote pequeno: projetado especificamente para geração de alta velocidade e baixa latência em um único acelerador compatível.
  • Suporte nativo a comandos do sistema: assim como o Gemma 4, ele permite atualizar a função system, possibilitando conversas mais estruturadas e controláveis.

Visão geral do modelo

O DiffusionGemma foi projetado para reduzir os gargalos sequenciais dos modelos de linguagem causais padrão. Ele usa uma arquitetura de codificador-decodificador otimizada especificamente para velocidade de inferência.

O codificador opera em uma capacidade de pré-preenchimento, processando o comando inicial e gerando o cache de KV. Em seguida, o decodificador usa a atenção bidirecional para processar um bloco de entrada (uma "tela") de tokens, acessando o contexto armazenado em cache por atenção cruzada.

Durante a inferência, o DiffusionGemma usa amostragem de várias telas. Em vez de gerar um token por vez, o modelo remove o ruído de um bloco completo de tokens de maneira iterativa usando um sampler de difusão. Depois que uma tela é totalmente removida do ruído, ela é processada pelo codificador e anexada ao cache KV. Em seguida, o modelo gera a próxima tela. Essa abordagem de regressão automática por blocos facilita a geração de texto em velocidades mais altas.

DiffusionGemma

| Total de parâmetros | 25,2 bilhões | | Parâmetros ativos | 3,8 bilhões | | Camadas | 30 | | Janela deslizante | 1.024 tokens | | Comprimento do contexto | Até 256 mil tokens | | Comprimento da tela | 256 | | Tamanho do vocabulário | 262 mil | | Contagem de especialistas | 8 ativos / 128 totais e 1 compartilhado | | Modalidades compatíveis | Texto, imagem | | Parâmetros do codificador de visão | ~550 milhões |

Resultados de comparativo de mercado

Esses modelos foram avaliados em uma grande coleção de diferentes conjuntos de dados e métricas para abranger diferentes aspectos da geração de texto. Os resultados da avaliação marcados na tabela são para modelos ajustados por instruções, com o sampler de limite de entropia (EB, na sigla em inglês) recomendado. Consulte as práticas recomendadas abaixo.

Comparativo de mercado DiffusionGemma 26B A4B Gemma 4 26B A4B
MMLU Pro 77,6% 82,6%
AIME 2026 no tools 69,1% 88,3%
LiveCodeBench v6 69,1% 77,1%
ELO do Codeforces 1429 1718
GPQA Diamond 73,2% 82,3%
Tau2 (média de 3) 56,2% 68,2%
HLE sem ferramentas 11,0% 8,7%
HLE com pesquisa 11,9% 17,2%
BigBench Extra Hard 47,6% 64,8%
MMMLU 81,5% 86,3%
Visão
MMMU Pro 54,3% 73,8%
OmniDocBench 1.5 (distância de edição média, quanto menor, melhor) 0.319 0,149
MATH-Vision 70,5% 82,4%
MedXPertQA MM 49,0% 58,1%
Contexto longo
MRCR v2 8 agulhas 128k (média) 32,0% 44,1%

Recursos principais

O DiffusionGemma processa uma ampla variedade de tarefas em texto e visão. As principais capacidades incluem:

  • Geração de alta velocidade: a remoção de ruído paralela de 256 tokens por amostragem de difusão alcança baixa latência gerando de 15 a 20 tokens por transmissão direta, desbloqueando velocidades de geração por usuário que excedem 1.100 tokens por segundo em configurações de tamanho de lote baixo (H100, FP8).
  • Cálculo adaptativo do tempo de inferência: comandos mais simples e tarefas estruturadas, como código, exigem menos etapas de remoção de ruído, permitindo velocidades dinâmicas de tokens por segundo com base na complexidade da tarefa.
  • Raciocínio: modo de raciocínio integrado que permite que o modelo pense passo a passo antes de responder.
  • Contexto longo: janelas de contexto de até 256 mil tokens.
  • Compreensão de imagens: detecção de objetos, análise de documentos/PDFs, compreensão de telas e interfaces, compreensão de gráficos, OCR (incluindo vários idiomas), reconhecimento de escrita à mão e apontamento. As imagens podem ser processadas em proporções e resoluções variáveis.
  • Entendimento de vídeo: analisa e descreve o conteúdo de vídeo processando sequências de frames.
  • Entrada multimodal intercalada: misture imagens, vídeos e texto em um único comando para um raciocínio com muito contexto.
  • Chamada de função: suporte nativo para uso estruturado de ferramentas, permitindo fluxos de trabalho de agentes.
  • Programação e raciocínio: capaz de gerar e completar códigos, além de fazer raciocínio lógico passo a passo.
  • Multilíngue: suporte imediato para mais de 35 idiomas, pré-treinado em mais de 140 idiomas.

Práticas recomendadas

Para ter o melhor desempenho, use estas configurações e práticas recomendadas:

1. Configurações de amostragem de difusão

Use a seguinte configuração de amostragem padronizada em todos os casos de uso:

  • Método:amostragem de difusão com remoção de ruído limitada por entropia e parada adaptativa.
  • Configuração de amostragem:
    • Número máximo de etapas de remoção de ruído = 48
    • Programação de temperatura (para ajuste de logit): decaimento linear de 0,8 → 0,4
    • Seleção de token: em cada etapa, o sampler seleciona os tokens de menor entropia para que o limite de informações mútuas fique abaixo do limite de entropia = 0,1.
    • Token Renoising: o sampler faz o renoising completo dos tokens não selecionados.
  • Parada adaptativa:a amostragem é encerrada antecipadamente se e somente se as duas condições a seguir forem atendidas simultaneamente:
    • Previsões confiáveis: a entropia média do modelo na tela está abaixo do limite de entropia = 0,005
    • Previsões estáveis: as previsões de token de maior probabilidade permanecem idênticas em duas etapas consecutivas de remoção de ruído.

2. Configuração do modo de pensamento

Assim como os modelos do Gemma 4, usamos papéis padrão system, assistant e user. Para gerenciar adequadamente o processo de pensamento, use os seguintes tokens de controle:

  • Ativar o pensamento:para ativar o pensamento, inclua o token <|think|> no início do comando do sistema. Para desativar, remova o token. Um canal de pensamento vazio ainda pode ser emitido.
  • Geração padrão:quando o pensamento está ativado, o modelo mostra o raciocínio interno seguido da resposta final usando esta estrutura: <|channel>thought\n[Raciocínio interno]<channel|>.
  • Comportamento de raciocínio desativado:se o raciocínio estiver desativado, o modelo ainda vai gerar as tags, mas com um bloco de raciocínio vazio: <|channel>thought\n<channel|>[Resposta final].

Muitas bibliotecas, como os transformadores, lidam com as complexidades do modelo de chat para você.

3. Conversas multiturno

  • Sem conteúdo de raciocínio no histórico:em conversas multiturno, a saída do modelo histórico deve incluir apenas a resposta final. As reflexões de turnos anteriores do modelo não podem ser adicionadas antes do início do próximo turno do usuário.

4. Ordem de modalidade

  • Para ter o melhor desempenho com entradas multimodais, coloque o conteúdo da imagem antes do texto no comando.

5. Resolução de imagem variável

Além das proporções variáveis, o DiffusionGemma oferece suporte a resolução de imagem variável com um orçamento de token visual configurável, que controla quantos tokens são usados para representar uma imagem. Um orçamento maior preserva mais detalhes visuais ao custo de computação adicional, enquanto um orçamento menor permite uma inferência mais rápida para tarefas que não exigem um entendimento refinado.

  • Os orçamentos de tokens aceitos são: 70, 140, 280, 560 e 1.120.
    • Use orçamentos menores para classificação, legendagem ou compreensão de vídeo, em que a inferência mais rápida e o processamento de muitos frames são mais importantes do que detalhes refinados.
    • Use orçamentos mais altos para tarefas como OCR, análise de documentos ou leitura de textos pequenos.

6. Duração do vídeo

Todos os modelos aceitam entradas de imagem e podem processar vídeos como frames. O vídeo pode ter até 60 segundos, considerando que as imagens são processadas a um frame por segundo.

Dados do modelo

Dados usados para treinamento de modelo e como eles foram tratados.

Conjunto de dados de treinamento

Nosso conjunto de dados de pré-treinamento é uma coleção diversificada de dados em grande escala que abrange uma ampla variedade de domínios e modalidades, incluindo documentos da Web, código, imagens, áudio, com uma data de corte de janeiro de 2025. Estes são os principais componentes:

  • Documentos da Web:uma coleção diversificada de textos da Web garante que o modelo seja exposto a uma ampla variedade de estilos linguísticos, tópicos e vocabulário. O conjunto de dados de treinamento inclui conteúdo em mais de 140 idiomas.
  • Código:expor o modelo a código ajuda a aprender a sintaxe e os padrões das linguagens de programação, o que melhora a capacidade de gerar código e entender perguntas relacionadas a ele.
  • Matemática:o treinamento em textos matemáticos ajuda o modelo a aprender raciocínio lógico, representação simbólica e a responder a consultas matemáticas.
  • Imagens:uma ampla variedade de imagens permite que o modelo execute tarefas de análise de imagens e extração de dados visuais.

A combinação dessas diversas fontes de dados é crucial para treinar um modelo multimodal eficiente que possa lidar com uma ampla variedade de tarefas e formatos de dados diferentes.

Pré-processamento de dados

Confira os principais métodos de limpeza e filtragem de dados aplicados aos dados de treinamento:

  • Filtragem de CSAM:uma filtragem rigorosa de CSAM (material de abuso sexual infantil) foi aplicada em várias etapas do processo de preparação de dados para garantir a exclusão de conteúdo prejudicial e ilegal.
  • Filtragem de dados sensíveis:como parte do processo para tornar os modelos pré-treinados da Gemma seguros e confiáveis, usamos técnicas automatizadas para filtrar determinadas informações pessoais e outros dados sensíveis dos conjuntos de treinamento.
  • Outros métodos:filtragem com base na qualidade e segurança do conteúdo, de acordo com nossas políticas.

Ética e segurança

À medida que os modelos abertos se tornam essenciais para a infraestrutura empresarial, a procedência e a segurança são fundamentais. Desenvolvido pelo Google DeepMind, o DiffusionGemma passa pelas mesmas avaliações de segurança rigorosas que nossos modelos proprietários do Gemini.

Abordagem de avaliação

A DiffusionGemma foi desenvolvida em parceria com equipes internas de segurança e IA responsável. Várias avaliações automatizadas e humanas foram realizadas para melhorar a segurança do modelo. Essas avaliações estão alinhadas aos princípios de IA do Google e às políticas de segurança, que visam impedir que nossos modelos de IA generativa criem conteúdo nocivo, incluindo:

  • Conteúdo relacionado a material de abuso e exploração sexual infantil
  • Conteúdo perigoso (por exemplo, que promova o suicídio ou instrua atividades que possam causar danos reais)
  • Conteúdo sexualmente explícito
  • Discurso de ódio (por exemplo, desumanizar membros de grupos protegidos)
  • Assédio (por exemplo, incentivar a violência contra pessoas)

Resultados da avaliação

Em todas as áreas de teste de segurança, observamos melhorias significativas em todas as categorias de segurança de conteúdo em relação às gerações anteriores de modelos da Gemma. No geral, o DiffusionGemma, assim como os modelos Gemma 4, supera significativamente os modelos Gemma 3 e 3n na melhoria da segurança, mantendo as recusas injustificadas em um nível baixo. Todos os testes foram realizados intencionalmente sem filtros de segurança para avaliar as capacidades brutas e os comportamentos básicos do modelo. Para texto para texto e conversão de imagem em texto, e em todos os tamanhos de modelo, o modelo gerou violações mínimas da política e mostrou melhorias significativas em relação aos modelos anteriores do Gemma.

Uso e limitações

Esses modelos têm algumas limitações que os usuários precisam conhecer.

Uso pretendido

Os modelos multimodais (capazes de processar visão, linguagem e/ou áudio) têm uma ampla variedade de aplicações em vários setores e domínios. A lista a seguir de possíveis usos não é abrangente. O objetivo dela é fornecer informações contextuais sobre os possíveis casos de uso que os criadores de modelos consideraram como parte do treinamento de modelo e desenvolvimento.

  • Criação de conteúdo e comunicação
    • Geração de texto:gera formatos de texto criativos, como poemas, scripts, códigos, cópias de marketing e rascunhos de e-mail.
    • Chatbots e IA de conversação:alimentam interfaces de conversação para atendimento ao cliente, assistentes virtuais ou aplicativos interativos.
    • Resumo de texto:gera resumos concisos de um corpus de texto, artigos de pesquisa ou relatórios.
    • Extração de dados de imagem:extrai, interpreta e resume dados visuais para comunicações de texto.
  • Pesquisa e educação
    • Pesquisa sobre processamento de linguagem natural (PLN) e VLM:serve como base para que os pesquisadores testem técnicas de VLM e PLN, desenvolvam algoritmos e contribuam para o avanço da área.
    • Ferramentas de aprendizado de idiomas:oferecem experiências interativas de aprendizado de idiomas, ajudando na correção gramatical ou oferecendo prática de escrita.
    • Exploração de conhecimento:ajuda pesquisadores a analisar grandes quantidades de texto gerando resumos ou respondendo a perguntas sobre temas específicos.

Limitações

  • Dados de treinamento
    • A qualidade e a diversidade dos dados de treinamento influenciam significativamente as capacidades do modelo. Vieses ou lacunas nos dados de treinamento podem levar a limitações nas respostas do modelo.
    • O escopo do conjunto de dados de treinamento determina as áreas de assunto que o modelo pode processar com eficiência.
  • Contexto e complexidade da tarefa
    • O modelo tem um bom desempenho em tarefas que podem ser enquadradas com comandos e instruções claras. Tarefas abertas ou altamente complexas podem ser difíceis.
    • O desempenho do modelo pode ser influenciado pela quantidade de contexto fornecida. Contextos mais longos geralmente levam a resultados melhores, até um determinado ponto.
  • Ambiguidade e nuances da linguagem
    • A linguagem natural é inerentemente complexa. O modelo pode ter dificuldade em entender nuances sutis, sarcasmo ou linguagem figurada.
  • Precisão factual
    • O modelo gera respostas com base em informações aprendidas com os conjuntos de dados de treinamento, mas não são bases de conhecimento. Ela pode gerar declarações factuais incorretas ou desatualizadas.
  • Common Sense
    • O modelo depende de padrões estatísticos na linguagem. Ele pode não ter a capacidade de aplicar o raciocínio de bom senso em determinadas situações.

Considerações e riscos éticos

Ao criar um modelo aberto de visão e linguagem, consideramos cuidadosamente o seguinte:

  • Viés e imparcialidade
    • Os modelos de linguagem visual treinados com dados de texto e imagem em grande escala do mundo real podem refletir vieses socioculturais incorporados no material de treinamento. O DiffusionGemma passou por uma análise cuidadosa, pré-processamento de dados de entrada e avaliações pós-treinamento, conforme informado neste card, para ajudar a reduzir o risco desses vieses.
  • Desinformação e uso indevido
  • Transparência e responsabilidade
    • Este card de modelo resume detalhes sobre a arquitetura, as capacidades, as limitações e os processos de avaliação do modelo.
    • Um modelo aberto desenvolvido de forma responsável oferece a oportunidade de compartilhar inovação ao tornar a tecnologia VLM acessível a desenvolvedores e pesquisadores em todo o ecossistema de IA.

Riscos identificados e mitigação:

  • Geração de conteúdo nocivo:mecanismos e diretrizes de segurança de conteúdo são essenciais. Recomendamos que os desenvolvedores tenham cautela e implementem salvaguardas de segurança de conteúdo adequadas com base nas políticas de produtos e casos de uso de aplicativos específicos.
  • Uso indevido para fins maliciosos:limitações técnicas e educação de desenvolvedores e usuários finais podem ajudar a reduzir aplicações maliciosas de VLMs. Recursos educacionais e mecanismos de denúncia para que os usuários sinalizem o uso indevido são fornecidos.
  • Violações de privacidade:os modelos foram treinados com dados filtrados para remoção de determinadas informações pessoais e outros dados sensíveis. Os desenvolvedores são incentivados a obedecer aos regulamentos de privacidade com técnicas que preservam a privacidade.
  • Perpetuação de vieses:é recomendável realizar monitoramento contínuo (usando métricas de avaliação e revisão humana) e explorar técnicas de remoção de vieses durante o treinamento de modelo e ajuste fino, além de outros casos de uso.

Benefícios

No momento do lançamento, esse é um modelo de linguagem de visão aberta de baixa latência e alto desempenho que oferece uma opção interessante para desenvolvedores e pessoas interessadas em pesquisar modelos de linguagem de difusão. O modelo foi projetado desde o início para o desenvolvimento de IA responsável em comparação com modelos de tamanho semelhante.