Visão geral do modelo DiffusionGemma

O DiffusionGemma é um modelo aberto experimental que explora a difusão de texto, uma abordagem excepcionalmente rápida para geração de texto. Baseado na arquitetura Gemma 4 de 26 bilhões (4 bilhões ativos) Mixture-of-Experts (MoE), o DiffusionGemma gera tokens usando difusão discreta. Esse modelo de peso aberto é multimodal, processando entradas de texto, imagem e vídeo para gerar saída de texto.

Criado com base em uma arquitetura MoE, o DiffusionGemma foi projetado para melhorar a velocidade de geração (tokens por segundo) e permanecer implantável em vários ambientes de hardware. O DiffusionGemma se baseia nos avanços arquitetônicos e de capacidade do Gemma 4, introduzindo vários recursos principais:

  • Difusão de texto discreto:muda da geração tradicional de tokens causais para amostragem multicanvas bloco-autorregressiva. O modelo gera texto removendo o ruído de blocos de tokens (uma "tela") em paralelo para aumentar drasticamente as velocidades de decodificação.
  • Processamento multimodal:aceita nativamente texto, imagens (com suporte a proporção e resolução variáveis) e entradas de vídeo. Observação: a entrada de áudio não é aceita.
  • Arquitetura de codificador-decodificador:usa um codificador autorregressivo para processar e armazenar em cache o contexto do comando, combinado com a remoção de ruído que aplica atenção bidirecional na tela de geração.
  • Eficiência da mistura de especialistas (MoE):usa um design MoE esparso baseado na variante MoE de 26 bilhões (4 bilhões ativos), oferecendo recursos de raciocínio profundo com sobrecarga mínima. Quando quantizado, ele se encaixa nos limites de 18 GB de VRAM das GPUs de consumo, ideal para execução local.
  • Modo de pensamento:os canais de raciocínio configuráveis integrados permitem que o modelo pense em etapas detalhadas antes de emitir uma resposta final.

Compensação com modelos tradicionais

Embora os modelos de linguagem tradicionais sejam altamente eficientes para implantações em grande escala na nuvem porque podem processar milhares de solicitações em lote, executá-los localmente para um único usuário deixa o hardware subutilizado. O DiffusionGemma resolve isso gerando um bloco inteiro de 256 tokens simultaneamente, em vez de um token por vez, maximizando a performance do hardware local.

No entanto, essa abordagem é estritamente voltada ao consumidor, para uso local de baixa simultaneidade. Como a decodificação paralela oferece retornos decrescentes em cargas de trabalho de nuvem de alta QPS, a vantagem de capacidade de processamento é maior em tamanhos de lote de baixo a médio em um único acelerador.

Para ter a melhor latência e qualidade, recomendamos a implantação com os seguintes parâmetros padrão para as configurações de amostragem de difusão:

Parâmetro Valor recomendado Função Justificativa
Número máximo de etapas de remoção de ruído 48 Limite superior no número de etapas de remoção de ruído por tela. Um limite seguro para o número de etapas de remoção de ruído. A remoção de ruído será interrompida em menos etapas quando a interrupção adaptativa estiver ativada, geralmente de 12 a 16 etapas, dependendo da tarefa.
Programação de temperatura Linear 0.8 -> 0.4 Programação de escalonamento de temperatura que começa alta e diminui como uma função das etapas de remoção de ruído. A temperatura alta (0,8) incentiva a exploração inicial, enquanto a baixa (0,4) bloqueia os tokens finais.
Parada antecipada adaptativa Limite de entropia: 0,005 Interrompe a execução antecipadamente se
A) a entropia média do modelo na tela estiver abaixo do limite e
B) se duas previsões consecutivas do denoiser permanecerem idênticas.
Comandos mais simples e tarefas estruturadas, como código, exigem menos etapas de remoção de ruído, permitindo velocidades dinâmicas de tokens por segundo com base na complexidade da tarefa.
Seleção de token Limite de entropia: 0,1 Em cada etapa, o sampler seleciona os tokens de menor entropia para que o limite de informações mútuas permaneça abaixo do limite de entropia. O sampler remove totalmente o ruído dos tokens não selecionados. Garante que apenas os tokens sobre os quais o modelo tem relativa certeza sejam selecionados para refinar a tela, deixando outros tokens para serem refinados em etapas posteriores de remoção de ruído.

Acesse no Hugging Face Acesse no Kaggle Acesse na Vertex

Acesse os pesos do modelo experimental (lançados sob a licença Apache 2.0), permitindo que você o implante nos seus próprios projetos e aplicativos.

Saiba mais sobre a arquitetura do DiffusionGemma Teste o DiffusionGemma

Ajustar o DiffusionGemma Implantar o DiffusionGemma