Gemma 4 lançado com entrada de texto, áudio e imagem e janela de contexto longa de até 256 mil tokens! Saiba mais

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Acelerar o Gemma 4 com a previsão de vários tokens

No Gemma 4, a previsão de vários tokens (MTP, na sigla em inglês) é a arquitetura específica usada para ativar a decodificação especulativa altamente eficiente. A decodificação especulativa é uma técnica para acelerar a inferência em modelos de linguagem grandes. Em vez de depender apenas do modelo de destino grande para gerar tokens de forma autorregressiva (gerando um token por vez, em que cada novo token depende dos anteriores), um "modelo de rascunho" menor e mais rápido prevê vários tokens adiante. Em seguida, o modelo de destino verifica esses tokens criados em paralelo. Se o modelo de destino rejeitar um token criado, ele ainda vai produzir o token correto para essa posição, garantindo que a etapa não seja desperdiçada. O modelo de rascunho retoma a previsão com base nesse novo token correto.

O Gemma 4 implementa o MTP estendendo o modelo de base com esse modelo de rascunho menor e mais rápido. Esse modelo de rascunho não é independente, já que compartilha a tabela de incorporação de entrada com o modelo de destino e se baseia diretamente nas ativações da última camada. Isso resulta em acelerações significativas na decodificação, garantindo a mesma qualidade da geração autorregressiva padrão, o que torna esses pontos de verificação perfeitos para aplicativos de baixa latência e no dispositivo.

A decodificação especulativa funciona criando vários tokens e verificando-os em uma única passagem direta. Para modelos densos, os mesmos pesos são usados para cada token. Portanto, verificar vários tokens criados adiciona uma sobrecarga mínima. Os modelos de mistura de especialistas (MoE), como o Gemma 4 26B A4B, funcionam de maneira diferente. Cada token pode ativar especialistas diferentes. Por isso, verificar tokens criados pode exigir o carregamento de mais ponderações de especialistas da memória, compensando os ganhos da criação. Com tamanhos de lote maiores, geralmente há mais sobreposição em especialistas ativados em sequências, melhorando a reutilização de pesos carregados. Com tamanho de lote 1, essa sobreposição é limitada. Por isso, o redator de 26B A4B pode não gerar acelerações em plataformas de hardware sem um bom paralelismo.

Melhorias no MTP

O Gemma 4 apresenta várias melhorias no pipeline de decodificação especulativa padrão para melhorar a qualidade dos tokens criados e a eficiência:

Embeddings de entrada compartilhados: o modelo de rascunho compartilha a tabela de embeddings de entrada com o modelo de destino.
Ativações de destino: o modelo de rascunho usa as ativações da última camada do modelo de destino, concatena com as incorporações de token e as projeta para baixo na dimensão do modelo de rascunho.
Embedder eficiente: para evitar a operação dispendiosa de prever em todo o vocabulário, o modelo agrupa tokens semelhantes em clusters. Primeiro, ele identifica os clusters mais prováveis e restringe os cálculos finais apenas aos tokens dentro desses clusters selecionados (somente E2B e E4B).