Visão geral do modelo Gemma 4

Gemma é uma família de modelos de inteligência artificial generativa que podem ser usados em várias tarefas de geração, incluindo respostas a perguntas, resumos e raciocínio. Os modelos Gemma são fornecidos com pesos abertos e permitem o uso comercial responsável, permitindo que você os ajuste e implante nos seus próprios projetos e aplicativos.

A família de modelos Gemma 4 abrange quatro arquiteturas distintas, adaptadas para requisitos de hardware específicos:

  • Tamanhos pequenos:modelos de parâmetros eficazes de 2B e 4B criados para implantação em dispositivos móveis, de borda e navegadores (por exemplo, Pixel, Chrome).
  • Denso:um modelo denso de 31B parâmetros que preenche a lacuna entre o desempenho de nível de servidor e a execução local.
  • Mixture-of-Experts::um modelo MoE de 26B altamente eficiente projetado para raciocínio avançado de alta capacidade.
  • Unificado:um modelo sem codificador de parâmetros de 12B para tarefas multimodais, substituiu codificadores de visão e áudio por projeções lineares diretas da entrada.

Você pode fazer o download dos modelos Gemma 4 no Kaggle e no Hugging Face. Para mais detalhes técnicos sobre o Gemma 4, consulte o card de modelo. Versões anteriores dos modelos principais do Gemma também estão disponíveis para download. Para mais informações, consulte Modelos Gemma anteriores.

Acessar no Kaggle Acessar no Hugging Face

Recursos

  • Raciocínio: todos os modelos da família são projetados como raciocinadores altamente capazes, com modos de pensamento configuráveis.
  • Multimodalidades estendidas: processa texto, imagem com proporção e suporte de resolução variáveis (todos os modelos), vídeo e áudio (disponível nativamente nos modelos E2B, E4B e 12B).
  • Janela de contexto maior:os modelos pequenos têm uma janela de contexto de 128 mil, enquanto os modelos médios oferecem suporte a 256 mil.
  • Recursos de codificação e agentes aprimorados: alcança melhorias notáveis nos benchmarks de codificação, além de suporte integrado para chamadas de função suporte, capacitando agentes autônomos altamente capazes.
  • Suporte nativo a comandos do sistema:o Gemma 4 apresenta suporte integrado para a função do sistema, permitindo conversas mais estruturadas e controláveis.
  • Previsão de vários tokens: todos os modelos do Gemma 4 (E2B, E4B, 12B, 31B e 26B A4B) incluem um modelo de rascunho dedicado para decodificação especulativa, permitindo uma inferência significativamente mais rápida sem perda de qualidade.

Tamanhos de parâmetros e quantização

Os modelos Gemma 4 estão disponíveis em cinco tamanhos de parâmetros: E2B, E4B, 12B, 31B e 26B A4B. Os modelos podem ser usados com a precisão padrão (16 bits) ou com uma precisão menor usando a quantização. Os diferentes tamanhos e precisões representam um conjunto de compensações para seu aplicativo de IA. Modelos com parâmetros e contagens de bits mais altos (maior precisão) geralmente são mais capazes, mas são mais caros para executar em termos de ciclos de processamento, custo de memória e consumo de energia. Modelos com parâmetros e contagens de bits mais baixos (menor precisão) têm menos recursos, mas podem ser suficientes para sua tarefa de IA.

Requisitos de memória de inferência do Gemma 4

A tabela a seguir detalha os requisitos aproximados de memória de GPU ou TPU para executar a inferência com cada tamanho das versões do modelo Gemma 4.

Parâmetros BF16 (16 bits) SFP8 (8 bits) Q4_0 (4 bits) Dispositivo móvel Dispositivo móvel (somente texto)
Gemma 4 E2B 11,4 GB 5,7 GB 2,9 GB 1,1 GB 0,84 GB
Gemma 4 E4B 17,9 GB 8,9 GB 4,5 GB 2,5 GB 2,2 GB
Gemma 4 12B 26,7 GB 13,4 GB 6,7 GB - -
Gemma 4 26B A4B 57,7 GB 28,8 GB 14,4 GB - -
Gemma 4 31B 69,9 GB 34,9 GB 17,5 GB - -

Tabela 1. Memória aproximada de GPU ou TPU necessária para carregar modelos Gemma 4 com base na contagem de parâmetros, no nível de quantização e em 20% de sobrecarga de carregamento de outras coisas. As versões para dispositivos móveis usam o LiteRT-LM.

Principais Considerações para o planejamento de memória

  • Arquitetura eficiente (E2B e E4B) : o "E" significa parâmetros "eficazes". Os modelos menores incorporam incorporações por camada (PLE, na sigla em inglês) para maximizar a eficiência de parâmetros em implantações no dispositivo. Em vez de adicionar mais camadas ao modelo, o PLE oferece a cada camada de decodificador sua própria incorporação pequena para cada token. Essas tabelas de incorporação são grandes, mas são usadas apenas para pesquisas rápidas. É por isso que a memória total necessária para carregar pesos estáticos é maior do que a contagem de parâmetros eficazes sugere.
  • A arquitetura MoE (26B A4B) : o 26B é um modelo de Mix de Especialistas. Embora ele ative apenas 4 bilhões de parâmetros por token durante a geração, todos os 26 bilhões de parâmetros precisam ser carregados na memória para manter velocidades rápidas de roteamento e inferência. É por isso que o requisito de memória de linha de base é muito mais próximo de um modelo denso de 26B do que de um modelo de 4B.
  • Somente pesos de base:as estimativas na tabela anterior consideram apenas a memória necessária para carregar os pesos do modelo estático. Elas não incluem a VRAM extra necessária para oferecer suporte a software ou à janela de contexto.
  • Janela de contexto (cache KV) : o consumo de memória vai aumentar dinamicamente com base no número total de tokens no comando e na resposta gerada. Janelas de contexto maiores exigem muito mais VRAM além dos pesos do modelo de base.
  • Sobrecarga de ajuste fino:os requisitos de memória para ajustar modelos Gemma são muito maiores do que para a inferência padrão. Sua pegada exata vai depender muito da estrutura de desenvolvimento, do tamanho do lote e se você está usando o ajuste de precisão total ou um método de ajuste fino com eficiência de parâmetros (PEFT, na sigla em inglês), como a adaptação de classificação baixa (LoRA, na sigla em inglês).

Treinamento com reconhecimento de quantização (QAT)

Para implantações que exigem eficiência máxima com o mínimo de comprometimento de qualidade, o Gemma oferece modelos oficiais de treinamento com reconhecimento de quantização (QAT).

Ao contrário da quantização pós-treinamento (PTQ, na sigla em inglês) padrão, que compacta um modelo totalmente treinado e pode levar à degradação da qualidade, o QAT integra a simulação de quantização ao próprio processo de treinamento. Isso permite que o modelo aprenda a compensar a perda de precisão, resultando em modelos menores que têm desempenho quase idêntico às linhas de base de alta precisão.

Tabela de roteamento rápido

Mecanismo de implantação de destino Sufixo de download Caso de uso principal
llama.cpp / LM Studio (local) {model-name}-qat-q4_0-gguf Implantação local sem configuração na CPU, no Apple Silicon ou em GPUs de consumo.
vLLM / SGLang SERVIDOR: {model-name}-qat-w4a16-ct
DISPOSITIVO MÓVEL: {model-name}-qat-mobile-ct
Inferencia de alta capacidade usando pesos de 4 bits com ativações de 16 bits.
Decodificação especulativa MODELO: {model-name}-qat-q4_0-unquantized
DRAFTER: {model-name}-qat-q4_0-unquantized-assistant
Executar um modelo principal com o modelo de rascunho MTP correspondente para acelerar drasticamente a geração de tokens. O modelo precisa ser quantizado.
Outros formatos {model-name}-qat-q4_0-unquantized Pesos não quantizados para conversão em outros formatos (por exemplo, MLX)
Implantação para dispositivos móveis (Transformers) {model-name}-qat-mobile-transformers Pesos de borda otimizados para casos de uso em dispositivos móveis. Eles servem como referência para outros formatos.

Coleções oficiais de QAT no Hugging Face

  • collections/google/gemma-4-qat-q4_0
    • Checkpoints QAT não quantizados (-unquantized / -assistant) : pesos de meia precisão extraídos diretamente do pipeline QAT. Eles são ideais para compilação, pesquisa ou execução de decodificação especulativa personalizada usando os modelos de rascunho do assistente. Disponível para Gemma 4 E2B, E4B, 12B, 26B A4B e 31B.
    • GGUF (-gguf) : checkpoints disponíveis para compatibilidade imediata em todo o ecossistema local de LLM. Disponível para Gemma 4 E2B, E4B, 12B, 26B A4B e 31B.
    • Tensores compactados (-w4a16-ct) : serializados nativamente no padrão compressed-tensors para serviço de nuvem otimizado e de alta simultaneidade. Disponível para Gemma 4 E2B, E4B, 12B e 31B.
  • collections/google/gemma-4-qat-mobile
    • Otimizado para dispositivos móveis (-mobile-transformers / -mobile-ct) : criado em um esquema wNa8o8 personalizado projetado especificamente para limites de hardware de dispositivos móveis. Ele usa camadas de decodificação de 2 bits direcionadas, caches KV otimizados e ativações estáticas para maximizar a economia de RAM no dispositivo sem estrangular os processadores de borda. Disponível para Gemma 4 E2B e E4B.

Todos os checkpoints oficiais do Gemma 4 QAT também podem ser acessados diretamente de Kaggle.

Modelos Gemma anteriores

Você pode trabalhar com gerações anteriores de modelos Gemma, que também estão disponíveis no Kaggle e Hugging Face. Para mais detalhes técnicos sobre modelos Gemma anteriores, consulte as seguintes páginas de card de modelo:

Tudo pronto para começar? Comece a usar os modelos Gemma.