Visão geral do modelo Gemma 4

O Gemma é uma família de modelos de inteligência artificial generativa que podem ser usados em várias tarefas de geração, incluindo respostas a perguntas, resumos e raciocínio. Os modelos Gemma são fornecidos com pesos abertos e permitem o uso comercial responsável, permitindo que você os ajuste e implante nos seus próprios projetos e aplicativos.

A família de modelos Gemma 4 abrange três arquiteturas distintas, personalizadas para requisitos de hardware específicos:

  • Tamanhos pequenos:modelos de parâmetros eficazes de 2B e 4B criados para implantação em dispositivos móveis, na borda e no navegador (por exemplo, Pixel, Chrome).
  • Denso:um modelo denso de 31B parâmetros que preenche a lacuna entre o desempenho de nível de servidor e a execução local.
  • Mixture-of-Experts::um modelo MoE de 26B altamente eficiente projetado para raciocínio avançado de alta capacidade.

Você pode fazer o download dos modelos Gemma 4 no Kaggle e no Hugging Face. Para mais detalhes técnicos sobre o Gemma 4, consulte o card de modelo. Versões anteriores dos modelos principais do Gemma também estão disponíveis para download. Para mais informações, consulte Modelos Gemma anteriores.

Acesse no Kaggle Acesse no Hugging Face

Recursos

  • Raciocínio: todos os modelos da família são projetados como raciocinadores altamente capazes, com modos de pensamento configuráveis.
  • Multimodalidades estendidas: processa texto, imagem com proporção e suporte de resolução variáveis (todos os modelos), vídeo e áudio (disponível nativamente nos modelos E2B e E4B).
  • Janela de contexto maior:os modelos pequenos apresentam uma janela de contexto de 128 mil, enquanto os modelos médios oferecem suporte a 256 mil.
  • Capacidades de codificação e agentes aprimoradas: alcança melhorias notáveis em benchmarks de codificação, além de suporte integrado para chamadas de função suporte, capacitando agentes autônomos altamente capazes.
  • Suporte nativo a comandos do sistema:o Gemma 4 apresenta suporte integrado para a função do sistema, permitindo conversas mais estruturadas e controláveis.
  • Previsão de vários tokens: todos os modelos do Gemma 4 (E2B, E4B, 31B e 26B A4B) incluem um modelo de rascunho dedicado para decodificação especulativa , permitindo uma inferência significativamente mais rápida sem perda de qualidade.

Tamanhos de parâmetros e quantização

Os modelos Gemma 4 estão disponíveis em quatro tamanhos de parâmetros: E2B, E4B, 31B e 26B A4B. Os modelos podem ser usados com a precisão padrão (16 bits) ou com uma precisão menor usando a quantização. Os diferentes tamanhos e precisões representam um conjunto de compensações para seu aplicativo de IA. Modelos com parâmetros e contagens de bits mais altos (maior precisão) geralmente são mais capazes, mas são mais caros para serem executados em termos de ciclos de processamento, custo de memória e consumo de energia. Modelos com parâmetros e contagens de bits mais baixos (menor precisão) têm menos recursos, mas podem ser suficientes para sua tarefa de IA.

Requisitos de memória de inferência do Gemma 4

A tabela a seguir detalha os requisitos aproximados de memória de GPU ou TPU para executar a inferência com cada tamanho das versões do modelo Gemma 4.

Parâmetros BF16 (16 bits) SFP8 (8 bits) Q4_0 (4 bits)
Gemma 4 E2B 9,6 GB 4,6 GB 3,2 GB
Gemma 4 E4B 15 GB 7,5 GB 5 GB
Gemma 4 31B 58,3 GB 30,4 GB 17,4 GB
Gemma 4 26B A4B 48 GB 25 GB 15,6 GB

Tabela 1. Memória aproximada de GPU ou TPU necessária para carregar modelos Gemma 4 com base na contagem de parâmetros e no nível de quantização.

Principais Considerações para o planejamento de memória

  • Arquitetura eficiente (E2B e E4B) : o "E" significa parâmetros "eficazes". Os modelos menores incorporam incorporações por camada (PLE, na sigla em inglês) para maximizar a eficiência de parâmetros em implantações no dispositivo. Em vez de adicionar mais camadas ao modelo, o PLE oferece a cada camada de decodificador uma pequena incorporação para cada token. Essas tabelas de incorporação são grandes, mas usadas apenas para pesquisas rápidas. É por isso que a memória total necessária para carregar pesos estáticos é maior do que a contagem de parâmetros eficaz sugere.
  • A arquitetura MoE (26B A4B) : o 26B é um modelo de combinação de especialistas. Embora ele ative apenas 4 bilhões de parâmetros por token durante a geração, todos os 26 bilhões de parâmetros precisam ser carregados na memória para manter velocidades rápidas de roteamento e inferência. É por isso que o requisito de memória de linha de base é muito mais próximo de um modelo denso de 26B do que de um modelo de 4B.
  • Somente pesos de base:as estimativas na tabela anterior consideram apenas a memória necessária para carregar os pesos do modelo estático. Elas não incluem a VRAM adicional necessária para oferecer suporte a software ou à janela de contexto.
  • Janela de contexto (cache KV) : o consumo de memória vai aumentar dinamicamente com base no número total de tokens no comando e na resposta gerada. Janelas de contexto maiores exigem muito mais VRAM além dos pesos do modelo de base.
  • Sobrecarga de ajuste fino:os requisitos de memória para ajustar os modelos Gemma são muito maiores do que para a inferência padrão. Sua pegada exata vai depender muito da estrutura de desenvolvimento, do tamanho do lote e se você está usando o ajuste de precisão total ou um método de ajuste fino com eficiência de parâmetros (PEFT, na sigla em inglês), como a adaptação de classificação baixa (LoRA, na sigla em inglês).

Modelos Gemma anteriores

Você pode trabalhar com gerações anteriores de modelos Gemma, que também estão disponíveis no Kaggle e Hugging Face. Para mais detalhes técnicos sobre modelos Gemma anteriores, consulte as seguintes páginas de card de modelo:

Tudo pronto para começar? Comece a usar os modelos Gemma.