Visão geral do modelo Gemma 4

O Gemma é uma família de modelos de inteligência artificial generativa que podem ser usados em várias tarefas de geração, incluindo respostas a perguntas, resumos e raciocínio. Os modelos do Gemma são fornecidos com pesos abertos e permitem o uso comercial responsável, permitindo que você os ajuste e implante nos seus próprios projetos e aplicativos.

A família de modelos do Gemma 4 abrange três arquiteturas distintas, personalizadas para requisitos de hardware específicos:

  • Tamanhos pequenos:modelos de parâmetros eficazes de 2B e 4B criados para implantação ultraportátil, de borda e de navegador (por exemplo, Pixel, Chrome).
  • Denso:um modelo denso de parâmetros de 31B que preenche a lacuna entre a performance de servidor e a execução local.
  • Mixture-of-Experts::um modelo MoE de 26B altamente eficiente projetado para raciocínio avançado de alta capacidade.

Você pode fazer o download dos modelos do Gemma 4 no Kaggle e no Hugging Face. Para mais detalhes técnicos sobre o Gemma 4, consulte o card de modelo. Versões anteriores dos modelos principais do Gemma também estão disponíveis para download. Para mais informações, consulte Modelos anteriores do Gemma.

Acesse no Kaggle Acesse no Hugging Face

Recursos

Tamanhos de parâmetros e quantização

Os modelos do Gemma 4 estão disponíveis em quatro tamanhos de parâmetros: E2B, E4B, 31B e 26B A4B. Os modelos podem ser usados com a precisão padrão (16 bits) ou com uma precisão menor usando a quantização. Os diferentes tamanhos e precisões representam um conjunto de compensações para seu aplicativo de IA. Modelos com parâmetros e contagens de bits mais altos (maior precisão) geralmente são mais capazes, mas são mais caros para executar em termos de ciclos de processamento, custo de memória e consumo de energia. Modelos com parâmetros e contagens de bits mais baixos (menor precisão) têm menos recursos, mas podem ser suficientes para sua tarefa de IA.

Requisitos de memória de inferência do Gemma 4

A tabela a seguir detalha os requisitos aproximados de memória de GPU ou TPU para executar a inferência com cada tamanho das versões do modelo do Gemma 4.

Parâmetros BF16 (16 bits) SFP8 (8 bits) Q4_0 (4 bits)
Gemma 4 E2B 9,6 GB 4,6 GB 3,2 GB
Gemma 4 E4B 15 GB 7,5 GB 5 GB
Gemma 4 31B 58,3 GB 30,4 GB 17,4 GB
Gemma 4 26B A4B 48 GB 25 GB 15,6 GB

Tabela 1. Memória aproximada de GPU ou TPU necessária para carregar modelos do Gemma 4 com base na contagem de parâmetros e no nível de quantização.

Principais considerações para o planejamento de memória

  • Arquitetura eficiente (E2B e E4B) : o "E" significa parâmetros "eficazes". Os modelos menores incorporam incorporações por camada (PLE, na sigla em inglês) para maximizar a eficiência de parâmetros em implantações no dispositivo. Em vez de adicionar mais camadas ao modelo, o PLE oferece a cada camada de decodificador uma pequena incorporação para cada token. Essas tabelas de incorporação são grandes, mas usadas apenas para pesquisas rápidas. É por isso que a memória total necessária para carregar pesos estáticos é maior do que a contagem de parâmetros eficaz sugere.
  • A arquitetura MoE (26B A4B) : o 26B é um modelo de combinação de especialistas. Embora ele ative apenas 4 bilhões de parâmetros por token durante a geração, todos os 26 bilhões de parâmetros precisam ser carregados na memória para manter o roteamento rápido e as velocidades de inferência. É por isso que o requisito de memória de linha de base é muito mais próximo de um modelo denso de 26B do que de um modelo de 4B.
  • Somente pesos de base:as estimativas na tabela anterior consideram apenas a memória necessária para carregar os pesos do modelo estático. Elas não incluem a VRAM adicional necessária para oferecer suporte a softwares ou à janela de contexto.
  • Janela de contexto (cache KV) : o consumo de memória vai aumentar dinamicamente com base no número total de tokens no comando e na resposta gerada. Janelas de contexto maiores exigem muito mais VRAM além dos pesos do modelo de base.
  • Sobrecarga de ajuste fino:os requisitos de memória para ajustar modelos do Gemma são muito maiores do que para a inferência padrão. Sua pegada exata vai depender muito da estrutura de desenvolvimento, do tamanho do lote e se você está usando o ajuste de precisão total ou um método de ajuste fino com eficiência de parâmetros (PEFT, na sigla em inglês), como a adaptação de classificação baixa (LoRA, na sigla em inglês).

Modelos anteriores do Gemma

Você pode trabalhar com gerações anteriores de modelos do Gemma, que também estão disponíveis no Kaggle e Hugging Face. Para mais detalhes técnicos sobre modelos anteriores do Gemma, consulte as seguintes páginas de card de modelo:

Tudo pronto para começar? Comece a usar os modelos do Gemma.