O Gemma é uma família de modelos de inteligência artificial generativa que podem ser usados em várias tarefas de geração, incluindo respostas a perguntas, resumos e raciocínio. Os modelos Gemma são fornecidos com pesos abertos e permitem o uso comercial responsável, permitindo que você os ajuste e implante nos seus próprios projetos e aplicativos.
A família de modelos Gemma 4 abrange três arquiteturas distintas, personalizadas para requisitos de hardware específicos:
- Tamanhos pequenos:modelos de parâmetros eficazes de 2B e 4B criados para implantação em dispositivos móveis, na borda e no navegador (por exemplo, Pixel, Chrome).
- Denso:um modelo denso de 31B parâmetros que preenche a lacuna entre o desempenho de nível de servidor e a execução local.
- Mixture-of-Experts::um modelo MoE de 26B altamente eficiente projetado para raciocínio avançado de alta capacidade.
Você pode fazer o download dos modelos Gemma 4 no Kaggle e no Hugging Face. Para mais detalhes técnicos sobre o Gemma 4, consulte o card de modelo. Versões anteriores dos modelos principais do Gemma também estão disponíveis para download. Para mais informações, consulte Modelos Gemma anteriores.
Acesse no Kaggle Acesse no Hugging Face
Recursos
- Raciocínio: todos os modelos da família são projetados como raciocinadores altamente capazes, com modos de pensamento configuráveis.
- Multimodalidades estendidas: processa texto, imagem com proporção e suporte de resolução variáveis (todos os modelos), vídeo e áudio (disponível nativamente nos modelos E2B e E4B).
- Janela de contexto maior:os modelos pequenos apresentam uma janela de contexto de 128 mil, enquanto os modelos médios oferecem suporte a 256 mil.
- Capacidades de codificação e agentes aprimoradas: alcança melhorias notáveis em benchmarks de codificação, além de suporte integrado para chamadas de função suporte, capacitando agentes autônomos altamente capazes.
- Suporte nativo a comandos do sistema:o Gemma 4 apresenta suporte integrado para a função do sistema, permitindo conversas mais estruturadas e controláveis.
- Previsão de vários tokens: todos os modelos do Gemma 4 (E2B, E4B, 31B e 26B A4B) incluem um modelo de rascunho dedicado para decodificação especulativa , permitindo uma inferência significativamente mais rápida sem perda de qualidade.
Tamanhos de parâmetros e quantização
Os modelos Gemma 4 estão disponíveis em quatro tamanhos de parâmetros: E2B, E4B, 31B e 26B A4B. Os modelos podem ser usados com a precisão padrão (16 bits) ou com uma precisão menor usando a quantização. Os diferentes tamanhos e precisões representam um conjunto de compensações para seu aplicativo de IA. Modelos com parâmetros e contagens de bits mais altos (maior precisão) geralmente são mais capazes, mas são mais caros para serem executados em termos de ciclos de processamento, custo de memória e consumo de energia. Modelos com parâmetros e contagens de bits mais baixos (menor precisão) têm menos recursos, mas podem ser suficientes para sua tarefa de IA.
Requisitos de memória de inferência do Gemma 4
A tabela a seguir detalha os requisitos aproximados de memória de GPU ou TPU para executar a inferência com cada tamanho das versões do modelo Gemma 4.
| Parâmetros | BF16 (16 bits) | SFP8 (8 bits) | Q4_0 (4 bits) |
|---|---|---|---|
| Gemma 4 E2B | 9,6 GB | 4,6 GB | 3,2 GB |
| Gemma 4 E4B | 15 GB | 7,5 GB | 5 GB |
| Gemma 4 31B | 58,3 GB | 30,4 GB | 17,4 GB |
| Gemma 4 26B A4B | 48 GB | 25 GB | 15,6 GB |
Tabela 1. Memória aproximada de GPU ou TPU necessária para carregar modelos Gemma 4 com base na contagem de parâmetros e no nível de quantização.
Principais Considerações para o planejamento de memória
- Arquitetura eficiente (E2B e E4B) : o "E" significa parâmetros "eficazes". Os modelos menores incorporam incorporações por camada (PLE, na sigla em inglês) para maximizar a eficiência de parâmetros em implantações no dispositivo. Em vez de adicionar mais camadas ao modelo, o PLE oferece a cada camada de decodificador uma pequena incorporação para cada token. Essas tabelas de incorporação são grandes, mas usadas apenas para pesquisas rápidas. É por isso que a memória total necessária para carregar pesos estáticos é maior do que a contagem de parâmetros eficaz sugere.
- A arquitetura MoE (26B A4B) : o 26B é um modelo de combinação de especialistas. Embora ele ative apenas 4 bilhões de parâmetros por token durante a geração, todos os 26 bilhões de parâmetros precisam ser carregados na memória para manter velocidades rápidas de roteamento e inferência. É por isso que o requisito de memória de linha de base é muito mais próximo de um modelo denso de 26B do que de um modelo de 4B.
- Somente pesos de base:as estimativas na tabela anterior consideram apenas a memória necessária para carregar os pesos do modelo estático. Elas não incluem a VRAM adicional necessária para oferecer suporte a software ou à janela de contexto.
- Janela de contexto (cache KV) : o consumo de memória vai aumentar dinamicamente com base no número total de tokens no comando e na resposta gerada. Janelas de contexto maiores exigem muito mais VRAM além dos pesos do modelo de base.
- Sobrecarga de ajuste fino:os requisitos de memória para ajustar os modelos Gemma são muito maiores do que para a inferência padrão. Sua pegada exata vai depender muito da estrutura de desenvolvimento, do tamanho do lote e se você está usando o ajuste de precisão total ou um método de ajuste fino com eficiência de parâmetros (PEFT, na sigla em inglês), como a adaptação de classificação baixa (LoRA, na sigla em inglês).
Modelos Gemma anteriores
Você pode trabalhar com gerações anteriores de modelos Gemma, que também estão disponíveis no Kaggle e Hugging Face. Para mais detalhes técnicos sobre modelos Gemma anteriores, consulte as seguintes páginas de card de modelo:
- Card de modelo Gemma 3 Model Card
- Card de modelo Gemma 2
- Card de modelo Gemma 1
Tudo pronto para começar? Comece a usar os modelos Gemma.