Gemma 4 lançado com entrada de texto, áudio e imagem e janela de contexto longa de até 256 mil tokens! Saiba mais

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Visão geral do modelo Gemma 4

O Gemma é uma família de modelos de inteligência artificial generativa que podem ser usados em várias tarefas de geração, incluindo respostas a perguntas, resumos e raciocínio. Os modelos Gemma são fornecidos com pesos abertos e permitem o uso comercial responsável, permitindo que você os ajuste e implante nos seus próprios projetos e aplicativos.

A família de modelos Gemma 4 abrange três arquiteturas distintas, personalizadas para requisitos de hardware específicos:

Tamanhos pequenos:modelos de parâmetros eficazes de 2B e 4B criados para implantação em dispositivos móveis, na borda e no navegador (por exemplo, Pixel, Chrome).
Denso:um modelo denso de 31B parâmetros que preenche a lacuna entre o desempenho de nível de servidor e a execução local.
Mixture-of-Experts::um modelo MoE de 26B altamente eficiente projetado para raciocínio avançado de alta capacidade.

Você pode fazer o download dos modelos Gemma 4 no Kaggle e no Hugging Face. Para mais detalhes técnicos sobre o Gemma 4, consulte o card de modelo. Versões anteriores dos modelos principais do Gemma também estão disponíveis para download. Para mais informações, consulte Modelos Gemma anteriores.

Acesse no Kaggle Acesse no Hugging Face

Recursos

Raciocínio: todos os modelos da família são projetados como raciocinadores altamente capazes, com modos de pensamento configuráveis.
Multimodalidades estendidas: processa texto, imagem com proporção e suporte de resolução variáveis (todos os modelos), vídeo e áudio (disponível nativamente nos modelos E2B e E4B).
Janela de contexto maior:os modelos pequenos apresentam uma janela de contexto de 128 mil, enquanto os modelos médios oferecem suporte a 256 mil.
Capacidades de codificação e agentes aprimoradas: alcança melhorias notáveis em benchmarks de codificação, além de suporte integrado para chamadas de função suporte, capacitando agentes autônomos altamente capazes.
Suporte nativo a comandos do sistema:o Gemma 4 apresenta suporte integrado para a função do sistema, permitindo conversas mais estruturadas e controláveis.
Previsão de vários tokens: todos os modelos do Gemma 4 (E2B, E4B, 31B e 26B A4B) incluem um modelo de rascunho dedicado para decodificação especulativa , permitindo uma inferência significativamente mais rápida sem perda de qualidade.

Tamanhos de parâmetros e quantização

Os modelos Gemma 4 estão disponíveis em quatro tamanhos de parâmetros: E2B, E4B, 31B e 26B A4B. Os modelos podem ser usados com a precisão padrão (16 bits) ou com uma precisão menor usando a quantização. Os diferentes tamanhos e precisões representam um conjunto de compensações para seu aplicativo de IA. Modelos com parâmetros e contagens de bits mais altos (maior precisão) geralmente são mais capazes, mas são mais caros para serem executados em termos de ciclos de processamento, custo de memória e consumo de energia. Modelos com parâmetros e contagens de bits mais baixos (menor precisão) têm menos recursos, mas podem ser suficientes para sua tarefa de IA.

Requisitos de memória de inferência do Gemma 4

A tabela a seguir detalha os requisitos aproximados de memória de GPU ou TPU para executar a inferência com cada tamanho das versões do modelo Gemma 4.

Parâmetros	BF16 (16 bits)	SFP8 (8 bits)	Q4_0 (4 bits)
Gemma 4 E2B	9,6 GB	4,6 GB	3,2 GB
Gemma 4 E4B	15 GB	7,5 GB	5 GB
Gemma 4 31B	58,3 GB	30,4 GB	17,4 GB
Gemma 4 26B A4B	48 GB	25 GB	15,6 GB

Tabela 1. Memória aproximada de GPU ou TPU necessária para carregar modelos Gemma 4 com base na contagem de parâmetros e no nível de quantização.

Principais Considerações para o planejamento de memória

Arquitetura eficiente (E2B e E4B) : o "E" significa parâmetros "eficazes". Os modelos menores incorporam incorporações por camada (PLE, na sigla em inglês) para maximizar a eficiência de parâmetros em implantações no dispositivo. Em vez de adicionar mais camadas ao modelo, o PLE oferece a cada camada de decodificador uma pequena incorporação para cada token. Essas tabelas de incorporação são grandes, mas usadas apenas para pesquisas rápidas. É por isso que a memória total necessária para carregar pesos estáticos é maior do que a contagem de parâmetros eficaz sugere.
A arquitetura MoE (26B A4B) : o 26B é um modelo de combinação de especialistas. Embora ele ative apenas 4 bilhões de parâmetros por token durante a geração, todos os 26 bilhões de parâmetros precisam ser carregados na memória para manter velocidades rápidas de roteamento e inferência. É por isso que o requisito de memória de linha de base é muito mais próximo de um modelo denso de 26B do que de um modelo de 4B.
Somente pesos de base:as estimativas na tabela anterior consideram apenas a memória necessária para carregar os pesos do modelo estático. Elas não incluem a VRAM adicional necessária para oferecer suporte a software ou à janela de contexto.
Janela de contexto (cache KV) : o consumo de memória vai aumentar dinamicamente com base no número total de tokens no comando e na resposta gerada. Janelas de contexto maiores exigem muito mais VRAM além dos pesos do modelo de base.
Sobrecarga de ajuste fino:os requisitos de memória para ajustar os modelos Gemma são muito maiores do que para a inferência padrão. Sua pegada exata vai depender muito da estrutura de desenvolvimento, do tamanho do lote e se você está usando o ajuste de precisão total ou um método de ajuste fino com eficiência de parâmetros (PEFT, na sigla em inglês), como a adaptação de classificação baixa (LoRA, na sigla em inglês).

Modelos Gemma anteriores

Você pode trabalhar com gerações anteriores de modelos Gemma, que também estão disponíveis no Kaggle e Hugging Face. Para mais detalhes técnicos sobre modelos Gemma anteriores, consulte as seguintes páginas de card de modelo:

Card de modelo Gemma 3 Model Card
Card de modelo Gemma 2
Card de modelo Gemma 1

Tudo pronto para começar? Comece a usar os modelos Gemma.