Gemma 4 lançado com entrada de texto, áudio e imagem e janela de contexto longa de até 256 mil tokens! Saiba mais

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Visão geral do modelo Gemma 4

O Gemma é uma família de modelos de inteligência artificial generativa que podem ser usados em várias tarefas de geração, incluindo respostas a perguntas, resumos e raciocínio. Os modelos do Gemma são fornecidos com pesos abertos e permitem o uso comercial responsável, permitindo que você os ajuste e implante nos seus próprios projetos e aplicativos.

A família de modelos do Gemma 4 abrange quatro arquiteturas distintas, adaptadas para requisitos de hardware específicos:

Tamanhos pequenos:modelos de parâmetros eficazes de 2B e 4B criados para implantação em dispositivos móveis, de borda e navegadores (por exemplo, Pixel, Chrome).
Denso:um modelo denso de parâmetros de 31B que preenche a lacuna entre o desempenho de nível de servidor e a execução local.
Mixture-of-Experts::um modelo MoE de 26B altamente eficiente projetado para raciocínio avançado e de alta capacidade.
Unificado:um modelo sem codificador de parâmetros de 12B para tarefas multimodais, substituiu codificadores de visão e áudio por projeções lineares diretas da entrada.

Você pode fazer o download dos modelos do Gemma 4 no Kaggle e no Hugging Face. Para mais detalhes técnicos sobre o Gemma 4, consulte o card de modelo e o relatório técnico. Versões anteriores dos modelos principais do Gemma também estão disponíveis para download. Para mais informações, consulte Modelos anteriores do Gemma.

Acessar no Kaggle Acessar no Hugging Face

Recursos

Raciocínio: todos os modelos da família são projetados como raciocinadores altamente capazes, com modos de pensamento configuráveis.
Multimodalidades estendidas: processa texto, imagem com proporção e suporte de resolução variáveis (todos os modelos), vídeo e áudio (destacado nativamente nos modelos E2B, E4B e 12B).
Janela de contexto maior:modelos pequenos apresentam uma janela de contexto de 128 mil, enquanto os modelos médios oferecem suporte a 256 mil.
Recursos de codificação e agentes aprimorados: alcança melhorias notáveis em benchmarks de codificação, além de suporte integrado para chamadas de função suporte, capacitando agentes autônomos altamente capazes.
Suporte nativo a comandos do sistema:o Gemma 4 apresenta suporte integrado para a função do sistema, permitindo conversas mais estruturadas e controláveis.
Previsão de vários tokens: todos os modelos do Gemma 4 (E2B, E4B, 12B, 31B e 26B A4B) incluem um modelo de rascunho dedicado para decodificação especulativa, permitindo uma inferência significativamente mais rápida sem perda de qualidade.

Tamanhos de parâmetros e quantização

Os modelos do Gemma 4 estão disponíveis em cinco tamanhos de parâmetros: E2B, E4B, 12B, 31B e 26B A4B. Os modelos podem ser usados com a precisão padrão (16 bits) ou com uma precisão menor usando a quantização. Os diferentes tamanhos e precisões representam um conjunto de compensações para seu aplicativo de IA. Modelos com parâmetros e contagens de bits mais altos (maior precisão) geralmente são mais capazes, mas são mais caros para executar em termos de ciclos de processamento, custo de memória e consumo de energia. Modelos com parâmetros e contagens de bits mais baixos (menor precisão) têm menos recursos, mas podem ser suficientes para sua tarefa de IA.

Requisitos de memória de inferência do Gemma 4

A tabela a seguir detalha os requisitos aproximados de memória de GPU ou TPU para executar a inferência com cada tamanho das versões do modelo Gemma 4.

Parâmetros	BF16 (16 bits)	SFP8 (8 bits)	Q4_0 (4 bits)	Dispositivo móvel	Dispositivo móvel (somente texto)
Gemma 4 E2B	11,4 GB	5,7 GB	2,9 GB	1,1 GB	0,84 GB
Gemma 4 E4B	17,9 GB	8,9 GB	4,5 GB	2,5 GB	2,2 GB
Gemma 4 12B	26,7 GB	13,4 GB	6,7 GB	-	-
Gemma 4 26B A4B	57,7 GB	28,8 GB	14,4 GB	-	-
Gemma 4 31B	69,9 GB	34,9 GB	17,5 GB	-	-

Tabela 1. Memória aproximada de GPU ou TPU necessária para carregar modelos do Gemma 4 com base na contagem de parâmetros, no nível de quantização e em 20% de sobrecarga de carregamento de outras coisas. As versões para dispositivos móveis usam o LiteRT-LM.

Considerações importantes para o planejamento de memória

Arquitetura eficiente (E2B e E4B) : o "E" significa parâmetros "eficazes". Os modelos menores incorporam incorporações por camada (PLE, na sigla em inglês) para maximizar a eficiência de parâmetros em implantações no dispositivo. Em vez de adicionar mais camadas ao modelo, o PLE oferece a cada camada de decodificador sua própria incorporação pequena para cada token. Essas tabelas de incorporação são grandes, mas usadas apenas para pesquisas rápidas. É por isso que a memória total necessária para carregar pesos estáticos é maior do que a contagem de parâmetros eficaz sugere.
A arquitetura MoE (26B A4B) : o 26B é um modelo de combinação de especialistas. Embora ele ative apenas 4 bilhões de parâmetros por token durante a geração, todos os 26 bilhões de parâmetros precisam ser carregados na memória para manter velocidades rápidas de roteamento e inferência. É por isso que o requisito de memória de linha de base é muito mais próximo de um modelo denso de 26B do que de um modelo de 4B.
Somente pesos de base:as estimativas na tabela anterior consideram apenas a memória necessária para carregar os pesos do modelo estático. Elas não incluem a VRAM adicional necessária para oferecer suporte a software ou à janela de contexto.
Janela de contexto (cache KV) : o consumo de memória vai aumentar dinamicamente com base no número total de tokens no comando e na resposta gerada. Janelas de contexto maiores exigem muito mais VRAM além dos pesos do modelo de base.
Sobrecarga de ajuste fino:os requisitos de memória para ajustar modelos do Gemma são muito maiores do que para a inferência padrão. Sua pegada exata vai depender muito da estrutura de desenvolvimento, do tamanho do lote e se você está usando o ajuste de precisão total ou um método de ajuste fino com eficiência de parâmetros (PEFT, na sigla em inglês), como a adaptação de classificação baixa (LoRA, na sigla em inglês).

Treinamento com Quantization Aware (QAT)

Para implantações que exigem eficiência máxima com o mínimo de comprometimento de qualidade, o Gemma oferece modelos oficiais de treinamento com Quantization Aware (QAT).

Ao contrário da quantização pós-treinamento (PTQ, na sigla em inglês) padrão, que compacta um modelo totalmente treinado e pode levar à degradação da qualidade, o QAT integra a simulação de quantização ao próprio processo de treinamento. Isso permite que o modelo aprenda a compensar a perda de precisão, resultando em modelos menores que têm desempenho quase idêntico às linhas de base de alta precisão.

Tabela de roteamento rápido

Mecanismo de implantação de destino	Sufixo de download	Caso de uso principal
llama.cpp / LM Studio (local)	`{model-name}-qat-q4_0-gguf`	Implantação local sem configuração na CPU, no Apple Silicon ou em GPUs de consumo.
vLLM / SGLang	SERVIDOR: `{model-name}-qat-w4a16-ct` DISPOSITIVO MÓVEL: `{model-name}-qat-mobile-ct`	Inferencia de alta capacidade usando pesos de 4 bits com ativações de 16 bits.
Decodificação especulativa	MODELO: `{model-name}-qat-q4_0-unquantized` RASCUNHO: `{model-name}-qat-q4_0-unquantized-assistant`	Executar um modelo principal com o modelo de rascunho MTP correspondente para acelerar drasticamente a geração de tokens. O modelo precisa ser quantizado.
Outros formatos	`{model-name}-qat-q4_0-unquantized`	Pesos não quantizados para conversão em outros formatos (por exemplo, MLX)
Implantação para dispositivos móveis (Transformers)	`{model-name}-qat-mobile-transformers`	Pesos de borda otimizados para casos de uso em dispositivos móveis. Eles servem como referência para outros formatos.

Coleções oficiais de QAT no Hugging Face

collections/google/gemma-4-qat-q4-0
- Pontos de verificação de QAT não quantizados (-unquantized / -assistant) : pesos de meia precisão extraídos diretamente do pipeline de QAT. Eles são ideais para compilação downstream personalizada, pesquisa ou execução de decodificação especulativa usando os modelos de rascunho do assistente. Disponível para Gemma 4 E2B, E4B, 12B, 26B A4B e 31B.
- GGUF (-gguf) : pontos de verificação disponíveis para compatibilidade imediata em todo o ecossistema local de LLM. Disponível para Gemma 4 E2B, E4B, 12B, 26B A4B e 31B.
- Tensores compactados (-w4a16-ct) : serializados nativamente no padrão compressed-tensors para serviço de nuvem otimizado e de alta simultaneidade. Disponível para Gemma 4 E2B, E4B, 12B e 31B.
collections/google/gemma-4-qat-mobile
- Otimizado para dispositivos móveis (-mobile-transformers / -mobile-ct) : criado em um esquema wNa8o8 personalizado projetado especificamente para limites de hardware móvel. Ele usa camadas de decodificação de 2 bits direcionadas, caches KV otimizados e ativações estáticas para maximizar a economia de RAM no dispositivo sem estrangular os processadores de borda. Disponível para Gemma 4 E2B e E4B.

Todos os pontos de verificação oficiais do Gemma 4 QAT também podem ser acessados diretamente de Kaggle.

Modelos anteriores do Gemma

Você pode trabalhar com gerações anteriores de modelos do Gemma, que também estão disponíveis no Kaggle e Hugging Face. Para mais detalhes técnicos sobre modelos anteriores do Gemma, consulte as seguintes páginas de card de modelo:

Card de modelo do Gemma 3 Model Card
Card de modelo do Gemma 2 Model Card
Card de modelo do Gemma 1 Model Card

Tudo pronto para começar? Comece a usar os modelos do Gemma.