O Gemma é uma família de modelos de inteligência artificial generativa que pode ser usada em várias tarefas de geração, incluindo respostas a perguntas, resumos e raciocínio. Os modelos do Gemma são fornecidos com pesos abertos e permitem o uso comercial responsável, permitindo que você os ajuste e implante em seus próprios projetos e aplicativos.
A família de modelos Gemma 4 abrange quatro arquiteturas distintas adaptadas a requisitos de hardware específicos:
- Tamanhos pequenos:modelos de parâmetros efetivos de 2B e 4B criados para implantação em dispositivos ultramóveis, na borda e em navegadores (por exemplo, Pixel, Chrome).
- Denso:um modelo denso e eficiente com 31 bilhões de parâmetros que preenche a lacuna entre o desempenho de nível de servidor e a execução local.
- Mixture-of-Experts::um modelo MoE de 26 bilhões de parâmetros altamente eficiente projetado para alto rendimento e raciocínio avançado.
- Unificado:um modelo de codificador de parâmetros 12B sem custo financeiro para tarefas multimodais, que substituiu os codificadores de visão e áudio por projeções lineares diretas da entrada.
Você pode fazer o download dos modelos do Gemma 4 no Kaggle e no Hugging Face. Para mais detalhes técnicos sobre o Gemma 4, consulte o card de modelo. Versões anteriores dos modelos principais do Gemma também estão disponíveis para download. Para mais informações, consulte Modelos anteriores do Gemma.
Disponível no Kaggle Disponível no Hugging Face
Recursos
- Raciocínio:todos os modelos da família são projetados como raciocinadores altamente capazes, com modos de pensamento configuráveis.
- Multimodalidades estendidas:processa texto, imagem com suporte a proporção e resolução variáveis (todos os modelos), vídeo e áudio (disponível nativamente nos modelos E2B, E4B e 12B).
- Janela de contexto maior:os modelos pequenos têm uma janela de contexto de 128 mil, enquanto os médios oferecem suporte a 256 mil.
- Recursos aprimorados de programação e de agente:alcança melhorias notáveis em benchmarks de programação, além de suporte integrado para chamadas de função, impulsionando agentes autônomos altamente capazes.
- Compatibilidade nativa com comandos do sistema:o Gemma 4 apresenta compatibilidade integrada com a função de sistema, permitindo conversas mais estruturadas e controláveis.
- Previsão de vários tokens:todos os modelos do Gemma 4 (E2B, E4B, 12B, 31B e 26B A4B) incluem um modelo de rascunho dedicado para decodificação especulativa, permitindo uma inferência significativamente mais rápida sem perda de qualidade.
Tamanhos de parâmetros e quantização
Os modelos do Gemma 4 estão disponíveis em cinco tamanhos de parâmetros: E2B, E4B, 12B, 31B e 26B A4B. Os modelos podem ser usados com a precisão padrão (16 bits) ou com uma precisão menor usando quantização. Os diferentes tamanhos e precisões representam um conjunto de compensações para seu aplicativo de IA. Modelos com mais parâmetros e contagens de bits (maior precisão) geralmente são mais capazes, mas mais caros para executar em termos de ciclos de processamento, custo de memória e consumo de energia. Modelos com menos parâmetros e contagens de bits (menor precisão) têm menos recursos, mas podem ser suficientes para sua tarefa de IA.
Requisitos de memória de inferência do Gemma 4
A tabela a seguir detalha os requisitos aproximados de memória de GPU ou TPU para executar inferências com cada tamanho das versões do modelo Gemma 4.
| Parâmetros | BF16 (16 bits) | SFP8 (8 bits) | Q4_0 (4 bits) | Dispositivo móvel | Dispositivos móveis (somente texto) |
|---|---|---|---|---|---|
| Gemma 4 E2B | 11,4 GB | 5,7 GB | 2,9 GB | 1,1 GB | 0,84 GB |
| Gemma 4 E4B | 17,9 GB | 8,9 GB | 4,5 GB | 2,5 GB | 2,2 GB |
| Gemma 4 12B | 26,7 GB | 13,4 GB | 6,7 GB | - | - |
| Gemma 4 26B A4B | 57,7 GB | 28,8 GB | 14,4 GB | - | - |
| Gemma 4 31B | 69,9 GB | 34,9 GB | 17,5 GB | - | - |
Tabela 1. Memória aproximada de GPU ou TPU necessária para carregar modelos do Gemma 4 com base na contagem de parâmetros, no nível de quantização e em 20% de sobrecarga de carregamento de itens adicionais. As versões para dispositivos móveis usam o LiteRT-LM.
Principais considerações para o planejamento de memória
- Arquitetura eficiente (E2B e E4B): o "E" significa parâmetros "eficazes". Os modelos menores incorporam incorporações por camada (PLE, na sigla em inglês) para maximizar a eficiência dos parâmetros em implantações no dispositivo. Em vez de adicionar mais camadas ao modelo, o PLE dá a cada camada de decodificador um pequeno embedding próprio para cada token. Essas tabelas de incorporação são grandes, mas usadas apenas para pesquisas rápidas. Por isso, a memória total necessária para carregar pesos estáticos é maior do que o número de parâmetros efetivos sugere.
- Arquitetura MoE (26B A4B): o 26B é um modelo de Mix de Especialistas. Embora ele ative apenas 4 bilhões de parâmetros por token durante a geração, todos os 26 bilhões de parâmetros precisam ser carregados na memória para manter a velocidade de roteamento e inferência. Por isso, o requisito de memória de base é muito mais próximo de um modelo denso de 26 bilhões do que de um modelo de 4 bilhões.
- Somente ponderações básicas:as estimativas na tabela anterior consideram apenas a memória necessária para carregar as ponderações do modelo estático. Elas não incluem a VRAM adicional necessária para o software de suporte ou a janela de contexto.
- Janela de contexto (cache KV): o consumo de memória aumenta dinamicamente com base no número total de tokens no comando e na resposta gerada. Janelas de contexto maiores exigem muito mais VRAM além dos pesos do modelo de base.
- Sobrecarga de ajuste fino:os requisitos de memória para ajustar modelos do Gemma são muito maiores do que para a inferência padrão. Sua pegada exata depende muito da estrutura de desenvolvimento, do tamanho do lote e se você está usando ajuste de precisão total ou um método de ajuste fino com eficiência de parâmetros (PEFT), como adaptação de classificação baixa (LoRA).
Treinamento com Quantization Aware (QAT)
Para implantações que exigem máxima eficiência com compromisso mínimo de qualidade, a Gemma oferece modelos oficiais de treinamento com reconhecimento de quantização (QAT).
Ao contrário da quantização pós-treinamento (PTQ) padrão, que compacta um modelo totalmente treinado e pode levar à degradação da qualidade, a QAT integra a simulação de quantização ao próprio processo de treinamento. Isso permite que o modelo aprenda a compensar a perda de precisão, resultando em modelos menores que têm desempenho quase idêntico às linhas de base de alta precisão.
Tabela de roteamento rápido
| Mecanismo de implantação de destino | Sufixo de download | Caso de uso principal |
|---|---|---|
| llama.cpp / LM Studio (local) | {model-name}-qat-q4_0-gguf |
Implantação local sem configuração em CPU, Apple Silicon ou GPUs de consumo. |
| vLLM / SGLang | SERVIDOR: {model-name}-qat-w4a16-ctDISPOSITIVO MÓVEL: {model-name}-qat-mobile-ct |
Inferência de alta capacidade usando pesos de 4 bits com ativações de 16 bits. |
| Decodificação especulativa | MODELO: {model-name}-qat-q4_0-unquantizedRASCUNHO: {model-name}-qat-q4_0-unquantized-assistant |
Executar um modelo principal ao lado do modelo de rascunho de MTP correspondente para acelerar drasticamente a geração de tokens. O modelo precisa ser quantizado. |
| Outros formatos | {model-name}-qat-q4_0-unquantized |
Pesos não quantizados para conversão em outros formatos (por exemplo, MLX) |
| Implantação em dispositivos móveis (Transformers) | {model-name}-qat-mobile-transformers |
Ponderações de borda otimizadas para casos de uso em dispositivos móveis. Elas servem como referência para outros formatos. |
Coleções oficiais de QAT no Hugging Face
- collections/google/gemma-4-qat-q4-0
- Pontos de verificação de QAT não quantizados (
-unquantized/-assistant): pesos de meia precisão extraídos diretamente do pipeline de QAT. Eles são ideais para compilação downstream personalizada, pesquisa ou execução de decodificação especulativa usando os modelos de rascunho do assistente. Disponível para Gemma 4 E2B, E4B, 12B, 26B A4B e 31B. - GGUF (
-gguf): pontos de verificação disponíveis para compatibilidade imediata em todo o ecossistema de LLMs locais. Disponível para Gemma 4 E2B, E4B, 12B, 26B A4B e 31B. - Tensores compactados (
-w4a16-ct): serializados nativamente no padrãocompressed-tensorspara veiculação otimizada e de alta simultaneidade na nuvem. Disponível para Gemma 4 E2B, E4B, 12B e 31B.
- Pontos de verificação de QAT não quantizados (
- collections/google/gemma-4-qat-mobile
- Otimizado para dispositivos móveis (
-mobile-transformers/-mobile-ct): criado em um esquemawNa8o8personalizado projetado especificamente para limites de hardware móvel. Ele usa camadas de decodificação de 2 bits segmentadas, caches KV otimizados e ativações estáticas para maximizar a economia de RAM no dispositivo sem sobrecarregar os processadores de borda. Disponível para Gemma 4 E2B e E4B.
- Otimizado para dispositivos móveis (
Todos os pontos de verificação oficiais de QAT do Gemma 4 também podem ser acessados diretamente no Kaggle (link em inglês).
Modelos Gemma anteriores
Você pode trabalhar com gerações anteriores de modelos Gemma, que também estão disponíveis no Kaggle e no Hugging Face. Para mais detalhes técnicos sobre modelos anteriores do Gemma, consulte as seguintes páginas de cards de modelos:
- Card de modelo do Gemma 3
- Card de modelo do Gemma 2
- Card de modelo do Gemma 1
Tudo pronto para começar? Comece a usar os modelos do Gemma!