
Hugging Face |
GitHub |
Blog de lançamento |
Documentação
Licença: Apache 2.0 | Autores: Google DeepMind
O Gemma é uma família de modelos abertos criados pelo Google DeepMind. Os modelos Gemma 4 são multimodais, processam entradas de texto e imagem (com suporte a áudio em modelos pequenos) e geram saídas de texto. Essa versão inclui modelos de peso aberto nas variantes pré-treinadas e ajustadas por instruções. O Gemma 4 tem uma janela de contexto de até 256 mil tokens e mantém o suporte multilíngue em mais de 140 idiomas.
Com arquiteturas densas e de mistura de especialistas (MoE), o Gemma 4 é adequado para tarefas como geração de texto, programação e raciocínio. Os modelos estão disponíveis em quatro tamanhos diferentes: E2B, E4B, 26B A4B e 31B. Os diversos tamanhos permitem a implantação em ambientes que vão de smartphones sofisticados a laptops e servidores, democratizando o acesso à IA de ponta.
O Gemma 4 apresenta importantes avanços de capacidade e arquitetura:
Raciocínio: todos os modelos da família são projetados como raciocinadores altamente capazes, com modos de pensamento configuráveis.
Multimodalidades estendidas: processa texto, imagem com proporção e resolução variáveis (todos os modelos), vídeo e áudio (disponível nativamente nos modelos E2B e E4B).
Arquiteturas diversas e eficientes: oferecem variantes densas e de combinação de especialistas (MoE) de diferentes tamanhos para implantação escalonável.
Otimizado para dispositivos: modelos menores são projetados especificamente para execução local eficiente em laptops e dispositivos móveis.
Janela de contexto maior: os modelos pequenos têm uma janela de contexto de 128 mil, enquanto os médios oferecem suporte a 256 mil.
Recursos aprimorados de programação e de agente: alcança melhorias significativas em comparativos de programação, além de suporte nativo para chamadas de função, impulsionando agentes autônomos altamente capazes.
Suporte nativo a comandos do sistema: o Gemma 4 apresenta suporte nativo à função
system, permitindo conversas mais estruturadas e controláveis.
Visão geral dos modelos
Os modelos Gemma 4 foram projetados para oferecer desempenho de ponta em cada tamanho, visando cenários de implantação de dispositivos móveis e de borda (E2B, E4B) a GPUs e estações de trabalho para consumidores (26B A4B, 31B). Elas são adequadas para raciocínio, fluxos de trabalho baseados em agentes, programação e compreensão multimodal.
Os modelos usam um mecanismo de atenção híbrido que intercala a atenção da janela deslizante local com a atenção global completa, garantindo que a camada final seja sempre global. Esse design híbrido oferece a velocidade de processamento e a baixa demanda de memória de um modelo leve sem sacrificar a percepção profunda necessária para tarefas complexas e de contexto longo. Para otimizar a memória em contextos longos, as camadas globais usam chaves e valores unificados e aplicam a RoPE proporcional (p-RoPE).
Modelos densos
| Propriedade | E2B | E4B | 31B Dense |
|---|---|---|---|
| Total de parâmetros | 2,3 bilhões efetivos (5,1 bilhões com embeddings) | 4,5 bilhões efetivos (8 bilhões com embeddings) | 30,7 bilhões |
| Camadas | 35 | 42 | 60 |
| Janela deslizante | 512 tokens | 512 tokens | 1.024 tokens |
| Tamanho do contexto | 128 mil tokens | 128 mil tokens | 256 mil tokens |
| Tamanho do vocabulário | 262 mil | 262 mil | 262 mil |
| Modalidades aceitas | Texto, imagem, áudio | Texto, imagem, áudio | Texto, imagem |
| Parâmetros do codificador de visão | ~150 milhões | ~150 milhões | ~550 milhões |
| Parâmetros do codificador de áudio | ~300 milhões | ~300 milhões | Sem áudio |
O "E" em E2B e E4B significa parâmetros "eficazes". Os modelos menores incorporam incorporações por camada (PLE, na sigla em inglês) para maximizar a eficiência dos parâmetros em implantações no dispositivo. Em vez de adicionar mais camadas ou parâmetros ao modelo, a PLE dá a cada camada de decodificador um pequeno embedding próprio para cada token. Essas tabelas de incorporação são grandes, mas são usadas apenas para pesquisas rápidas. Por isso, a contagem de parâmetros efetivos é muito menor do que o total.
Modelo de combinação de especialistas (MoE)
| Propriedade | 26B A4B MoE |
|---|---|
| Total de parâmetros | 25,2 bilhões |
| Parâmetros ativos | 3,8 bilhões |
| Camadas | 30 |
| Janela deslizante | 1.024 tokens |
| Tamanho do contexto | 256 mil tokens |
| Tamanho do vocabulário | 262 mil |
| Contagem de especialistas | 8 ativos / 128 no total e 1 compartilhado |
| Modalidades aceitas | Texto, imagem |
| Parâmetros do codificador de visão | ~550 milhões |
O "A" em 26B A4B significa "parâmetros ativos", em contraste com o número total de parâmetros que o modelo contém. Ao ativar apenas um subconjunto de 4 bilhões de parâmetros durante a inferência, o modelo de Mixture-of-Experts é executado muito mais rápido do que o total de 26 bilhões pode sugerir. Isso a torna uma excelente opção para inferência rápida em comparação com o modelo denso de 31 bilhões de parâmetros, já que ela é executada quase tão rápido quanto um modelo de 4 bilhões de parâmetros.
Resultados de comparativo de mercado
Esses modelos foram avaliados em uma grande coleção de diferentes conjuntos de dados e métricas para abranger diferentes aspectos da geração de texto. Os resultados da avaliação marcados na tabela são para modelos ajustados por instruções.
| Gemma 4 31B | Gemma 4 26B A4B | Gemma 4 E4B | Gemma 4 E2B | Gemma 3 27B (sem pensar) | |
|---|---|---|---|---|---|
| MMLU Pro | 85,2% | 82,6% | 69,4% | 60,0% | 67,6% |
| AIME 2026 no tools | 89,2% | 88,3% | 42,5% | 37,5% | 20,8% |
| LiveCodeBench v6 | 80,0% | 77,1% | 52,0% | 44,0% | 29,1% |
| ELO do Codeforces | 2150 | 1718 | 940 | 633 | 110 |
| GPQA Diamond | 84,3% | 82,3% | 58,6% | 43,4% | 42,4% |
| Tau2 (média de 3) | 76,9% | 68,2% | 42,2% | 24,5% | 16,2% |
| HLE sem ferramentas | 19,5% | 8,7% | - | - | - |
| HLE com pesquisa | 26,5% | 17,2% | - | - | - |
| BigBench Extra Hard | 74,4% | 64,8% | 33,1% | 21,9% | 19,3% |
| MMMLU | 88,4% | 86,3% | 76,6% | 67,4% | 70,7% |
| Visão | |||||
| MMMU Pro | 76,9% | 73,8% | 52,6% | 44,2% | 49,7% |
| OmniDocBench 1.5 (distância de edição média, quanto menor, melhor) | 0,131 | 0,149 | 0,181 | 0,290 | 0,365 |
| MATH-Vision | 85,6% | 82,4% | 59,5% | 52,4% | 46,0% |
| MedXPertQA MM | 61,3% | 58,1% | 28,7% | 23,5% | - |
| Áudio | |||||
| CoVoST | - | - | 35,54 | 33,47 | - |
| FLEURS (quanto menor, melhor) | - | - | 0,08 | 0,09 | - |
| Contexto longo | |||||
| MRCR v2 8 agulhas 128k (média) | 66,4% | 44,1% | 25,4% | 19,1% | 13,5% |
Recursos principais
Os modelos do Gemma 4 realizam várias tarefas em texto, visão e áudio. As principais capacidades incluem:
- Pensamento: modo de raciocínio integrado que permite ao modelo pensar etapa por etapa antes de responder.
- Contexto longo: janelas de contexto de até 128 mil tokens (E2B/E4B) e 256 mil tokens (26B A4B/31B).
- Compreensão de imagens: detecção de objetos, análise de documentos/PDFs, compreensão de telas e interfaces, compreensão de gráficos, OCR (incluindo vários idiomas), reconhecimento de escrita à mão e apontamento. As imagens podem ser processadas em proporções e resoluções variáveis.
- Entendimento de vídeo: analise vídeos processando sequências de frames.
- Entrada multimodal intercalada: misture livremente texto e imagens em qualquer ordem em um único comando.
- Chamada de função: suporte nativo para uso estruturado de ferramentas, permitindo fluxos de trabalho de agentes.
- Programação: geração, preenchimento e correção de código.
- Multilíngue: suporte pronto para uso para mais de 35 idiomas, pré-treinado em mais de 140 idiomas.
- Áudio (somente E2B e E4B): reconhecimento automático de fala (ASR) e tradução de voz para texto traduzido em vários idiomas.
Primeiros passos
É possível usar todos os modelos Gemma 4 com a versão mais recente do Transformers. Para começar, instale as dependências necessárias no seu ambiente:
pip install -U transformers torch accelerate
Depois de instalar tudo, carregue o modelo com o código abaixo:
import torch
from transformers import AutoProcessor, AutoModelForCausalLM
MODEL_ID = "google/gemma-4-E2B-it"
# Load model
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForCausalLM.from_pretrained(
MODEL_ID,
dtype=torch.bfloat16,
device_map="auto"
)
Depois que o modelo for carregado, você poderá começar a gerar saída:
# Prompt
messages = [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Write a short joke about saving RAM."},
]
# Process input
text = processor.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
enable_thinking=False
)
inputs = processor(text=text, return_tensors="pt").to(model.device)
input_len = inputs["input_ids"].shape[-1]
# Generate output
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)
# Parse thinking
processor.parse_response(response)
Para ativar o raciocínio, defina enable_thinking=True. A função parse_response vai analisar a saída de pensamento.
Práticas recomendadas
Para ter o melhor desempenho, use estas configurações e práticas recomendadas:
1. Parâmetros de amostragem
Use a seguinte configuração de amostragem padronizada em todos os casos de uso:
temperature=1.0top_p=0.95top_k=64
2. Configuração do modo de raciocínio
Em comparação com o Gemma 3, os modelos usam papéis padrão de system, assistant e user. Para gerenciar adequadamente o processo de pensamento, use os seguintes tokens de controle:
- Raciocínio Acionado: o raciocínio é ativado incluindo o token
<|think|>no início do comando do sistema. Para desativar o recurso, remova o token. - Geração padrão:quando o pensamento está ativado, o modelo gera o raciocínio interno seguido da resposta final usando esta estrutura:
<|channel>thought\n[Raciocínio interno]<channel|> - Comportamento de raciocínio desativado:para todos os modelos, exceto as variantes E2B e E4B, se o raciocínio estiver desativado, o modelo ainda vai gerar as tags, mas com um bloco de pensamento vazio:
<|channel>thought\n<channel|>[Resposta final]
Muitas bibliotecas, como Transformers e llama.cpp, lidam com as complexidades do modelo de chat para você.
3. Conversas com vários turnos
- Sem conteúdo de raciocínio no histórico: em conversas multiturno, a saída do modelo histórico deve incluir apenas a resposta final. As reflexões de turnos anteriores do modelo não podem ser adicionadas antes do início do próximo turno do usuário.
4. Ordem de modalidade
- Para ter o melhor desempenho com entradas multimodais, coloque o conteúdo de imagem e/ou áudio antes do texto no comando.
5. Resolução de imagem variável
Além de proporções variáveis, o Gemma 4 oferece suporte a resolução de imagem variável com um orçamento configurável de tokens visuais, que controla quantos tokens são usados para representar uma imagem. Um orçamento de token maior preserva mais detalhes visuais ao custo de computação adicional, enquanto um orçamento menor permite uma inferência mais rápida para tarefas que não exigem um entendimento refinado.
- Os orçamentos de token aceitos são: 70, 140, 280, 560 e 1120.
- Use orçamentos menores para classificação, legendagem ou compreensão de vídeo, em que a inferência mais rápida e o processamento de muitos frames superam os detalhes refinados.
- Use orçamentos mais altos para tarefas como OCR, análise de documentos ou leitura de textos pequenos.
6. Áudio
Use as seguintes estruturas de comandos para o processamento de áudio:
- Reconhecimento de fala de áudio (ASR)
Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.
Follow these specific instructions for formatting the answer:
* Only output the transcription, with no newlines.
* When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.
- Tradução automática de voz (AST)
Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.
7. Duração de áudio e vídeo
Todos os modelos aceitam entradas de imagem e podem processar vídeos como frames. Já os modelos E2B e E4B também aceitam entradas de áudio. O áudio pode ter até 30 segundos. O vídeo aceita no máximo 60 segundos, supondo que as imagens sejam processadas a um frame por segundo.
Dados do modelo
Dados usados para treinamento de modelo e como eles foram tratados.
Conjunto de dados de treinamento
Nosso conjunto de dados de pré-treinamento é uma coleção diversificada de dados em grande escala que abrange uma ampla variedade de domínios e modalidades, incluindo documentos da Web, código, imagens, áudio, com uma data de corte de janeiro de 2025. Estes são os principais componentes:
- Documentos da Web: uma coleção diversificada de textos da Web garante que o modelo seja exposto a uma ampla variedade de estilos linguísticos, tópicos e vocabulário. O conjunto de dados de treinamento inclui conteúdo em mais de 140 idiomas.
- Código: expor o modelo a código ajuda a aprender a sintaxe e os padrões das linguagens de programação, o que melhora a capacidade de gerar código e entender perguntas relacionadas a ele.
- Matemática: o treinamento em textos matemáticos ajuda o modelo a aprender raciocínio lógico, representação simbólica e a responder consultas matemáticas.
- Imagens: uma ampla variedade de imagens permite que o modelo realize tarefas de análise de imagens e extração de dados visuais.
A combinação dessas diversas fontes de dados é crucial para treinar um modelo multimodal eficiente que pode lidar com uma ampla variedade de tarefas e formatos de dados diferentes.
Pré-processamento de dados
Estes são os principais métodos de limpeza e filtragem de dados aplicados aos dados de treinamento:
- Filtragem de CSAM: uma filtragem rigorosa de CSAM (material de abuso sexual infantil) foi aplicada em várias etapas do processo de preparação de dados para garantir a exclusão de conteúdo prejudicial e ilegal.
- Filtragem de dados sensíveis: para tornar os modelos pré-treinados da Gemma seguros e confiáveis, usamos técnicas automatizadas para filtrar algumas informações pessoais e outros dados sensíveis dos conjuntos de treinamento.
- Outros métodos: filtragem com base na qualidade e segurança do conteúdo, de acordo com nossas políticas.
Ética e segurança
À medida que os modelos abertos se tornam essenciais para a infraestrutura empresarial, a origem e a segurança são fundamentais. Desenvolvido pelo Google DeepMind, o Gemma 4 passa pelas mesmas avaliações de segurança rigorosas que nossos modelos proprietários do Gemini.
Abordagem de avaliação
Os modelos do Gemma 4 foram desenvolvidos em parceria com equipes internas de segurança e IA responsável. Várias avaliações automáticas e humanas foram realizadas para melhorar a segurança do modelo. Essas avaliações estão alinhadas aos princípios de IA do Google e às políticas de segurança, que visam impedir que nossos modelos de IA generativa criem conteúdo nocivo, incluindo:
- Conteúdo relacionado a material de abuso e exploração sexual infantil
- Conteúdo perigoso (por exemplo, que promova o suicídio ou instrua atividades que possam causar danos reais)
- Conteúdo sexualmente explícito
- Discurso de ódio (por exemplo, desumanizar membros de grupos protegidos)
- Assédio (por exemplo, incentivar a violência contra pessoas)
Resultados da avaliação
Em todas as áreas de teste de segurança, observamos melhorias significativas em todas as categorias de segurança de conteúdo em relação aos modelos anteriores da Gemma. No geral, os modelos Gemma 4 superam significativamente os modelos Gemma 3 e 3n na melhoria da segurança, mantendo baixas as recusas injustificadas. Todos os testes foram realizados sem filtros de segurança para avaliar os recursos e comportamentos do modelo. Para texto para texto e imagem para texto, e em todos os tamanhos de modelo, o modelo gerou violações mínimas de política e mostrou melhorias significativas em relação ao desempenho dos modelos anteriores do Gemma.
Uso e limitações
Esses modelos têm algumas limitações que os usuários precisam conhecer.
Uso pretendido
Os modelos multimodais (capazes de processar visão, linguagem e/ou áudio) têm uma ampla gama de aplicações em vários setores e domínios. A lista a seguir de possíveis usos não é abrangente. O objetivo dessa lista é fornecer informações contextuais sobre os possíveis casos de uso que os criadores do modelo consideraram como parte do treinamento de modelo e desenvolvimento.
- Criação de conteúdo e comunicação
- Geração de texto: esses modelos podem ser usados para gerar formatos de texto criativos, como poemas, scripts, código, textos de marketing e rascunhos de e-mail.
- Chatbots e IA de conversação: potencialize interfaces de conversação para atendimento ao cliente, assistentes virtuais ou aplicativos interativos.
- Resumo de texto: gere resumos concisos de um corpus de texto, artigos de pesquisa ou relatórios.
- Extração de dados de imagem: esses modelos podem ser usados para extrair, interpretar e resumir dados visuais para comunicações de texto.
- Processamento e interação de áudio: os modelos menores (E2B e E4B) podem analisar e interpretar entradas de áudio, permitindo interações e transcrições por voz.
- Pesquisa e educação
- Pesquisa sobre processamento de linguagem natural (PLN) e VLM: esses modelos podem servir como base para que pesquisadores testem técnicas de VLM e PLN, desenvolvam algoritmos e contribuam para o avanço da área.
- Ferramentas de aprendizado de idiomas: oferecem experiências interativas de aprendizado de idiomas, ajudando na correção gramatical ou oferecendo prática de escrita.
- Exploração de conhecimento: ajuda os pesquisadores a analisar grandes quantidades de texto gerando resumos ou respondendo a perguntas sobre temas específicos.
Limitações
- Dados de treinamento
- A qualidade e a diversidade dos dados de treinamento influenciam significativamente as capacidades do modelo. Vieses ou lacunas nos dados de treinamento podem levar a limitações nas respostas do modelo.
- O escopo do conjunto de dados de treinamento determina as áreas de assunto que o modelo pode processar com eficiência.
- Contexto e complexidade da tarefa
- Os modelos têm um bom desempenho em tarefas que podem ser enquadradas com comandos e instruções claras. Tarefas abertas ou altamente complexas podem ser difíceis.
- O desempenho de um modelo pode ser influenciado pela quantidade de contexto fornecida. Contextos mais longos geralmente levam a resultados melhores, até um determinado ponto.
- Ambiguidade e nuances da linguagem
- A linguagem natural é inerentemente complexa. Os modelos podem ter dificuldade para entender nuances sutis, sarcasmo ou linguagem figurada.
- Precisão factual
- Os modelos geram respostas com base nas informações aprendidas com os conjuntos de dados de treinamento, mas não são bases de conhecimento. Elas podem gerar declarações factuais incorretas ou desatualizadas.
- Common Sense
- Os modelos dependem de padrões estatísticos na linguagem. Elas podem não ter a capacidade de aplicar o raciocínio de bom senso em determinadas situações.
Considerações e riscos éticos
O desenvolvimento de modelos de visão-linguagem (VLMs) levanta várias questões éticas. Ao criar um modelo aberto, consideramos cuidadosamente o seguinte:
- Viés e imparcialidade
- Os VLMs treinados com dados de texto e imagem em grande escala do mundo real podem refletir vieses socioculturais incorporados no material de treinamento. Os modelos do Gemma 4 passaram por uma análise cuidadosa, pré-processamento de dados de entrada e avaliações pós-treinamento, conforme informado neste card, para ajudar a reduzir o risco desses vieses.
- Desinformação e uso indevido
- Os VLMs podem ser usados indevidamente para gerar texto falso, enganoso ou prejudicial.
- Consulte as diretrizes para uso responsável com o modelo no Toolkit para IA generativa responsável.
- Transparência e responsabilidade
- Este card de modelo resume detalhes sobre a arquitetura, as capacidades, as limitações e os processos de avaliação dos modelos.
- Um modelo aberto desenvolvido de forma responsável oferece a oportunidade de compartilhar a inovação, tornando a tecnologia VLM acessível a desenvolvedores e pesquisadores em todo o ecossistema de IA.
Riscos identificados e mitigação:
- Geração de conteúdo nocivo: mecanismos e diretrizes de segurança de conteúdo são essenciais. Recomendamos que os desenvolvedores tenham cautela e implementem as proteções de segurança de conteúdo adequadas com base nas políticas de produtos e casos de uso de aplicativos específicos.
- Uso indevido para fins maliciosos: limitações técnicas e educação de desenvolvedores e usuários finais podem ajudar a reduzir os aplicativos maliciosos de VLMs. Recursos educacionais e mecanismos de denúncia para que os usuários sinalizem o uso indevido são fornecidos.
- Violações de privacidade: os modelos foram treinados com dados filtrados para remoção de determinadas informações pessoais e outros dados sensíveis. Os desenvolvedores são incentivados a obedecer às regulamentações de privacidade com técnicas que preservam a privacidade.
- Perpetuação de vieses: é recomendável realizar monitoramento contínuo (usando métricas de avaliação e revisão humana) e explorar técnicas de remoção de vieses durante o treinamento de modelo e ajuste fino, além de outros casos de uso.
Benefícios
No momento do lançamento, essa família de modelos oferece implementações de modelos de linguagem de visão aberta de alto desempenho projetadas desde o início para o desenvolvimento de IA responsável em comparação com modelos de tamanho semelhante.