Gemma 4 lançado com entrada de texto, áudio e imagem e janela de contexto longa de até 256 mil tokens! Saiba mais

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Card de modelo do Gemma 4

Banner da Gemma 4

Hugging Face | GitHub | Blog de lançamento | Documentação
Licença: Apache 2.0 | Autores: Google DeepMind

O Gemma é uma família de modelos abertos criados pelo Google DeepMind. Os modelos Gemma 4 são multimodais, processam entradas de texto e imagem (com áudio compatível em modelos pequenos) e geram saídas de texto. Essa versão inclui modelos de peso aberto nas variantes pré-treinadas e ajustadas por instruções. O Gemma 4 tem uma janela de contexto de até 256 mil tokens e mantém o suporte multilíngue em mais de 140 idiomas.

Com arquiteturas densas e de mistura de especialistas (MoE), o Gemma 4 é adequado para tarefas como geração de texto, programação e raciocínio. Os modelos estão disponíveis em quatro tamanhos diferentes: E2B, E4B, 26B A4B e 31B. Os diversos tamanhos permitem a implantação em ambientes que vão de smartphones sofisticados a laptops e servidores, democratizando o acesso à IA de ponta.

O Gemma 4 apresenta importantes avanços de capacidade e arquitetura:

Raciocínio: todos os modelos da família são projetados como raciocinadores altamente capazes, com modos de pensamento configuráveis.
Multimodalidades estendidas: processa texto, imagem com proporção e resolução variáveis (todos os modelos), vídeo e áudio (destacado nativamente nos modelos E2B e E4B).
Arquiteturas diversas e eficientes: oferecem variantes densas e de Mixture-of-Experts (MoE) de tamanhos diferentes para implantação escalonável.
Otimizado para dispositivos: modelos menores são projetados especificamente para execução local eficiente em laptops e dispositivos móveis.
Janela de contexto maior: os modelos pequenos têm uma janela de contexto de 128 mil, enquanto os médios oferecem suporte a 256 mil.
Recursos aprimorados de programação e de agente: alcança melhorias notáveis em comparativos de programação, além de suporte nativo para chamadas de função, impulsionando agentes autônomos altamente capazes.
Suporte nativo a comandos do sistema: o Gemma 4 apresenta suporte nativo à função system, permitindo conversas mais estruturadas e controláveis.

Visão geral dos modelos

Os modelos Gemma 4 foram projetados para oferecer desempenho de ponta em cada tamanho, visando cenários de implantação de dispositivos móveis e de borda (E2B, E4B) a GPUs e estações de trabalho para consumidores (26B A4B, 31B). Elas são adequadas para raciocínio, fluxos de trabalho baseados em agentes, programação e compreensão multimodal.

Os modelos usam um mecanismo de atenção híbrido que intercala a atenção da janela deslizante local com a atenção global completa, garantindo que a camada final seja sempre global. Esse design híbrido oferece a velocidade de processamento e a baixa demanda de memória de um modelo leve sem sacrificar a percepção profunda necessária para tarefas complexas e de contexto longo. Para otimizar a memória em contextos longos, as camadas globais usam chaves e valores unificados e aplicam a RoPE proporcional (p-RoPE).

Modelos densos

Propriedade	E2B	E4B	31B Dense
Total de parâmetros	2,3 bilhões efetivos (5,1 bilhões com embeddings)	4,5 bilhões efetivos (8 bilhões com embeddings)	30,7 bilhões
Camadas	35	42	60
Janela deslizante	512 tokens	512 tokens	1.024 tokens
Tamanho do contexto	128 mil tokens	128 mil tokens	256 mil tokens
Tamanho do vocabulário	262 mil	262 mil	262 mil
Modalidades aceitas	Texto, imagem, áudio	Texto, imagem, áudio	Texto, imagem
Parâmetros do codificador de visão	~150 milhões	~150 milhões	~550 milhões
Parâmetros do codificador de áudio	~300 milhões	~300 milhões	Sem áudio

O "E" em E2B e E4B significa parâmetros "eficazes". Os modelos menores incorporam incorporações por camada (PLE, na sigla em inglês) para maximizar a eficiência dos parâmetros em implantações no dispositivo. Em vez de adicionar mais camadas ou parâmetros ao modelo, a PLE dá a cada camada de decodificador um pequeno embedding próprio para cada token. Essas tabelas de incorporação são grandes, mas são usadas apenas para pesquisas rápidas. Por isso, a contagem de parâmetros efetivos é muito menor do que o total.

Modelo de combinação de especialistas (MoE)

Propriedade	26B A4B MoE
Total de parâmetros	25,2 bilhões
Parâmetros ativos	3,8 bilhões
Camadas	30
Janela deslizante	1.024 tokens
Tamanho do contexto	256 mil tokens
Tamanho do vocabulário	262 mil
Contagem de especialistas	8 ativos / 128 no total e 1 compartilhado
Modalidades aceitas	Texto, imagem
Parâmetros do codificador de visão	~550 milhões

O "A" em 26B A4B significa "parâmetros ativos", em contraste com o número total de parâmetros que o modelo contém. Ao ativar apenas um subconjunto de 4 bilhões de parâmetros durante a inferência, o modelo de Mixture-of-Experts é executado muito mais rápido do que o total de 26 bilhões pode sugerir. Isso a torna uma excelente opção para inferência rápida em comparação com o modelo denso de 31 bilhões de parâmetros, já que ela é executada quase tão rápido quanto um modelo de 4 bilhões de parâmetros.

Resultados de comparativo de mercado

Esses modelos foram avaliados em uma grande coleção de diferentes conjuntos de dados e métricas para abranger diferentes aspectos da geração de texto. Os resultados da avaliação marcados na tabela são para modelos ajustados por instruções.

	Gemma 4 31B	Gemma 4 26B A4B	Gemma 4 E4B	Gemma 4 E2B	Gemma 3 27B (sem pensar)
MMLU Pro	85,2%	82,6%	69,4%	60,0%	67,6%
AIME 2026 sem ferramentas	89,2%	88,3%	42,5%	37,5%	20,8%
LiveCodeBench v6	80,0%	77,1%	52,0%	44,0%	29,1%
ELO do Codeforces	2150	1718	940	633	110
GPQA Diamond	84,3%	82,3%	58,6%	43,4%	42,4%
Tau2 (média de 3)	76,9%	68,2%	42,2%	24,5%	16,2%
HLE sem ferramentas	19,5%	8,7%	-	-	-
HLE com pesquisa	26,5%	17,2%	-	-	-
BigBench Extra Hard	74,4%	64,8%	33,1%	21,9%	19,3%
MMMLU	88,4%	86,3%	76,6%	67,4%	70,7%
Visão
MMMU Pro	76,9%	73,8%	52,6%	44,2%	49,7%
OmniDocBench 1.5 (distância de edição média, quanto menor, melhor)	0,131	0,149	0,181	0,290	0,365
MATH-Vision	85,6%	82,4%	59,5%	52,4%	46,0%
MedXPertQA MM	61,3%	58,1%	28,7%	23,5%	-
Áudio
CoVoST	-	-	35,54	33,47	-
FLEURS (quanto menor, melhor)	-	-	0,08	0,09	-
Contexto longo
MRCR v2 8 agulhas 128k (média)	66,4%	44,1%	25,4%	19,1%	13,5%

Recursos principais

Os modelos do Gemma 4 realizam várias tarefas em texto, visão e áudio. As principais capacidades incluem:

Pensamento: modo de raciocínio integrado que permite ao modelo pensar passo a passo antes de responder.
Contexto longo: janelas de contexto de até 128 mil tokens (E2B/E4B) e 256 mil tokens (26B A4B/31B).
Compreensão de imagens: detecção de objetos, análise de documentos/PDFs, compreensão de telas e interfaces, compreensão de gráficos, OCR (incluindo vários idiomas), reconhecimento de escrita à mão e apontamento. As imagens podem ser processadas em proporções e resoluções variáveis.
Entendimento de vídeo: analise vídeos processando sequências de frames.
Entrada multimodal intercalada: misture livremente texto e imagens em qualquer ordem em um único comando.
Chamada de função: suporte nativo para uso estruturado de ferramentas, permitindo fluxos de trabalho de agentes.
Programação: geração, preenchimento e correção de código.
Multilíngue: suporte pronto para uso para mais de 35 idiomas, pré-treinado em mais de 140 idiomas.
Áudio (somente E2B e E4B): reconhecimento automático de fala (ASR) e tradução de voz para texto traduzido em vários idiomas.

Práticas recomendadas

Para ter o melhor desempenho, use estas configurações e práticas recomendadas:

1. Parâmetros de amostragem

Use a seguinte configuração de amostragem padronizada em todos os casos de uso:

temperature=1.0
top_p=0.95
top_k=64

2. Configuração do modo de raciocínio

Em comparação com o Gemma 3, os modelos usam papéis padrão system, assistant e user. Para gerenciar adequadamente o processo de pensamento, use os seguintes tokens de controle:

Ativar o raciocínio:o raciocínio é ativado ao incluir o token <|think|> no início do comando do sistema. Para desativar o recurso, remova o token.
Geração padrão:quando o pensamento está ativado, o modelo gera o raciocínio interno seguido da resposta final usando esta estrutura: <|channel>thought\n[Raciocínio interno]<channel|>
Comportamento de raciocínio desativado:para todos os modelos, exceto as variantes E2B e E4B, se o raciocínio estiver desativado, o modelo ainda vai gerar as tags, mas com um bloco de pensamento vazio: <|channel>thought\n<channel|>[Resposta final]

Muitas bibliotecas, como Transformers e llama.cpp, lidam com as complexidades do modelo de chat para você.

3. Conversas com vários turnos

Sem conteúdo de raciocínio no histórico: em conversas multiturno, a saída do modelo histórico deve incluir apenas a resposta final. As reflexões de turnos anteriores do modelo não podem ser adicionadas antes do início do próximo turno do usuário.

4. Ordem de modalidade

Para ter o melhor desempenho com entradas multimodais, coloque o conteúdo de imagem e/ou áudio antes do texto no comando.

5. Resolução de imagem variável

Além de proporções variáveis, o Gemma 4 oferece suporte a resolução de imagem variável com um orçamento de tokens visuais configurável, que controla quantos tokens são usados para representar uma imagem. Um orçamento de token maior preserva mais detalhes visuais ao custo de computação adicional, enquanto um orçamento menor permite uma inferência mais rápida para tarefas que não exigem um entendimento refinado.

Os orçamentos de token aceitos são: 70, 140, 280, 560 e 1120.
- Use orçamentos menores para classificação, legendagem ou compreensão de vídeo, em que a inferência mais rápida e o processamento de muitos frames superam os detalhes refinados.
- Use orçamentos mais altos para tarefas como OCR, análise de documentos ou leitura de textos pequenos.

6. Áudio

Use as seguintes estruturas de comandos para o processamento de áudio:

Reconhecimento de fala de áudio (ASR)

Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
*   Only output the transcription, with no newlines.
*   When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.

Tradução automática de voz (AST)

Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

7. Duração de áudio e vídeo

Todos os modelos aceitam entradas de imagem e podem processar vídeos como frames. Já os modelos E2B e E4B também aceitam entradas de áudio. O áudio pode ter até 30 segundos. O vídeo aceita no máximo 60 segundos, supondo que as imagens sejam processadas a um frame por segundo.

Dados do modelo

Dados usados para treinamento de modelo e como eles foram tratados.

Conjunto de dados de treinamento

Nosso conjunto de dados de pré-treinamento é uma coleção diversificada de dados em grande escala que abrange uma ampla variedade de domínios e modalidades, incluindo documentos da Web, código, imagens, áudio, com uma data de corte de janeiro de 2025. Estes são os principais componentes:

Documentos da Web: uma coleção diversificada de textos da Web garante que o modelo seja exposto a uma ampla variedade de estilos linguísticos, tópicos e vocabulário. O conjunto de dados de treinamento inclui conteúdo em mais de 140 idiomas.
Código: expor o modelo a código ajuda a aprender a sintaxe e os padrões das linguagens de programação, o que melhora a capacidade de gerar código e entender perguntas relacionadas a ele.
Matemática: o treinamento em textos matemáticos ajuda o modelo a aprender raciocínio lógico, representação simbólica e a responder consultas matemáticas.
Imagens: uma ampla variedade de imagens permite que o modelo realize tarefas de análise de imagens e extração de dados visuais.

A combinação dessas diversas fontes de dados é crucial para treinar um modelo multimodal eficiente que pode lidar com uma ampla variedade de tarefas e formatos de dados diferentes.

Pré-processamento de dados

Estes são os principais métodos de limpeza e filtragem de dados aplicados aos dados de treinamento:

Filtragem de CSAM: uma filtragem rigorosa de CSAM (material de abuso sexual infantil) foi aplicada em várias etapas do processo de preparação de dados para garantir a exclusão de conteúdo prejudicial e ilegal.
Filtragem de dados sensíveis: para tornar os modelos pré-treinados da Gemma seguros e confiáveis, usamos técnicas automatizadas para filtrar algumas informações pessoais e outros dados sensíveis dos conjuntos de treinamento.
Outros métodos: filtragem com base na qualidade e segurança do conteúdo, de acordo com nossas políticas.

Ética e segurança

À medida que os modelos abertos se tornam essenciais para a infraestrutura empresarial, a origem e a segurança são fundamentais. Desenvolvido pelo Google DeepMind, o Gemma 4 passa pelas mesmas avaliações de segurança rigorosas que nossos modelos proprietários do Gemini.

Abordagem de avaliação

Os modelos do Gemma 4 foram desenvolvidos em parceria com equipes internas de segurança e IA responsável. Várias avaliações automáticas e humanas foram realizadas para melhorar a segurança do modelo. Essas avaliações estão alinhadas aos princípios de IA do Google e às políticas de segurança, que visam impedir que nossos modelos de IA generativa criem conteúdo nocivo, incluindo:

Conteúdo relacionado a material de abuso e exploração sexual infantil
Conteúdo perigoso (por exemplo, que promova o suicídio ou instrua atividades que possam causar danos reais)
Conteúdo sexualmente explícito
Discurso de ódio (por exemplo, desumanizar membros de grupos protegidos)
Assédio (por exemplo, incentivar a violência contra pessoas)

Resultados da avaliação

Em todas as áreas de testes de segurança, observamos melhorias significativas em todas as categorias de segurança de conteúdo em relação aos modelos anteriores do Gemma. No geral, os modelos Gemma 4 superam significativamente os modelos Gemma 3 e 3n na melhoria da segurança, mantendo baixas as recusas injustificadas. Todos os testes foram realizados sem filtros de segurança para avaliar os recursos e comportamentos do modelo. Para texto para texto e imagem para texto, e em todos os tamanhos de modelo, o modelo gerou violações mínimas de política e mostrou melhorias significativas em relação ao desempenho dos modelos anteriores do Gemma.

Uso e limitações

Esses modelos têm algumas limitações que os usuários precisam conhecer.

Uso pretendido

Os modelos multimodais (capazes de processar visão, linguagem e/ou áudio) têm uma ampla gama de aplicações em vários setores e domínios. A lista a seguir de possíveis usos não é abrangente. O objetivo dessa lista é fornecer informações contextuais sobre os possíveis casos de uso que os criadores do modelo consideraram como parte do treinamento de modelo e desenvolvimento.

Criação de conteúdo e comunicação
- Geração de texto: esses modelos podem ser usados para gerar formatos de texto criativos, como poemas, scripts, código, textos de marketing e rascunhos de e-mail.
- Chatbots e IA de conversação: potencialize interfaces de conversação para atendimento ao cliente, assistentes virtuais ou aplicativos interativos.
- Resumo de texto: gere resumos concisos de um corpus de texto, artigos de pesquisa ou relatórios.
- Extração de dados de imagem: esses modelos podem ser usados para extrair, interpretar e resumir dados visuais para comunicações de texto.
- Processamento e interação de áudio: os modelos menores (E2B e E4B) podem analisar e interpretar entradas de áudio, permitindo interações e transcrições por voz.
Pesquisa e educação
- Pesquisa sobre processamento de linguagem natural (PLN) e VLM: esses modelos podem servir como base para que pesquisadores testem técnicas de VLM e PLN, desenvolvam algoritmos e contribuam para o avanço da área.
- Ferramentas de aprendizado de idiomas: oferecem experiências interativas de aprendizado de idiomas, ajudando na correção gramatical ou oferecendo prática de escrita.
  - Exploração de conhecimento: ajuda os pesquisadores a analisar grandes quantidades de texto gerando resumos ou respondendo a perguntas sobre temas específicos.

Limitações

Dados de treinamento
- A qualidade e a diversidade dos dados de treinamento influenciam significativamente as capacidades do modelo. Vieses ou lacunas nos dados de treinamento podem levar a limitações nas respostas do modelo.
- O escopo do conjunto de dados de treinamento determina as áreas de assunto que o modelo pode processar com eficiência.
Contexto e complexidade da tarefa
- Os modelos têm um bom desempenho em tarefas que podem ser enquadradas com comandos e instruções claras. Tarefas abertas ou altamente complexas podem ser difíceis.
- O desempenho de um modelo pode ser influenciado pela quantidade de contexto fornecida. Contextos mais longos geralmente levam a resultados melhores, até um determinado ponto.
Ambiguidade e nuances da linguagem
- A linguagem natural é inerentemente complexa. Os modelos podem ter dificuldade para entender nuances sutis, sarcasmo ou linguagem figurada.
Precisão factual
- Os modelos geram respostas com base nas informações aprendidas com os conjuntos de dados de treinamento, mas não são bases de conhecimento. Elas podem gerar declarações factuais incorretas ou desatualizadas.
Common Sense
- Os modelos dependem de padrões estatísticos na linguagem. Elas podem não ter a capacidade de aplicar o raciocínio de bom senso em determinadas situações.

Considerações e riscos éticos

O desenvolvimento de modelos de visão-linguagem (VLMs) levanta várias questões éticas. Ao criar um modelo aberto, consideramos cuidadosamente o seguinte:

Viés e imparcialidade
- Os VLMs treinados com dados de texto e imagem em grande escala do mundo real podem refletir vieses socioculturais incorporados no material de treinamento. Os modelos do Gemma 4 passaram por uma análise cuidadosa, pré-processamento de dados de entrada e avaliações pós-treinamento, conforme informado neste card, para ajudar a reduzir o risco desses vieses.
Desinformação e uso indevido
- Os VLMs podem ser usados indevidamente para gerar texto falso, enganoso ou prejudicial.
- Consulte as diretrizes para uso responsável com o modelo no Toolkit para IA generativa responsável.
Transparência e responsabilidade
- Este card de modelo resume detalhes sobre a arquitetura, as capacidades, as limitações e os processos de avaliação dos modelos.
- Um modelo aberto desenvolvido de forma responsável oferece a oportunidade de compartilhar inovação ao tornar a tecnologia VLM acessível a desenvolvedores e pesquisadores em todo o ecossistema de IA.

Riscos identificados e mitigação:

Geração de conteúdo nocivo: mecanismos e diretrizes de segurança de conteúdo são essenciais. Recomendamos que os desenvolvedores tenham cautela e implementem as proteções de segurança de conteúdo adequadas com base nas políticas de produtos e casos de uso de aplicativos específicos.
Uso indevido para fins maliciosos: limitações técnicas e educação de desenvolvedores e usuários finais podem ajudar a reduzir os aplicativos maliciosos de VLMs. Recursos educacionais e mecanismos de denúncia para que os usuários sinalizem o uso indevido são fornecidos.
Violações de privacidade: os modelos foram treinados com dados filtrados para remoção de determinadas informações pessoais e outros dados sensíveis. Os desenvolvedores são incentivados a obedecer aos regulamentos de privacidade com técnicas que preservam a privacidade.
Perpetuação de vieses: é recomendável realizar monitoramento contínuo (usando métricas de avaliação e revisão humana) e explorar técnicas de remoção de vieses durante o treinamento de modelo e ajuste fino, além de outros casos de uso.

Benefícios

No momento do lançamento, essa família de modelos oferece implementações de modelos de visão-linguagem abertos de alta performance projetados desde o início para o desenvolvimento de IA responsável em comparação com modelos de tamanho semelhante.