Confira o repositório do Gemma Cookbook para ver exemplos de geração e ajuste. Saiba mais

Esta página foi traduzida pela API Cloud Translation.

Card de modelo do Gemma 3

Página do modelo: Gemma

Recursos e documentação técnica:

Termos de Uso: Termos

Autores: Google DeepMind

Informações do modelo

Descrição resumida e definição breve de entradas e saídas.

Descrição

O Gemma é uma família de modelos abertos leves e de última geração do Google, criados com a mesma pesquisa e tecnologia usadas para criar os modelos do Gemini. Os modelos Gemma 3 são multimodais, processando entradas de texto e imagem e gerando saídas de texto, com pesos abertos para variantes pré-treinadas e ajustadas por instruções. O Gemma 3 tem uma janela de contexto grande de 128K, suporte multilíngue em mais de 140 idiomas e está disponível em mais tamanhos do que as versões anteriores. Os modelos Gemma 3 são adequados para várias tarefas de geração de texto e compreensão de imagens, incluindo resposta a perguntas, resumo e raciocínio. O tamanho relativamente pequeno permite a implantação em ambientes com recursos limitados, como laptops, computadores ou sua própria infraestrutura de nuvem, democratizando o acesso a modelos de IA de última geração e ajudando a promover a inovação para todos.

Entradas e saídas

Entrada:
- String de texto, como uma pergunta, um comando ou um documento a ser resumido
- Imagens normalizadas com resolução de 896 x 896 e codificadas em 256 tokens cada
- Contexto de entrada total de 128K tokens para os tamanhos 4B, 12B e 27B e 32K tokens para o tamanho 1B
Saída:
- Texto gerado em resposta à entrada, como uma resposta a uma pergunta, análise do conteúdo de imagem ou um resumo de um documento
- Contexto de saída total de até 128 mil tokens para os tamanhos 4B, 12B e 27B, e 32 mil tokens para o tamanho 1B por solicitação, subtraindo os tokens de entrada da solicitação

Citação

@article{gemma_2025,
    title={Gemma 3},
    url={https://arxiv.org/abs/2503.19786},
    publisher={Google DeepMind},
    author={Gemma Team},
    year={2025}
}

Dados do modelo

Dados usados para o treinamento do modelo e como eles foram processados.

Conjunto de dados de treinamento

Esses modelos foram treinados em um conjunto de dados de texto que inclui uma grande variedade de fontes. O modelo de 27 bilhões foi treinado com 14 trilhões de tokens, o modelo de 12 bilhões foi treinado com 12 trilhões de tokens, o modelo de 4 bilhões foi treinado com 4 trilhões de tokens e 1 bilhão com 2 trilhões de tokens. A data de corte do conhecimento para os dados de treinamento foi agosto de 2024. Estes são os principais componentes:

Documentos da Web: uma coleção diversificada de textos da Web garante que o modelo seja exposto a uma ampla variedade de estilos, tópicos e vocabulário linguísticos. O conjunto de dados de treinamento inclui conteúdo em mais de 140 idiomas.
Código: expor o modelo ao código ajuda a aprender a sintaxe e os padrões das linguagens de programação, o que melhora a capacidade de gerar código e entender perguntas relacionadas a ele.
Matemática: o treinamento em texto matemático ajuda o modelo a aprender raciocínio lógico, representação simbólica e a responder a consultas matemáticas.
Imagens: uma ampla variedade de imagens permite que o modelo realize tarefas de análise de imagens e extração de dados visuais.

A combinação dessas diversas fontes de dados é crucial para treinar um modelo multimodal poderoso que possa lidar com uma ampla variedade de tarefas e formatos de dados.

Pré-processamento de dados

Confira os principais métodos de limpeza e filtragem de dados aplicados aos dados de treinamento:

Filtragem de CSAM: a filtragem rigorosa de CSAM (material de abuso sexual infantil) foi aplicada em várias etapas do processo de preparação de dados para garantir a exclusão de conteúdo nocivo e ilegal.
Filtragem de dados sensíveis: como parte do processo de tornar os modelos pré-treinados do Gemma seguros e confiáveis, técnicas automatizadas foram usadas para filtrar determinadas informações pessoais e outros dados sensíveis dos conjuntos de treinamento.
Outros métodos: filtragem com base na qualidade e na segurança do conteúdo, de acordo com nossas políticas.

Informações de implementação

Detalhes sobre as partes internas do modelo.

Hardware

A Gemma foi treinada usando hardware de Unidade de Processamento de Tensor (TPU) (TPUv4p, TPUv5p e TPUv5e). O treinamento de modelos de visão-linguagem (VLMs) requer uma capacidade computacional significativa. As TPUs, projetadas especificamente para operações de matriz comuns em machine learning, oferecem várias vantagens neste domínio:

Desempenho: as TPUs são projetadas especificamente para lidar com as computações massivas envolvidas no treinamento de VLMs. Elas podem acelerar o treinamento consideravelmente em comparação com as CPUs.
Memória: as TPUs geralmente vêm com grandes quantidades de memória de alta largura de banda, permitindo o processamento de modelos e tamanhos de lote grandes durante o treinamento. Isso pode melhorar a qualidade do modelo.
Escalonabilidade: os pods de TPU (grandes clusters de TPUs) oferecem uma solução escalonável para lidar com a complexidade crescente de grandes modelos de base. É possível distribuir o treinamento em vários dispositivos TPU para um processamento mais rápido e eficiente.
Custo-benefício: em muitos cenários, as TPUs podem oferecer uma solução mais econômica para treinar modelos grandes em comparação com a infraestrutura baseada em CPU, especialmente considerando o tempo e os recursos economizados devido ao treinamento mais rápido.
Essas vantagens estão alinhadas aos compromissos do Google de operar de forma sustentável.

Software

O treinamento foi feito usando JAX e ML Pathways.

O JAX permite que os pesquisadores aproveitem a geração mais recente de hardware, incluindo TPUs, para um treinamento mais rápido e eficiente de modelos grandes. Os Programas de treinamento de ML são o esforço mais recente do Google para criar sistemas de inteligência artificial capazes de generalizar várias tarefas. Isso é especialmente adequado para modelos de base, incluindo modelos de linguagem grandes como esses.

Juntos, o JAX e o ML Pathways são usados conforme descrito no artigo sobre a família de modelos Gemini: "o modelo de programação de "controlador único" do Jax e do Pathways permite que um único processo Python orquestre toda a execução de treinamento, simplificando drasticamente o fluxo de trabalho de desenvolvimento".

Avaliação

Métricas e resultados de avaliação do modelo.

Resultados da comparação

Esses modelos foram avaliados em relação a uma grande coleção de diferentes conjuntos de dados e métricas para cobrir diferentes aspectos da geração de texto. Os resultados de avaliação marcados com IT são para modelos ajustados por instrução. Os resultados de avaliação marcados com PT são para modelos pré-treinados.

Raciocínio e veracidade

Benchmark	n-shot	Gemma 3 IT 1B	Gemma 3 IT 4B	Gemma 3 IT 12B	Gemma 3 IT 27B
GPQA Diamante	Zero-shot	19,2	30,8	40,9	42,4
SimpleQA	Zero-shot	2.2	4.0	6,3	10,0
FACTS Grounding	-	36,4	70.1	75,8	74,9
BIG-Bench Hard	Zero-shot	39.1	72,2	85,7	87,6
BIG-Bench Extra Hard	Zero-shot	7.2	11,0	16.3	19.3
IFEval	Zero-shot	80,2	90,2	88,9	90,4

Benchmark	n-shot	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
HellaSwag	10 fotos	62,3	77.2	84,2	85,6
BoolQ	Zero-shot	63.2	72,3	78,8	82,4
PIQA	Zero-shot	73,8	79,6	81,8	83,3
SocialIQA	Zero-shot	48,9	51,9	53,4	54,9
TriviaQA	5 fotos	39,8	65,8	78,2	85,5
Perguntas naturais	5 fotos	9,48	20.0	31,4	36,1
ARC-c	25 fotos	38,4	56,2	68,9	70,6
ARC-e	Zero-shot	73,0	82,4	88,3	89,0
WinoGrande	5 fotos	58.2	64,7	74,3	78,8
BIG-Bench Hard	few-shot	28,4	50,9	72,6	77,7
DROP	1-shot	42,4	60.1	72,2	77.2

STEM e código

Benchmark	n-shot	Gemma 3 IT 1B	Gemma 3 IT 4B	Gemma 3 IT 12B	Gemma 3 IT 27B
MMLU (Pro)	Zero-shot	14.7	43,6	60,6	67,5
LiveCodeBench	Zero-shot	1.9	12,6	24,6	29,7
Bird-SQL (link em inglês) (dev)	-	6,4	36,3	47,9	54,4
Matemática	Zero-shot	48,0	75,6	83,8	89,0
HiddenMath	Zero-shot	15.8	43,0	54,5	60,3
MBPP	3 fotos	35.2	63.2	73,0	74,4
HumanEval	Zero-shot	41,5	71,3	85,4	87,8
Natural2Code	Zero-shot	56,0	70,3	80,7	84,5
GSM8K	Zero-shot	62,8	89,2	94,4	95,9

Benchmark	n-shot	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
MMLU	5 fotos	59,6	74,5	78,6
MMLU (COT do Pro)	5 fotos	29,2	45.3	52.2
AGIEval	3 a 5 tiros	42.1	57,4	66.2
MATH	4 fotos	24.2	43,3	50,0
GSM8K	8 fotos	38,4	71,0	82,6
GPQA	5 fotos	15	25,4	24.3
MBPP	3 fotos	46,0	60,4	65,6
HumanEval	Zero-shot	36,0	45.7	48,8

Multilíngue

Benchmark	n-shot	Gemma 3 IT 1B	Gemma 3 IT 4B	Gemma 3 IT 12B	Gemma 3 IT 27B
Global-MMLU-Lite	Zero-shot	34,2	54,5	69,5	75,1
ECLeKTic	Zero-shot	1.4	4,6	10.3	16.7
WMT24++	Zero-shot	35,9	46,8	51,6	53,4

Benchmark	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
MGSM	2,04	34,7	64.3	74,3
Global-MMLU-Lite	24,9	57,0	69,4	75,7
WMT24++ (ChrF)	36,7	48,4	53,9	55,7
FloRes	29,5	39,2	46,0	48,8
XQuAD (todos)	43,9	68,0	74,5	76,8
ECLeKTic	4,69	11,0	17,2	24,4
IndicGenBench	41.4	57,2	61,7	63,4

Multimodal

Benchmark	Gemma 3 IT 4B	Gemma 3 IT 12B	Gemma 3 IT 27B
MMMU (val)	48,8	59,6	64,9
DocVQA	75,8	87,1	86,6
InfoVQA	50,0	64,9	70,6
TextVQA	57,8	67,7	65.1
AI2D	74,8	84,2	84,5
ChartQA	68,8	75,7	78.0
VQAv2 (val)	62,4	71,6	71,0
MathVista (testmini)	50,0	62,9	67,6

Benchmark	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
COCOcap	102	111	116
DocVQA (val)	72,8	82,3	85,6
InfoVQA (val)	44.1	54,8	59,4
MMMU (pt)	39,2	50,3	56.1
TextVQA (val)	58,9	66,5	68,6
RealWorldQA	45,5	52.2	53,9
ReMI	27,3	38.5	44,8
AI2D	63.2	75,2	79,0
ChartQA	63,6	74,7	76,3
VQAv2	63,9	71,2	72,9
BLINK	38.0	35,9	39,6
OKVQA	51,0	58,7	60.2
TallyQA	42,5	51,8	54.3
Resposta a perguntas visual do SpatialSense	50,9	60,0	59,4
CountBenchQA	26.1	17,8	68,0

Ética e segurança

Abordagem e resultados da avaliação de ética e segurança.

Abordagem de avaliação

Nossos métodos de avaliação incluem avaliações estruturadas e testes internos de equipe vermelha de políticas de conteúdo relevantes. O red-teaming foi conduzido por várias equipes diferentes, cada uma com diferentes metas e métricas de avaliação humana. Esses modelos foram avaliados em relação a várias categorias relevantes para ética e segurança, incluindo:

Segurança infantil: avaliação de comandos de texto para texto e de imagem para texto que abrangem políticas de segurança infantil, incluindo abuso sexual infantil e exploração.
Segurança de conteúdo:avaliação de comandos de texto para texto e de imagem para texto que abrangem políticas de segurança, incluindo assédio, violência e gore, e discurso de ódio.
Prejuízos de representação: avaliação de instruções de texto para texto e de imagem para texto que abrangem políticas de segurança, incluindo viés, estereótipos e associações prejudiciais ou imprecisões.

Além das avaliações de nível de desenvolvimento, realizamos "avaliações de garantia", que são nossas avaliações internas "independentes" para tomada de decisões de governança responsável. Elas são realizadas separadamente da equipe de desenvolvimento do modelo para informar a tomada de decisões sobre o lançamento. As descobertas de alto nível são enviadas de volta à equipe do modelo, mas os conjuntos de comandos são retidos para evitar ajustes excessivos e preservar a capacidade dos resultados de informar a tomada de decisão. Os resultados da avaliação de garantia são informados ao nosso Conselho de Responsabilidade e Segurança como parte da análise de lançamento.

Resultados da avaliação

Em todas as áreas de testes de segurança, observamos grandes melhorias nas categorias de segurança infantil, segurança de conteúdo e danos de representação em relação aos modelos anteriores do Gemma. Todos os testes foram realizados sem filtros de segurança para avaliar os recursos e comportamentos do modelo. Para conversão de texto para texto e de imagem para texto, e em todos os tamanhos de modelo, o modelo produziu violações mínimas da política e mostrou melhorias significativas em relação ao desempenho dos modelos anteriores da Gemma em relação a inferências sem base. Uma limitação das nossas avaliações era que elas incluíam apenas comandos em inglês.

Uso e limitações

Esses modelos têm algumas limitações que os usuários precisam conhecer.

Uso pretendido

Os modelos de visão-linguagem abertos (VLMs) têm uma ampla gama de aplicações em vários setores e domínios. A lista de usos possíveis a seguir não é abrangente. O objetivo desta lista é fornecer informações contextuais sobre os possíveis casos de uso que os criadores de modelos consideraram como parte do treinamento e desenvolvimento do modelo.

Criação de conteúdo e comunicação
- Geração de texto: esses modelos podem ser usados para gerar formatos de texto criativo, como poemas, roteiros, código, cópia de marketing e rascunhos de e-mail.
- Chatbots e IA de conversação: forneça interfaces de conversação para atendimento ao cliente, assistentes virtuais ou aplicativos interativos.
- Resumo de texto: gere resumos concisos de um corpus de texto, artigos de pesquisa ou relatórios.
- Extração de dados de imagem: esses modelos podem ser usados para extrair, interpretar e resumir dados visuais para comunicações de texto.
Pesquisa e educação
- Processamento de linguagem natural (PLN) e pesquisa de VLM: esses modelos podem servir como base para os pesquisadores experimentarem técnicas de VLM e PLN, desenvolver algoritmos e contribuir para o avanço da área.
- Ferramentas de aprendizado de idiomas: oferecem suporte a experiências interativas de aprendizado de idiomas, auxiliando na correção gramatical ou oferecendo prática de escrita.
- Análise de conhecimento: ajuda pesquisadores a analisar grandes corpos de texto gerando resumos ou respondendo a perguntas sobre tópicos específicos.

Limitações

Dados de treinamento
- A qualidade e a diversidade dos dados de treinamento influenciam significativamente as capacidades do modelo. Vieses ou lacunas nos dados de treinamento podem levar a limitações nas respostas do modelo.
- O escopo do conjunto de dados de treinamento determina as áreas de assunto que o modelo pode processar com eficácia.
Contexto e complexidade da tarefa
- Os modelos são melhores em tarefas que podem ser enquadradas com instruções e comandos claros. Tarefas abertas ou muito complexas podem ser desafios.
- O desempenho de um modelo pode ser influenciado pela quantidade de contexto fornecido. Um contexto mais longo geralmente leva a melhores resultados, até certo ponto.
Ambiguidade e nuances da linguagem
- A linguagem natural é inerentemente complexa. Os modelos podem ter dificuldade para entender nuances sutis, sarcasmo ou linguagem figurada.
Precisão factual
- Os modelos geram respostas com base nas informações que aprenderam nos conjuntos de dados de treinamento, mas não são bases de conhecimento. Eles podem gerar declarações factuais incorretas ou desatualizadas.
Common Sense
- Os modelos dependem de padrões estatísticos na linguagem. Eles podem não ter a capacidade de aplicar o raciocínio de bom senso em determinadas situações.

Considerações e riscos éticos

O desenvolvimento de modelos de visão-linguagem (VLMs, na sigla em inglês) levanta várias questões éticas. Ao criar um modelo aberto, consideramos cuidadosamente o seguinte:

Viés e imparcialidade
- Os VLMs treinados com dados de texto e imagem reais em grande escala podem refletir vieses socioculturais incorporados no material de treinamento. Esses modelos foram cuidadosamente examinados, o pré-processamento de dados de entrada foi descrito e as avaliações posteriores foram informadas neste card.
Desinformação e uso indevido
- Os VLMs podem ser usados indevidamente para gerar textos falsos, enganosos ou nocivos.
- As diretrizes são fornecidas para uso responsável com o modelo. Consulte o Toolkit para IA generativa responsável.
Transparência e responsabilidade:
- Este card de modelo resume detalhes sobre a arquitetura, os recursos, as limitações e os processos de avaliação dos modelos.
- Um modelo aberto desenvolvido de forma responsável oferece a oportunidade de compartilhar a inovação, tornando a tecnologia VLM acessível a desenvolvedores e pesquisadores em todo o ecossistema de IA.

Riscos identificados e mitigações:

Perpetuação de vieses: é recomendável realizar um monitoramento contínuo (usando métricas de avaliação, revisão humana) e a exploração de técnicas de eliminação de viés durante o treinamento do modelo, ajuste fino e outros casos de uso.
Geração de conteúdo nocivo: mecanismos e diretrizes para a segurança do conteúdo são essenciais. Os desenvolvedores são incentivados a ter cuidado e implementar proteções de segurança de conteúdo adequadas com base nas políticas específicas do produto e nos casos de uso do aplicativo.
Uso indevido para fins maliciosos: limitações técnicas e educação do desenvolvedor e do usuário final podem ajudar a mitigar aplicativos maliciosos de VLMs. Recursos educacionais e mecanismos de denúncia para que os usuários sinalizem uso indevido são fornecidos. Os usos proibidos dos modelos Gemma estão descritos na Política de uso proibido do Gemma.
Violações de privacidade: os modelos foram treinados com dados filtrados para remoção de determinadas informações pessoais e outros dados sensíveis. Os desenvolvedores são incentivados a aderir aos regulamentos de privacidade com técnicas que preservam a privacidade.

Vantagens

No momento do lançamento, essa família de modelos oferece implementações de modelo de visão e linguagem abertas de alto desempenho projetadas do zero para o desenvolvimento de IA responsável em comparação com modelos de tamanho semelhante.

Usando as métricas de avaliação de comparação descritas neste documento, esses modelos foram superiores a outras alternativas de modelo aberto de tamanho semelhante.