Visão geral do modelo Gemma 3

O Gemma é uma família de modelos de inteligência artificial (IA) generativa, que podem ser usados em uma ampla variedade de tarefas de geração, incluindo respostas a perguntas, resumos e raciocínio. Os modelos do Gemma são fornecidos com pesos abertos e permitem o uso comercial responsável, permitindo que você os ajuste e implante nos seus próprios projetos e aplicativos.

A versão 3 do Gemma inclui os principais recursos a seguir. Teste no AI Studio:

É possível fazer o download de modelos do Gemma 3 no Kaggle e no Hugging Face. Para mais detalhes técnicos sobre o Gemma 3, consulte o card de modelo e o relatório técnico. Versões anteriores dos modelos principais do Gemma também estão disponíveis para download. Para mais informações, consulte Modelos anteriores do Gemma.

Testar o Gemma 3 Testar no Kaggle Testar no Hugging Face

Entrada multimodal de texto e imagem

Você pode realizar tarefas de análise e geração mais complexas com o Gemma 3, que lida com dados de imagens e textos. É possível usar o modelo para interpretar dados de imagem, identificar objetos, extrair dados de texto e concluir muitas outras tarefas de saída de texto para entrada visual. Construa também

Janela de contexto de 128 mil tokens

Os modelos Gemma 3 podem processar entradas de comando de até 128 mil tokens, uma janela de contexto 16 vezes maior do que os modelos Gemma anteriores. O grande número de tokens significa que você pode processar vários artigos de várias páginas, artigos únicos maiores ou centenas de imagens em uma única solicitação.

Suporte a vários idiomas

Trabalhe no seu idioma com suporte integrado para mais de 140 idiomas. O Gemma 3 é treinado para oferecer suporte a um grande número de idiomas em comparação com as versões anteriores do Gemma, permitindo que você realize mais tarefas visuais e de texto nos idiomas usados pelos clientes. Construa também

Tamanhos e quantização de parâmetros

Os modelos Gemma 3 estão disponíveis em quatro tamanhos de parâmetro e cinco níveis de precisão, desde a precisão total de 32 bits até a menor precisão de 4 bits. Os diferentes tamanhos e precisões representam um conjunto de compensações para seu aplicativo de IA. Modelos com parâmetros e contagens de bits mais altos (precisão maior) geralmente são mais capazes, mas são mais caros para executar em termos de ciclos de processamento, custo de memória e consumo de energia. Modelos com parâmetros e contagens de bits mais baixos (menor precisão) têm menos recursos, mas podem ser suficientes para sua tarefa de IA. A tabela a seguir detalha os requisitos aproximados de memória da GPU ou TPU para executar inferências com cada tamanho das versões do modelo Gemma 3.

Parâmetros 32 bits completo BF16 (16 bits) SFP8
(8 bits)
Q4_0
(4 bits)
INT4
(4 bits)
Gemma 3 1B (somente texto) 4 GB 1,5 GB 1,1 GB 892 MB 861 MB
Gemma 3 4B 16 GB 6,4 GB 4,4 GB 3,4 GB 3,2 GB
Gemma 3 12B 48 GB 20 GB 12,2 GB 8,7 GB 8,2 GB
Gemma 3 27B 108 GB 46,4 GB 29,1 GB 21 GB 19,9 GB

Tabela 1. Memória aproximada de GPU ou TPU necessária para carregar modelos do Gemma 3 com base na contagem de parâmetros e no nível de quantização (profundidade de bits).

O consumo de memória aumenta com base no número total de tokens necessários para o comando executado. Quanto maior o número de tokens necessários para processar o comando, maior será a memória necessária, além da memória necessária para carregar o modelo.

Modelos anteriores do Gemma

Você pode trabalhar com gerações anteriores de modelos Gemma, que também estão disponíveis no Kaggle e no Hugging Face. Para mais detalhes técnicos sobre modelos anteriores do Gemma, consulte as páginas de cards de modelos a seguir:

Tudo pronto para começar? Comece a usar os modelos do Gemma.