O Gemma 4, o modelo mais recente da família Gemma, pode realizar uma ampla variedade de tarefas de linguagem visual, como detecção de objetos, reconhecimento óptico de caracteres (OCR, na sigla em inglês), respostas visuais a perguntas, legendas de imagens e raciocínio em várias imagens. Ele também oferece suporte ao processamento de resolução variável, permitindo equilibrar a velocidade de inferência e a precisão da saída.
Esta seção explica como preparar e usar dados visuais de maneira eficaz nos comandos.
Dados visuais
Os dados visuais podem ter muitos formatos e resoluções. Os formatos de arquivo específicos com suporte (como JPEG e PNG) dependem da estrutura escolhida para converter os dados visuais em tensores.
Confira as principais considerações ao preparar dados visuais para o Gemma:
- Custo do token:cada imagem normalmente usa 256 tokens, embora os custos de token de imagem do PaliGemma variem dependendo do modelo específico selecionado.
- Resolução:a resolução interpretada, ou seja, o número de pixels codificados em tokens e processados pelo modelo, depende da versão do Gemma que você está usando:
- Gemma 4:resolução variável com base no orçamento de tokens. É possível escolher entre tamanhos de orçamento de 70, 140, 280, 560 ou 1.120 tokens, o que determina o quanto a imagem de entrada é redimensionada e processada.
- Gemma 3 : (4B e versões mais recentes) resolução de 896 x 896, com opções de panorâmica e digitalização para imagens maiores.
- Gemma 3n:resolução de 256 x 256, 512 x 512 ou 768 x 768
- PaliGemma 2:resolução de 224 x 224, 448 x 448 ou 896 x 896
Imagens de resolução mais baixa são processadas mais rapidamente, mas capturam menos detalhes visuais. Para otimizar a velocidade de inferência, tente fornecer dados visuais que correspondam a uma das resoluções interpretadas integradas do modelo Gemma escolhido.
Resolução variável e orçamentos de tokens
Os modelos do Gemma 4 introduzem a capacidade de processar imagens em resoluções variadas, permitindo que você adapte a entrada visual à sua tarefa específica. Por exemplo, é possível optar por uma alta resolução para identificar pequenos detalhes na detecção de objetos, enquanto uma resolução mais baixa pode ser preferível para analisar frames de vídeo individuais para acelerar o processamento. Em última análise, esse recurso permite equilibrar a velocidade de inferência com a precisão da representação visual.
Você gerencia essa compensação usando um orçamento de tokens. Esse orçamento define um limite rígido para o número de tokens visuais (também conhecidos como embeddings de tokens visuais) que o modelo pode gerar para uma única imagem.
É possível escolher um orçamento de 70, 140, 280, 560 ou 1.120 tokens:
- Orçamentos altos (por exemplo, 1.120 tokens) : preservam uma resolução de imagem mais alta. Isso gera mais patches para o modelo processar, tornando-o ideal para capturar detalhes finos e complexos.
- Orçamentos baixos (por exemplo, 70 tokens) : reduzem a imagem, resultando em menos patches. Isso acelera significativamente os tempos de inferência.
Como o orçamento funciona : o orçamento de tokens controla diretamente o quanto uma imagem é redimensionada, ditando o número máximo de patches de imagem iniciais. O sistema gera nove vezes mais patches do que o orçamento selecionado. Por exemplo, um orçamento de 280 tokens gera até 2.520 patches (280 × 9).
O multiplicador de 9 existe devido à forma como os patches são compactados: durante o processamento, o modelo usa cada grade 3x3 de patches adjacentes e os calcula em média para criar um único embedding. Esses embeddings consolidados se tornam seus tokens visuais finais. Consequentemente, um orçamento de tokens mais alto gera mais embeddings finais, permitindo que o modelo extraia informações mais detalhadas e granulares dos seus dados visuais.
O que fazer
Confira algumas práticas recomendadas a seguir ao usar o Gemma com dados visuais.
Seja específico: se você tiver tarefas específicas, forneça contexto suficiente e orientação. Em vez de "descreva esta imagem", tente "descreva a cena nesta imagem, com foco na relação entre as pessoas e os objetos".
Forneça restrições: para alcançar um estilo ou tom específico, certifique-se de especificá-lo no comando. Por exemplo, em vez de um pedido de história geral, peça ao Gemma para "escrever uma história curta sobre esta imagem no estilo de um filme noir".
Refinamento iterativo: para receber a saída pretendida, muitas vezes é necessário fazer testes e refinar os comandos. Comece com um comando básico e adicione complexidade gradualmente.
O que não fazer
Confira algumas coisas a evitar ao usar o Gemma com dados visuais.
Esperar contagens exatas para objetos extremamente densos: embora o Gemma 4 seja excelente na detecção de objetos e no OCR, ele ainda pode fornecer aproximações em vez de contagens exatas para objetos extremamente densos ou pequenos (como contar lâminas de grama individuais). Para alcançar a melhor acurácia em tarefas visuais, use um orçamento de tokens mais alto.
Comandos vagos ou ambíguos: em vez de comandos gerais como "Gere algo com base nesta imagem", forneça instruções específicas para alcançar as saídas pretendidas. Defina claramente o que é "algo". Por exemplo, um poema, uma receita ou um snippet de código.