PaliGemma

O PaliGemma é um modelo de visão (VLM, na sigla em inglês) aberto e leve inspirado no PaLI-3 e baseado em componentes abertos, como o modelo de visão SigLIP e o modelo de linguagem Gemma (links em inglês). O PaliGemma usa imagens e texto como entradas e pode responder a perguntas sobre imagens com detalhes e contexto. Isso significa que ele pode realizar análises mais profundas e fornecer insights úteis, como legendagem de imagens e vídeos curtos, detecção de objetos e leitura de texto incorporado em imagens.

Há dois conjuntos de modelos PaliGemma, um de uso geral e um orientado para pesquisa:

  • PaliGemma: modelos pré-treinados de uso geral que podem ser ajustados em várias tarefas.
  • PaliGemma-FT: modelos orientados à pesquisa que são ajustados em conjuntos de dados de pesquisa específicos.

Entre as principais vantagens, estão:

  • Entende simultaneamente imagens e texto.
  • Pode ser ajustado em uma ampla variedade de tarefas de linguagem visual.
  • Vem com um checkpoint ajustado em uma combinação de tarefas para uso imediato em pesquisa.

Saiba mais

O card de modelo do PaliGemma contém informações detalhadas sobre o modelo, informações de implementação, informações de avaliação, uso e limitações do modelo e muito mais.
Confira mais códigos, notebooks do Colab, informações e discussões sobre o PaliGemma no Kaggle.
Executar um exemplo funcional para ajustar o PaliGemma com o JAX no Colab.