PaliGemma

O PaliGemma é um modelo de linguagem visual (VLM, na sigla em inglês) leve e aberto inspirado na PaLI-3, e com base em componentes abertos como o SigLIP de visão e a linguagem Gemma modelo. O PaliGemma usa imagens e textos como entradas e pode responder a perguntas sobre imagens com detalhes e contexto, o que significa que o PaliGemma pode realizar análises mais profundas de imagens e fornecem insights úteis, como legendagem para imagens e vídeos curtos, detecção de objetos e leitura de texto incorporado em imagens.

Existem dois conjuntos de modelos PaliGemma, um conjunto de uso geral e um conjunto orientado por pesquisa:

  • PaliGemma: Modelos pré-treinados de uso geral que podem ser ajustados em várias tarefas.
  • PaliGemma-FT — Modelos orientados a pesquisa que são ajustados em conjuntos de dados de pesquisa específicos.

Dentre os principais benefícios estão:

  • Entende simultaneamente imagens e texto.
  • Pode ser ajustado em uma ampla variedade de tarefas de linguagem visual.
  • Vem com um checkpoint ajustado em uma combinação de tarefas para uso imediato em pesquisa.

Saiba mais

O card de modelo do PaliGemma contém informações detalhadas sobre o modelo, informações de implementação, informações de avaliação, uso e limitações do modelo e muito mais.
Confira mais códigos, notebooks do Colab, informações e discussões sobre o PaliGemma no Kaggle.
Executar um exemplo funcional para ajustar o PaliGemma com o JAX no Colab.