PaliGemma
O PaliGemma é um modelo de linguagem visual (VLM, na sigla em inglês) leve e aberto inspirado na PaLI-3, e com base em componentes abertos como o SigLIP de visão e a linguagem Gemma modelo. O PaliGemma usa imagens e textos como entradas e pode responder a perguntas sobre imagens com detalhes e contexto, o que significa que o PaliGemma pode realizar análises mais profundas de imagens e fornecem insights úteis, como legendagem para imagens e vídeos curtos, detecção de objetos e leitura de texto incorporado em imagens.
Existem dois conjuntos de modelos PaliGemma, um conjunto de uso geral e um conjunto orientado por pesquisa:
- PaliGemma: Modelos pré-treinados de uso geral que podem ser ajustados em várias tarefas.
- PaliGemma-FT — Modelos orientados a pesquisa que são ajustados em conjuntos de dados de pesquisa específicos.
Dentre os principais benefícios estão:
-
Compreensão multimodal
Entende simultaneamente imagens e texto. -
Modelo de base versátil
Pode ser ajustado em uma ampla variedade de tarefas de linguagem visual. -
Análise detalhada pronta para uso
Vem com um checkpoint ajustado em uma combinação de tarefas para uso imediato em pesquisa.