PaliGemma
O PaliGemma é um modelo de visão (VLM, na sigla em inglês) aberto e leve inspirado no PaLI-3 e baseado em componentes abertos, como o modelo de visão SigLIP e o modelo de linguagem Gemma (links em inglês). O PaliGemma usa imagens e texto como entradas e pode responder a perguntas sobre imagens com detalhes e contexto. Isso significa que ele pode realizar análises mais profundas e fornecer insights úteis, como legendagem de imagens e vídeos curtos, detecção de objetos e leitura de texto incorporado em imagens.
Há dois conjuntos de modelos PaliGemma, um de uso geral e um orientado para pesquisa:
- PaliGemma: modelos pré-treinados de uso geral que podem ser ajustados em várias tarefas.
- PaliGemma-FT: modelos orientados à pesquisa que são ajustados em conjuntos de dados de pesquisa específicos.
Entre as principais vantagens, estão:
-
Compreensão multimodal
Entende simultaneamente imagens e texto. -
Modelo de base versátil
Pode ser ajustado em uma ampla variedade de tarefas de linguagem visual. -
Análise detalhada pronta para uso
Vem com um checkpoint ajustado em uma combinação de tarefas para uso imediato em pesquisa.