PaliGemma
O PaliGemma 2 e o PaliGemma são modelos de linguagem/visão (VLM) leves e abertos inspirados no PaLI-3, e baseados em componentes abertos, como o modelo de visão SigLIP e o modelo de linguagem Gemma. O PaliGemma usa imagens e texto como entradas e pode responder a perguntas sobre imagens com detalhes e contexto. Isso significa que o PaliGemma pode realizar uma análise mais profunda de imagens e fornecer insights úteis, como legendas para imagens e vídeos curtos, detecção de objetos e leitura de texto incorporado em imagens.
O PaliGemma 2 está disponível nos tamanhos de parâmetro 3B, 10B e 28B, que são baseados nos modelos Gemma 2 2B, 9B e 27B, respectivamente. Os modelos originais do PaliGemma estão disponíveis no tamanho 3B. Para mais informações sobre as variantes do modelo Gemma, consulte a lista de modelos Gemma. As variantes do modelo PaliGemma oferecem suporte a diferentes resoluções de pixel para entradas de imagem, incluindo 224 x 224, 448 x 448 e 896 x 896 pixels.
É possível conferir e fazer o download de modelos do PaliGemma nos seguintes sites:
- Faça o download do Kaggle.
- Faça o download do Hugging Face.
Há três categorias de modelos PaliGemma:
- PaliGemma PT: modelos de uso geral pré-treinados que podem ser ajustados em várias tarefas.
- PaliGemma FT: modelos orientados a pesquisas que são ajustados em conjuntos de dados de pesquisa específicos.
- PaliGemma mix: modelos ajustados a uma mistura de tarefas que podem ser usados prontos para uso em casos de uso comuns.
Dentre os principais benefícios estão:
-
Capacidade multimodal
Processa imagens e entradas de texto simultaneamente. -
Modelo de base versátil
Pode ser ajustado em uma ampla variedade de tarefas de linguagem visual. -
Análise detalhada pronta para uso
Vem com um ponto de verificação ajustado em uma mistura de tarefas para uso imediato na pesquisa.