PaliGemma

O PaliGemma 2 e o PaliGemma são modelos de linguagem/visão (VLM) leves e abertos inspirados no PaLI-3, e baseados em componentes abertos, como o modelo de visão SigLIP e o modelo de linguagem Gemma. O PaliGemma usa imagens e texto como entradas e pode responder a perguntas sobre imagens com detalhes e contexto. Isso significa que o PaliGemma pode realizar uma análise mais profunda de imagens e fornecer insights úteis, como legendas para imagens e vídeos curtos, detecção de objetos e leitura de texto incorporado em imagens.

O PaliGemma 2 está disponível nos tamanhos de parâmetro 3B, 10B e 28B, que são baseados nos modelos Gemma 2 2B, 9B e 27B, respectivamente. Os modelos originais do PaliGemma estão disponíveis no tamanho 3B. Para mais informações sobre as variantes do modelo Gemma, consulte a lista de modelos Gemma. As variantes do modelo PaliGemma oferecem suporte a diferentes resoluções de pixel para entradas de imagem, incluindo 224 x 224, 448 x 448 e 896 x 896 pixels.

É possível conferir e fazer o download de modelos do PaliGemma nos seguintes sites:

Há três categorias de modelos PaliGemma:

  • PaliGemma PT: modelos de uso geral pré-treinados que podem ser ajustados em várias tarefas.
  • PaliGemma FT: modelos orientados a pesquisas que são ajustados em conjuntos de dados de pesquisa específicos.
  • PaliGemma mix: modelos ajustados a uma mistura de tarefas que podem ser usados prontos para uso em casos de uso comuns.

Dentre os principais benefícios estão:

  • Processa imagens e entradas de texto simultaneamente.
  • Pode ser ajustado em uma ampla variedade de tarefas de linguagem visual.
  • Vem com um ponto de verificação ajustado em uma mistura de tarefas para uso imediato na pesquisa.

Saiba mais

Teste os recursos de detecção e geração de conteúdo com o PaliGemma no Colab.
Ajustar um modelo do PaliGemma com dados de imagem usando o JAX no Colab.
Confira mais códigos, notebooks do Colab, informações e discussões sobre o PaliGemma no Kaggle.