PaliGemma

Gemma 4 lançado com entrada de texto, áudio e imagem e janela de contexto longa de até 256 mil tokens! Saiba mais

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

O PaliGemma 2 e o PaliGemma são modelos de linguagem/visão (VLM) leves e abertos inspirados no PaLI-3, e baseados em componentes abertos, como o modelo de visão SigLIP e o modelo de linguagem Gemma. O PaliGemma usa imagens e texto como entradas e pode responder a perguntas sobre imagens com detalhes e contexto. Isso significa que o PaliGemma pode realizar uma análise mais profunda de imagens e fornecer insights úteis, como legendas para imagens e vídeos curtos, detecção de objetos e leitura de texto incorporado em imagens.

O PaliGemma 2 está disponível nos tamanhos de parâmetro 3B, 10B e 28B, que são baseados nos modelos Gemma 2 2B, 9B e 27B, respectivamente. Os modelos originais do PaliGemma estão disponíveis no tamanho 3B. Para mais informações sobre as variantes do modelo Gemma, consulte a lista de modelos Gemma. As variantes do modelo PaliGemma oferecem suporte a diferentes resoluções de pixel para entradas de imagem, incluindo 224 x 224, 448 x 448 e 896 x 896 pixels.

É possível conferir e fazer o download de modelos do PaliGemma nos seguintes sites:

Faça o download do Kaggle.
Faça o download do Hugging Face.

Há três categorias de modelos PaliGemma:

PaliGemma PT: modelos de uso geral pré-treinados que podem ser ajustados em várias tarefas.
PaliGemma FT: modelos orientados a pesquisas que são ajustados em conjuntos de dados de pesquisa específicos.
PaliGemma mix: modelos ajustados a uma mistura de tarefas que podem ser usados prontos para uso em casos de uso comuns.

Dentre os principais benefícios estão:

Capacidade multimodal

Processa imagens e entradas de texto simultaneamente.
Modelo de base versátil

Pode ser ajustado em uma ampla variedade de tarefas de linguagem visual.
Análise detalhada pronta para uso

Vem com um ponto de verificação ajustado em uma mistura de tarefas para uso imediato na pesquisa.

PaliGemma

Capacidade multimodal

Modelo de base versátil

Análise detalhada pronta para uso

Saiba mais

Executar no Colab

Ajustar no Colab

Ver no Kaggle