Card de modelo do PaliGemma 1

Página do modelo:PaliGemma

Recursos e documentação técnica:

Termos de Uso:Termos

Autores:Google

Informações do modelo

Resumo do modelo

Descrição

O PaliGemma é um modelo de visão-linguagem (VLM) versátil e leve inspirado no PaLI-3 e baseado em componentes abertos, como o modelo de visão SigLIP e o modelo de linguagem Gemma. Ele usa imagens e textos como entrada e gera texto como saída, com suporte a vários idiomas. Ele foi projetado para ajustar o desempenho de forma avançada em uma ampla gama de tarefas de visão e linguagem, como legendas de imagens e vídeos curtos, resposta a perguntas visuais, leitura de texto, detecção e segmentação de objetos.

Arquitetura do modelo

A PaliGemma é a composição de um decodificador Transformer e um codificador de imagem Vision Transformer, com um total de 3 bilhões de parâmetros. O decodificador de texto é inicializado pelo Gemma-2B. O codificador de imagem é inicializado em SigLIP-So400m/14. O PaliGemma é treinado seguindo as receitas do PaLI-3.

Entradas e saídas

  • Entrada:string de imagem e texto, como um comando para legendar a imagem ou uma pergunta.
  • Saída:texto gerado em resposta à entrada, como uma legenda da imagem, uma resposta a uma pergunta, uma lista de coordenadas da caixa delimitadora do objeto ou palavras-código de segmentação.

Citação

@article{
    title={PaliGemma: A versatile 3B VLM for transfer},
    author={Lucas Beyer and Andreas Steiner and André Susano Pinto and Alexander Kolesnikov and Xiao Wang* and Daniel Salz and Maxim Neumann and Ibrahim Alabdulmohsin and Michael Tschannen and Emanuele Bugliarello and Thomas Unterthiner and Daniel Keysers and Skanda Koppula and Fangyu Liu and Adam Grycner and Alexey Gritsenko and Neil Houlsby and Manoj Kumar and Keran Rong and Julian Eisenschlos and Rishabh Kabra and Matthias Bauer and Matko Bošnjak and Xi Chen and Matthias Minderer and Paul Voigtlaender and Ioana Bica and Ivana Balazevic and Joan Puigcerver and Pinelopi Papalampidi and Olivier Henaff and Xi Xiong and Radu Soricut and Jeremiah Harmsen and Xiaohua Zhai},
    year={2024},
    journal={arXiv preprint arXiv:2407.07726}
}

Dados do modelo

Conjuntos de dados de pré-treinamento

O PaliGemma é pré-treinado com a seguinte mistura de conjuntos de dados:

Filtragem de responsabilidade de dados

Os filtros a seguir são aplicados à WebLI, com o objetivo de treinar o PaliGemma em dados limpos:

  • Filtragem de imagens pornográficas:esse filtro remove imagens consideradas de natureza pornográfica.
  • Filtragem de segurança de texto:identificamos e filtramos imagens que são associadas a texto não seguro. Texto não seguro é qualquer texto considerado como contendo ou sendo sobre imagens de abuso sexual infantil (CSAI, na sigla em inglês), pornografia, vulgaridades ou conteúdo ofensivo.
  • Filtragem de toxicidade de texto:usamos a API Perspective para identificar e filtrar imagens que são associadas a textos considerados ofensivos, obscenos, odiosos ou tóxicos.
  • Filtragem de informações pessoais em texto:filtramos determinadas informações pessoais e outros dados sensíveis usando a API Cloud Data Loss Prevention (DLP) para proteger a privacidade das pessoas. Identificadores como CPF ou CNPJ e outros tipos de informações sensíveis foram removidos.
  • Outros métodos:filtragem com base na qualidade e segurança do conteúdo, de acordo com nossas políticas e práticas.

Informações de implementação

Hardware

O PaliGemma foi treinado usando a geração mais recente de hardware de Unidade de Processamento de Tensor (TPU, na sigla em inglês) (TPUv5e).

Software

O treinamento foi concluído usando JAX, Flax, TFDS e big_vision.

O JAX permite que os pesquisadores aproveitem a geração mais recente de hardware, incluindo TPUs, para um treinamento mais rápido e eficiente de modelos grandes.

O TFDS é usado para acessar conjuntos de dados, e o Flax é usado para arquitetura de modelos. O código de ajuste fino e de inferência do PaliGemma foi lançado no repositório do GitHub big_vision.

Informações da avaliação

Resultados da comparação

Para verificar a transferibilidade do PaliGemma para uma ampla variedade de tarefas acadêmicas, ajustamos os modelos pré-treinados em cada tarefa. Além disso, treinamos o modelo de mix com uma mistura das tarefas de transferência. Nós informamos resultados em resoluções diferentes para dar uma ideia de quais tarefas se beneficiam de resoluções maiores. É importante ressaltar que nenhuma dessas tarefas ou conjuntos de dados faz parte da mistura de dados de pré-treinamento, e as imagens são removidas explicitamente dos dados de pré-treinamento em escala da Web.

Tarefa única (ajuste em uma única tarefa)

Comparativo de mercado (divisão de treinamento) Métrica (divisão) pt-224 pt-448 pt-896
Legendagem
Legendas COCO (train+restval) CIDEr (val) 141,92 144,60
NoCaps (avaliação da transferência de legendas do COCO) CIDEr (val) 121,72 123,58
COCO-35L (trem) CIDEr dev (en/avg-34/avg)
139,2
115,8
116,4
141.2
118.0
118.6
XM3600 (transferência de avaliação do COCO-35L) CIDEr dev (en/avg-34/avg)
78,1
41,3
42,4
80,0
41,9
42,9
TextCaps (treinar) CIDEr (val) 127,48 153,94
SciCap (primeira frase, sem subfigura) (treino+val) CIDEr/BLEU-4 (teste)
162,25
0,192
181,49
0,211
Screen2words (treinamento+desenvolvimento) CIDEr (teste) 117,57 119,59
Legendas de widgets (treinamento e desenvolvimento) CIDEr (teste) 136,07 148,36
Respostas a perguntas
VQAv2 (treinamento + validação) Precisão (servidor de teste - padrão) 83,19 85,64
MMVP (avaliação da transferência da VQAv2) Precisão do pareamento 47,33 45,33
POPE (avaliação da transferência da VQAv2) Precisão (aleatória/popular/do adversário)
87,80
85,87
84,27
88,23
86,77
85,90
OKVQA (treinamento) Precisão (val) 63,54 63,15
A-OKVQA (MC) (treinamento+val) Precisão (servidor de teste) 76,37 76,90
A-OKVQA (DA) (train+val) Precisão (servidor de teste) 61,85 63,22
GQA (train_balanced+val_balanced) Precisão (testdev balanceado) 65,61 67,03
xGQA (avaliação da transferência de GQA) Precisão média (bn, de, en, id, ko, pt, ru, zh) 58,37 59,07
NLVR2 (treinamento e desenvolvimento) Precisão (teste) 90,02 88,93
MaRVL (avaliação da transferência NLVR2) Precisão média (teste) (id, sw, ta, tr, zh) 80,57 76,78
AI2D (trem) Precisão (teste) 72,12 73,28
ScienceQA (subconjunto de imagens, sem CoT) (treinamento+val) Precisão (teste) 95,39 95,93
RSVQA-LR (não numérica) (treinamento+val) Precisão média (teste) 92,65 93,11
RSVQA-HR (não numérica) (treinamento+val) Precisão média (teste/teste2)
92,61
90,58
92,79
90,54
ChartQA (human+aug)x(train+val) Média da precisão relaxada (test_human, test_aug) 57,08 71,36
VizWiz VQA (treinamento+val) Precisão (servidor de teste - padrão) 73,7 75,52
TallyQA (treino) Precisão (test_simple/test_complex)
81,72
69,56
84,86
72,27
OCR-VQA (treinamento+val) Precisão (teste) 72,32 74,61 74,93
TextVQA (treinamento+val) Precisão (servidor de teste - padrão) 55,47 73,15 76,48
DocVQA (treinamento+val) ANLS (servidor de teste) 43,74 78,02 84,77
Infográfico VQA (treinamento+val) ANLS (servidor de teste) 28,46 40,47 47,75
SceneText VQA (treinamento+val) ANLS (servidor de teste) 63,29 81,82 84,40
Segmentação
RefCOCO (refcoco, refcoco+ e refcocog combinados, excluindo imagens de teste e de valor) MIoU (validation) refcoco/refcoco+/refcocog
73,40
68,32
67,65
75,57
69,76
70,17
76,94
72,18
72,22
Tarefas de vídeo (legenda/controle de qualidade)
MSR-VTT (legendas) CIDEr (teste) 70,54
MSR-VTT (QA) Precisão (teste) 50,09
ActivityNet (legendas) CIDEr (teste) 34,62
ActivityNet (QA) Precisão (teste) 50,78
VATEX (Legendas) CIDEr (teste) 79,73
MSVD (QA) Precisão (teste) 60,22

Modelo de mistura (ajuste fino na mistura de tarefas de transferência)

Benchmark Métrica (divisão) mix-224 mix-448
MMVP (em inglês) Precisão do pareamento 46,00 45,33
POPE Precisão (aleatória/popular/do adversário)
88,00
86,63
85,67
89,37
88,40
87,47

Ética e segurança

Abordagem de avaliação

Nossos métodos de avaliação incluem avaliações estruturadas e testes internos de equipe vermelha de políticas de conteúdo relevantes. O red-teaming foi conduzido por várias equipes diferentes, cada uma com objetivos e métricas de avaliação humana diferentes. Esses modelos foram avaliados em relação a várias categorias diferentes relevantes para ética e segurança, incluindo:

  • Avaliação humana de instruções sobre segurança infantil, segurança de conteúdo e danos de representação. Consulte o card de modelo do Gemma para mais detalhes sobre a abordagem de avaliação, mas com configurações de legendas de imagem e resposta visual a perguntas.
  • Avaliação de comparativo de mercado de imagem para texto: comparativo de mercado com conjuntos de dados acadêmicos relevantes, como o FairFace Dataset (Karkkainen et al., 2021).

Resultados da avaliação

  • Os resultados da avaliação humana de ética e segurança estão dentro dos limites aceitáveis para atender às políticas internas em categorias como segurança infantil, segurança de conteúdo e danos de representação.
  • Além de avaliações internas robustas, também usamos a API Perspective (limite de 0, 8) para medir toxicidade, linguagem obscena e outros possíveis problemas nas legendas geradas para imagens do conjunto de dados do FairFace. Informamos os valores máximos e medianos observados nos subgrupos para cada um dos atributos de gênero, etnia e idade percebidos.
Métrica Gênero percebido Etnia Faixa etária
Máximo Mediana Máximo Mediana Máximo Mediana
Toxicidade 0,04% 0,03% 0,08% 0% 0,09% 0%
Ataque de identidade 0% 0% 0% 0% 0% 0%
Insultos 0,06% 0,04% 0,09% 0,07% 0,16% 0%
Ameaça 0,06% 0,05% 0,14% 0,05% 0,17% 0%
Linguagem obscena 0% 0% 0% 0% 0% 0%

Uso e limitações

Uso pretendido

Os modelos de linguagem visual abertos (VLMs) têm uma ampla gama de aplicações em vários setores e domínios. A lista de usos possíveis a seguir não é completa. O objetivo desta lista é fornecer informações contextuais sobre os possíveis casos de uso que os criadores de modelos consideraram como parte do treinamento e desenvolvimento do modelo. Os usos proibidos dos modelos Gemma estão descritos na Política de uso proibido do Gemma.

Ajustar em uma tarefa específica de linguagem de visão:

  • Os modelos pré-treinados podem ser ajustados em uma ampla gama de tarefas de visão e linguagem, como: legendagem de imagens, legendas de vídeos curtos, resposta a perguntas visuais, leitura de texto, detecção e segmentação de objetos.
  • Os modelos pré-treinados podem ser ajustados para domínios específicos, como resposta a perguntas de sensores remotos, perguntas visuais de pessoas com deficiência visual, resposta a perguntas de ciências e descrição de funcionalidades de elementos da interface.
  • Os modelos pré-treinados podem ser ajustados para tarefas com saídas não textuais, como caixas delimitadoras ou máscaras de segmentação.

Pesquisa de linguagem visual:

  • Os modelos pré-treinados e ajustados podem servir de base para que os pesquisadores testem técnicas de VLM, desenvolvam algoritmos e contribuam para o avanço da área.

Considerações éticas e riscos

O desenvolvimento de modelos de visão-linguagem (VLMs, na sigla em inglês) levanta várias questões éticas. Ao criar um modelo aberto, consideramos cuidadosamente o seguinte:

  • Viés e imparcialidade
    • Os VLMs treinados com dados de texto e imagem reais em grande escala podem refletir vieses socioculturais incorporados no material de treinamento. Esses modelos foram cuidadosamente examinados, o pré-processamento de dados de entrada foi descrito e as avaliações posteriores foram informadas neste card.
  • Desinformação e uso indevido
    • Os VLMs podem ser usados indevidamente para gerar textos falsos, enganosos ou prejudiciais.
    • As diretrizes são fornecidas para uso responsável com o modelo. Consulte o Toolkit para IA generativa responsável.
  • Transparência e responsabilidade
    • Este card de modelo resume detalhes sobre a arquitetura, os recursos, as limitações e os processos de avaliação dos modelos.
    • Um modelo aberto desenvolvido de forma responsável oferece a oportunidade de compartilhar inovação, tornando a tecnologia VLM acessível a desenvolvedores e pesquisadores em todo o ecossistema de IA.

Riscos identificados e mitigações:

  • Perpetuação de vieses:é recomendável realizar um monitoramento contínuo (usando métricas de avaliação, revisão humana) e a exploração de técnicas de eliminação de viés durante o treinamento do modelo, ajuste fino e outros casos de uso.
  • Geração de conteúdo nocivo:mecanismos e diretrizes para a segurança do conteúdo são essenciais. Recomendamos que os desenvolvedores tenham cuidado e implementem as salvaguardas de segurança de conteúdo adequadas com base nas políticas específicas do produto e nos casos de uso do aplicativo.
  • Uso indevido para fins maliciosos:limitações técnicas e treinamentos para desenvolvedores e usuários finais podem ajudar a mitigar aplicativos maliciosos de LLMs. Recursos educacionais e mecanismos de denúncia para que os usuários sinalizem o uso indevido são fornecidos: consulte o Toolkit para IA generativa responsável. Os usos proibidos dos modelos Gemma estão descritos na Política de uso proibido do Gemma.
  • Violações de privacidade:os modelos foram treinados com dados filtrados para remover certas informações pessoais e dados sensíveis. Os desenvolvedores são incentivados a aderir às regulamentações de privacidade com técnicas que preservam a privacidade.

Limitações

  • A maioria das limitações herdadas do modelo Gemma ainda se aplica:
    • Os VLMs são melhores em tarefas que podem ser enquadradas com instruções e comandos claros. Tarefas abertas ou muito complexas podem ser desafiadoras.
    • A linguagem natural é inerentemente complexa. Os VLMs podem ter dificuldade para entender nuances sutis, sarcasmo ou linguagem figurada.
    • Os VLMs geram respostas com base nas informações que aprenderam com os conjuntos de dados de treinamento, mas não são bases de conhecimento. Eles podem gerar declarações factuais incorretas ou desatualizadas.
    • Os VLMs dependem de padrões estatísticos na linguagem e nas imagens. Eles podem não ter a capacidade de aplicar o raciocínio de bom senso em determinadas situações.
  • O PaliGemma foi projetado principalmente para servir como um modelo geral pré-treinado para ajustes finos em tarefas especializadas. Portanto, o desempenho "fora da caixa" ou "sem tiro" pode ficar atrás dos modelos projetados especificamente para uso geral.
  • O PaliGemma não é um chatbot de vários turnos. Ele foi projetado para uma única rodada de entrada de imagem e texto.