Card de modelo do PaliGemma 2

Página do modelo:PaliGemma

Recursos e documentação técnica:

Termos de Uso:Termos

Autores:Google

Informações do modelo

Resumo do modelo

O PaliGemma 2 é uma atualização do modelo de linguagem/visão (VLM) PaliGemma, que incorpora os recursos dos modelos Gemma 2. A família de modelos PaliGemma é inspirada no PaLI-3 e baseada em componentes abertos, como o modelo de visão SigLIP e os modelos de linguagem Gemma 2. Ele usa imagens e texto como entrada e gera texto como saída, com suporte a vários idiomas. Ele foi projetado para ajustar o desempenho em uma ampla gama de tarefas de visão e linguagem, como legendas de imagens e vídeos curtos, respostas a perguntas visuais, leitura de texto, detecção e segmentação de objetos.

Arquitetura do modelo

O PaliGemma 2 é a composição de um decodificador de transformador e um codificador de imagem do Vision Transformer. O decodificador de texto é inicializado pelo Gemma 2 nos tamanhos de parâmetro 2B, 9B e 27B. O codificador de imagem é inicializado em SigLIP-So400m/14. Assim como o modelo PaliGemma original, o PaliGemma 2 é treinado seguindo as receitas do PaLI-3.

Entradas e saídas

  • Entrada:string de imagem e texto, como um comando para legendar a imagem ou uma pergunta.
  • Saída:texto gerado em resposta à entrada, como uma legenda da imagem, uma resposta a uma pergunta, uma lista de coordenadas da caixa delimitadora do objeto ou palavras-código de segmentação.

Citação

@article{
    title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
    author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
    year={2024},
    journal={arXiv preprint arXiv:2412.03555}
}

Dados do modelo

Conjuntos de dados de pré-treinamento

O PaliGemma 2 é pré-treinado com a seguinte mistura de conjuntos de dados:

O PaliGemma 2 é baseado no Gemma 2, e você pode encontrar informações sobre os conjuntos de dados de pré-treinamento do Gemma 2 no card de modelo do Gemma 2.

Filtragem de responsabilidade de dados

Os filtros a seguir são aplicados à WebLI, com o objetivo de treinar o PaliGemma 2 com dados seguros e responsáveis:

  • Filtragem de imagens pornográficas:esse filtro remove imagens consideradas de natureza pornográfica.
  • Filtragem de segurança de texto:identificamos e filtramos imagens que são associadas a texto não seguro. Texto inseguro é qualquer texto considerado como contendo ou sendo sobre imagens de abuso sexual infantil (CSAI), pornografia, vulgaridades ou qualquer outra coisa ofensiva.
  • Filtragem de toxicidade de texto:usamos a API Perspective para identificar e filtrar imagens que são associadas a textos considerados ofensivos, obscenos, odiosos ou tóxicos.
  • Filtragem de informações pessoais em texto:filtramos determinadas informações pessoais e outros dados sensíveis usando a API Cloud Data Loss Prevention (DLP) para proteger a privacidade das pessoas. Identificadores como CPF ou CNPJ e outros tipos de informações sensíveis foram removidos.
  • Outros métodos:filtragem com base na qualidade e segurança do conteúdo, de acordo com nossas políticas e práticas.

Informações de implementação

Hardware

O PaliGemma 2 foi treinado usando a geração mais recente de hardware de Unidade de Processamento de Tensor (TPU, na sigla em inglês) (TPUv5e).

Software

O treinamento foi concluído usando JAX, Flax, TFDS e big_vision.

O JAX permite que os pesquisadores aproveitem a geração mais recente de hardware, incluindo TPUs, para um treinamento mais rápido e eficiente de modelos grandes.

O TFDS é usado para acessar conjuntos de dados, e o Flax é usado para arquitetura de modelos. O código de ajuste fino e de inferência do PaliGemma 2 foi lançado no repositório do GitHub big_vision.

Informações da avaliação

Resultados da comparação

Para verificar a transferibilidade do PaliGemma 2 para uma ampla variedade de tarefas acadêmicas, ajustamos os modelos pré-treinados em cada tarefa. Informamos os resultados em diferentes resoluções para dar uma ideia de quais tarefas se beneficiam do aumento da resolução. É importante ressaltar que nenhuma dessas tarefas ou conjuntos de dados faz parte da mistura de dados de pré-treinamento, e as imagens são removidas explicitamente dos dados de pré-treinamento em escala da Web.

Resultados do PaliGemma 2 por resolução e tamanho do modelo

Benchmark 224-3B 224-10B 224-28B 448-3B 448-10B 448-28B
AI2D 74,7 83,1 83,2 76,0 84,4 84,6
AOKVQA-DA (val) 64.2 68,9 70,2 67,9 70,8 71,2
AOKVQA-MC (val) 79,7 83,7 84,7 82,5 85,9 87,0
ActivityNet-CAP 34,2 35,9 - - - -
ActivityNet-QA 51.3 53.2 - - - -
COCO-35L (avg34) 113,9 115,8 116,5 115,8 117,2 117,2
COCO-35L (pt) 138,4 140,8 142,4 140,4 142,4 142.3
COCOcap 141.3 143,7 144,0 143,4 145,0 145,2
ChartQA (média) 74,4 74,2 68,9 89,2 90.1 85,1
ChartQA (humano) 42,0 48,4 46,8 54,0 66.4 61.3
CountBenchQA 81,0 84,0 86,4 82,0 85,3 87,4
DocVQA (val) 39,9 43,9 44,9 73,6 76,6 76,1
GQA 66.2 67.2 67,3 68.1 68,3 68,3
InfoVQA (val) 25,2 33,6 36,4 37,5 47,8 46,7
MARVL (avg5) 83,5 89,5 90,6 82,7 89,1 89.7
MSRVTT-CAP 68,5 72.1 - - - -
MSRVTT-QA 50,5 51,9 - - - -
MSVD-QA 61.1 62,5 - - - -
NLVR2 91,4 93,9 94,2 91,6 93,7 94,1
NoCaps 123.1 126,3 127.1 123,5 126,9 127,0
OCR-VQA 73,4 74,7 75,3 75,7 76,3 76,6
OKVQA 64.2 68,0 71,2 64.1 68,6 70,6
RSVQA-hr (teste) 92,7 92,6 92,7 92,8 92,8 92,8
RSVQA-hr (test2) 90,9 90,8 90,9 90,7 90,7 90,8
RSVQA-lr 93,0 92,8 93,5 92,7 93,1 93,7
RefCOCO (testA) 75,7 77.2 76,8 78,6 79,7 79,3
RefCOCO (testeB) 71,0 74,2 73,9 73,5 76,2 74,8
RefCOCO (val) 73,4 75,9 75,0 76,3 78,2 77.3
RefCOCO+ (testeA) 72,7 74,7 73,6 76,1 77,7 76,6
RefCOCO+ (testeB) 64.2 68.4 67.1 67,0 71.1 68,6
RefCOCO+ (val) 68,6 72,0 70,3 72.1 74,4 72,8
RefCOCOg (teste) 69,0 71,9 70,7 72,7 74,8 73,7
RefCOCOg (val) 68,3 71,4 70,5 72,3 74,4 73,0
ST-VQA (val) 61,9 64,3 65.1 80,5 82,0 81,8
SciCap 165,1 159,5 156,9 183.3 177.2 172,7
ScienceQA 96,1 98,2 98,2 96,2 98,5 98,6
Screen2Words 113.3 117,8 122,8 114,0 119.1 123,4
TallyQA (complexo) 70,3 73,4 74,2 73,6 76,7 76,8
TallyQA (simples) 81,8 83,2 83,4 85,3 86,2 85,7
TextCaps 127,5 137,9 139,9 152.1 157,7 153,6
TextVQA (val) 59,6 64,0 64,7 75,2 76,6 76,2
VATEX 80,8 82,7 - - - -
VQAv2 (minival) 83 84,3 84,5 84,8 85,8 85,8
VizWizVQA (val) 76,4 78,1 78,7 77,5 78,6 78,9
WidgetCap 138.1 139,8 138,8 151,4 151,9 148,9
XM3600 (avg35) 42,8 44,5 45.2 43.2 44,6 45.2
XM3600 (en) 79,8 80,7 81,0 80,3 81,5 81,0
xGQA (avg7) 58,6 61.4 61.1 60,4 62,6 62.1

Outros comparativos de mercado

ICDAR 2015 Incidental

Modelo Precisão Recall F1
PaliGemma 2 3B 81,88 70,73 75,9

Total-Text

Modelo Precisão Recall F1
PaliGemma 2 3B 73,8. 74,54 74,17

FinTabNet

Modelo S-TEDS TEDS GriTS-Top GriTS-Con
PaliGemma 2 3B 99,18 98,94 99,43 99,21

PubTabNet

Modelo S-TEDS TEDS GriTS-Top GriTS-Con
PaliGemma 2 3B 97,6 97,31 97,99 97,84

GrandStaff

Modelo CER LER SER
PaliGemma 2 3B 1.6 6,7 2.3

PubChem

  • PaliGemma 2 3B, correspondência total: 94,8

DOCCI

Modelo avg#char avg#sent NES %
PaliGemma 2 3B 529 7,74 28,42
PaliGemma 2 10B 521 7,45 20,27
  • avg#char: número médio de caracteres
  • avg#sent: número médio de frases
  • NES: frases sem implicação

MIMIC-CXR

Modelo CIDEr BLEU4 Rouge-L RadGraph F1
PaliGemma 2 3B 19,9% 14,6% 31,92% 28,8%
PaliGemma 2 10B 17,4% 15% 32,41% 29,5%

Raciocínio espacial visual

Modelo Divisão de VSR sem imagem (teste) Divisão aleatória do VSR (teste)
PaliGemma 2 3B 0,75 0,82
PaliGemma 2 10B 0,80 0.87

Ética e segurança

Abordagem de avaliação

Nossos métodos de avaliação incluem avaliações estruturadas de ética e segurança em todas as políticas de conteúdo relevantes, incluindo:

  • Avaliação humana de instruções sobre segurança infantil, segurança de conteúdo e danos de representação. Consulte o card de modelo do Gemma para mais detalhes sobre a abordagem de avaliação, mas com configurações de legendas de imagem e resposta visual a perguntas.
  • Avaliação de comparativo de mercado de imagem para texto: comparativo de mercado com conjuntos de dados acadêmicos relevantes, como o FairFace Dataset (Karkkainen et al., 2021).

Resultados da avaliação

  • Os resultados da avaliação humana de ética e segurança estão dentro dos limites aceitáveis para atender às políticas internas em categorias como segurança infantil, segurança de conteúdo e danos de representação.
  • Além de avaliações internas robustas, também usamos a API Perspective (limite de 0, 8) para medir toxicidade, linguagem obscena e outros possíveis problemas nas legendas geradas para imagens do conjunto de dados do FairFace. Informamos os valores máximos e medianos observados nos subgrupos para cada um dos atributos de gênero, etnia e idade percebidos.
Métrica Gênero percebido Etnia Faixa etária
Tamanho do modelo 3 bi 10B 28B 3 bi 10B 28B 3 bi 10B 28B
Máximo
Toxicidade 0,14% 0,15% 0,19% 0,29% 0,39% 0,39% 0,26% 0,18% 0,32%
Ataque de identidade 0,04% 0,02% 0,02% 0,13% 0,06% 0,06% 0,06% 0,03% 0,06%
Insultos 0,17% 0,25% 0,17% 0,37% 0,52% 0,52% 0,27% 0,39% 0,24%
Ameaça 0,55% 0,43% 0,57% 0,83% 0,48% 0,48% 0,64% 0,43% 0,64%
Linguagem obscena 0% 0% 0% 0% 0% 0% 0% 0% 0%
Mediana
Toxicidade 0,13% 0,10% 0,18% 0,07% 0,07% 0,14% 0,12% 0,08% 0,12%
Ataque de identidade 0,02% 0.01% 0,02% 0% 0% 0% 0% 0% 0%
Insultos 0,15% 0,23% 0,14% 0,14% 0,17% 0,13% 0,09% 0,18% 0,16%
Ameaça 0,35% 0,27% 0,41% 0,28% 0,19% 0,42% 0,27% 0,31% 0,40 %
Linguagem obscena 0% 0% 0% 0% 0% 0% 0% 0% 0%

Uso e limitações

Uso pretendido

Os modelos de linguagem visual abertos (VLMs) têm uma ampla gama de aplicações em vários setores e domínios. A lista de usos possíveis a seguir não é completa. O objetivo desta lista é fornecer informações contextuais sobre os possíveis casos de uso que os criadores de modelos consideraram como parte do treinamento e desenvolvimento do modelo. Os usos proibidos dos modelos Gemma estão descritos na Política de uso proibido do Gemma.

Ajustar a tarefa de linguagem de visão específica:

  • Os modelos pré-treinados podem ser ajustados em uma ampla gama de tarefas de visão e linguagem, como: legendagem de imagens, legendas de vídeos curtos, resposta a perguntas visuais, leitura de texto, detecção e segmentação de objetos.
  • Os modelos pré-treinados podem ser ajustados para domínios específicos, como resposta a perguntas de sensores remotos, perguntas visuais de pessoas com deficiência visual, resposta a perguntas de ciências e descrição de funcionalidades de elementos da interface.
  • Os modelos pré-treinados podem ser ajustados para tarefas com saídas não textuais, como caixas delimitadoras ou máscaras de segmentação.

Pesquisa de linguagem visual:

  • Os modelos pré-treinados e ajustados podem servir de base para que os pesquisadores testem técnicas de VLM, desenvolvam algoritmos e contribuam para o avanço da área.

Considerações éticas e riscos

O desenvolvimento de modelos de visão-linguagem (VLMs, na sigla em inglês) levanta várias questões éticas. Ao criar um modelo aberto, consideramos cuidadosamente o seguinte:

  • Viés e imparcialidade
    • Os VLMs treinados com dados de texto e imagem reais em grande escala podem refletir vieses socioculturais incorporados no material de treinamento. Esses modelos foram cuidadosamente examinados, o pré-processamento de dados de entrada foi descrito e as avaliações posteriores foram informadas neste card.
  • Desinformação e uso indevido
    • Os VLMs podem ser usados indevidamente para gerar textos falsos, enganosos ou prejudiciais.
    • As diretrizes são fornecidas para uso responsável com o modelo. Consulte o Toolkit para IA generativa responsável.
  • Transparência e responsabilidade
    • Este card de modelo resume detalhes sobre a arquitetura, os recursos, as limitações e os processos de avaliação dos modelos.
    • Um modelo aberto desenvolvido de forma responsável oferece a oportunidade de compartilhar inovação, tornando a tecnologia VLM acessível a desenvolvedores e pesquisadores em todo o ecossistema de IA.

Riscos identificados e mitigações:

  • Perpetuação de vieses:é recomendável realizar um monitoramento contínuo (usando métricas de avaliação, revisão humana) e a exploração de técnicas de eliminação de viés durante o treinamento do modelo, ajuste fino e outros casos de uso.
  • Geração de conteúdo nocivo:mecanismos e diretrizes para a segurança do conteúdo são essenciais. Recomendamos que os desenvolvedores tenham cuidado e implementem as salvaguardas de segurança de conteúdo adequadas com base nas políticas específicas do produto e nos casos de uso do aplicativo.
  • Uso indevido para fins maliciosos:limitações técnicas e treinamentos para desenvolvedores e usuários finais podem ajudar a mitigar aplicativos maliciosos de LLMs. Recursos educacionais e mecanismos de denúncia para que os usuários denunciem o uso indevido são fornecidos: consulte o Toolkit para IA generativa responsável. Os usos proibidos dos modelos Gemma estão descritos na Política de uso proibido do Gemma.
  • Violações de privacidade:os modelos foram treinados com dados filtrados para remover certas informações pessoais e dados sensíveis. Os desenvolvedores são incentivados a aderir às regulamentações de privacidade com técnicas que preservam a privacidade.

Limitações

  • A maioria das limitações herdadas dos modelos subjacentes do Gemma 2 ainda se aplica:
    • Os VLMs são melhores em tarefas que podem ser enquadradas com instruções e comandos claros. Tarefas abertas ou muito complexas podem ser desafiadoras.
    • A linguagem natural é inerentemente complexa. Os VLMs podem ter dificuldade para entender nuances sutis, sarcasmo ou linguagem figurada.
    • Os VLMs geram respostas com base nas informações que aprenderam com os conjuntos de dados de treinamento, mas não são bases de conhecimento. Eles podem gerar declarações factuais incorretas ou desatualizadas.
    • Os VLMs dependem de padrões estatísticos na linguagem e nas imagens. Eles podem não ter a capacidade de aplicar o raciocínio de bom senso em determinadas situações.
  • O PaliGemma 2 foi projetado principalmente para servir como um modelo pré-treinado geral para ajuste fino de tarefas especializadas. Portanto, a performance "fora da caixa" ou "zero-shot" pode ficar para trás em relação aos modelos projetados especificamente para uso geral.
  • O PaliGemma 2 não é um chatbot de vários turnos. Ele foi projetado para uma única rodada de entrada de imagem e texto.