Card do modelo PaliGemma

Página de modelo:PaliGemma

Recursos e documentação técnica:

Termos de Uso: Termos

Autores: Google

Informações do modelo

Resumo do modelo

Descrição

O PaliGemma é um modelo de linguagem visual (VLM) versátil e leve inspirado na PaLI-3 e baseado em componentes abertos, como o modelo de visão SigLIP e o Gemma de linguagem grande. Ele usa imagens e texto como entrada e gera texto como saída, compatível com vários idiomas. É projetada para alcançar o melhor desempenho em diversos tarefas de linguagem visual, como imagens, legendas de vídeos curtos, perguntas visuais resposta, leitura de texto, detecção e segmentação de objetos.

Arquitetura do modelo

PaliGemma é a composição de um Transformer decodificador e uma imagem do Vision Transformer codificador, que tem um total de 3 bilhões de parâmetros. O decodificador de texto é inicializado Gemma-2B (link em inglês). O codificador de imagem é inicializado em SigLIP-So400m/14. O PaliGemma é treinado seguindo as receitas do PaLI-3.

Entradas e saídas

  • Entrada:string de texto e imagem, como um comando para legendar a imagem, ou uma pergunta.
  • Saída: texto gerado em resposta à entrada, como uma legenda de a imagem, uma resposta a uma pergunta, uma lista de caixas delimitadoras de objeto coordenadas ou palavras de código de segmentação.

Dados do modelo

Pré-treinar conjuntos de dados

O PaliGemma é pré-treinado com a seguinte combinação de conjuntos de dados:

Filtragem de responsabilidade de dados

Os filtros a seguir são aplicados ao WebLI com o objetivo de treinar o PaliGemma. em dados limpos:

  • Filtragem de imagens pornográficas:esse filtro remove imagens consideradas como natureza pornográfica.
  • Filtro de segurança do texto:identificamos e filtramos imagens que combinam com texto não seguro. Texto não seguro é qualquer texto que possa conter ou ser sobre CSAI, pornografia, vulgaridades ou qualquer outra forma ofensiva.
  • Filtragem de toxicidade do texto:usamos mais a Perspectiva API para identificar e filtrar imagens que são em conjunto com texto considerado ofensivo, obsceno, odioso ou de outra forma tóxico.
  • Filtragem de texto de informações pessoais:filtramos determinadas informações e outros dados sensíveis usando a API Cloud Data Loss (DLP) para proteger e a privacidade dos indivíduos. Identificadores como CPF e CNPJ outros tipos de informações sensíveis foram removidos.
  • Métodos adicionais:filtragem com base na qualidade e segurança do conteúdo em estejam alinhados às nossas políticas e práticas.

Informações de implementação

Hardware

O PaliGemma foi treinado com a última geração de Unidade de Processamento de Tensor (TPU) de hardware (TPUv5e).

Software

O treinamento foi feito usando JAX, Flax, TFDS e big_vision.

Com o JAX, os pesquisadores podem aproveitar a geração mais recente de hardware, incluindo TPUs, para um treinamento mais rápido e eficiente de modelos grandes.

O TFDS é usado para acessar os conjuntos de dados, e o Flax é usado para a arquitetura do modelo. O O código de ajuste de detalhes do PaliGemma e o código de inferência foram lançados no big_vision repositório do GitHub.

Informações da avaliação

Resultados da comparação

Para verificar a possibilidade de transferência do PaliGemma para uma ampla variedade de em tarefas acadêmicas, ajustamos os modelos pré-treinados em cada tarefa. Além disso, treinar o modelo de combinação com uma combinação de tarefas de transferência. Registramos resultados em resoluções diferentes para dar uma impressão de quais tarefas se beneficiam maior resolução. É importante ressaltar que nenhuma dessas tarefas ou conjuntos de dados faz parte mistura de dados pré-treinamento, e suas imagens são explicitamente removidas dados pré-treinamento na escala da Web.

Tarefa única (ajustar uma tarefa única)

Comparativo de mercado (divisão de treinamento) Métrica (dividida) pt-224 pt-448 pt-896
Legendagem
Legendas COCO (train+restval) CIDEr (val) 141,92 144,60
NoCaps (avaliação da transferência de legendas COCO) CIDEr (val) 121,72 123,58
COCO-35L (trem) CIDEr dev (en/avg-34/avg)
139,2
115,8
116,4
141,2
118,0
118,6
XM3600 (avaliação da transferência COCO-35L) CIDEr dev (en/avg-34/avg)
78,1
41,3
42,4
80,0
41,9
42,9
TextCaps (treinamento) CIDEr (val) 127,48 153,94
SciCap (primeira frase, sem subfigura) (train+val) CIDEr/BLEU-4 (teste)
162,25
0,192
181,49
0,211
Screen2words (train+dev) CIDEr (teste) 117,57 119,59
Legendagem de widgets (train+dev) CIDEr (teste) 136,07 148,36
Respostas a perguntas
VQAv2 (treinamento + validação) Precisão (servidor de teste - std) 83,19 85,64
MMVP (avaliação da transferência VQAv2) Precisão pareada 47,33 45,33
POPE (avaliação da transferência VQAv2) Acurácia (aleatória/popular/adversária)
87,80
85,87
84,27
88,23
86,77
85,90
OKVQA (trem) Acurácia (val) 63,54 63,15
A-OKVQA (MC) (treinamento + valor) Precisão (servidor de teste) 76,37 76,90
A-OKVQA (DA) (train+val) Precisão (servidor de teste) 61,85 63,22
GQA (train_balanced+val_balanced) Precisão (teste de desenvolvimento equilibrado) 65,61 67,03
xGQA (avaliação da transferência do GQA) Precisão média (bn, de, en, id, ko, pt, ru, zh) 58,37 59,07
NLVR2 (train+dev) Acurácia (teste) 90,02 88,93
MaRVL (avaliação da transferência NLVR2) Precisão média (teste) (id, sw, ta, tr, zh) 80,57 76,78
AI2D (trem) Acurácia (teste) 72,12 73,28
ScienceQA (subconjunto de Img, sem CoT) (treinamento + valor) Acurácia (teste) 95,39 95,93
RSVQA-LR (não numérico) (train+val) Precisão média (teste) 92,65 93,11
RSVQA-HR (não numérico) (treinamento+val) Precisão média (teste/teste2)
92,61
90,58
92,79
90,54
ChartQA (humano + agosto) x(treinamento + valor) Precisão média reduzida (test_human, test_aug) 57,08 71,36
VizWiz VQA (treinamento + valor) Precisão (servidor de teste - std) 73,7 75,52
TallyQA (treinamento) Acurácia (test_simple/test_complex)
81,72
69,56
84,86
72,27
OCR-VQA (treinamento + avaliação) Acurácia (teste) 72,32 74,61 74,93
TextVQA (train+val) Precisão (servidor de teste - std) 55,47 73,15 76,48
DocVQA (treinamento+val) ANLS (servidor de teste) 43,74 78,02 84,77
Infográfico VQA (treinamento + valor) ANLS (servidor de teste) 28,46 40,47 47,75
SceneText VQA (train+val) ANLS (servidor de teste) 63,29 81,82 84,40
Segmentação
RefCOCO (refcoco, refcoco+ e refcocog combinados, excluindo imagens de val e de teste) MIoU (validação) refcoco/refcoco+/refcocog
73,40
68,32
67,65
75,57
69,76
70,17
76,94
72,18
72,22
Tarefas de vídeo (legenda/controle de qualidade)
MSR-VTT (legendagem) CIDEr (teste) 70,54
MSR-VTT (controle de qualidade) Acurácia (teste) 50,09
ActivityNet (legendagem) CIDEr (teste) 34,62
ActivityNet (controle de qualidade) Acurácia (teste) 50,78
IVAEX (legendagem) CIDEr (teste) 79,73
MSVD (controle de qualidade) Acurácia (teste) 60,22

Modelo misto (ajustar a combinação de tarefas de transferência)

Benchmark Métrica (dividida) mix-224 mix-448
MMVP Precisão pareada 46,00 45,33
POPE (em inglês) Acurácia (aleatória/popular/adversária)
88,00
86,63
85,67
89,37
88,40
87,47

Ética e segurança

Abordagem de avaliação

Nossos métodos de avaliação incluem avaliações estruturadas e equipe vermelha interna testes de políticas de conteúdo relevantes. A equipe vermelha foi conduzida por vários equipes diferentes, cada uma com metas e métricas de avaliação humana diferentes. Esses modelos foram avaliados em relação a várias categorias diferentes ética e segurança, incluindo:

  • Avaliação humana em tópicos sobre segurança infantil, segurança de conteúdo e danos à representatividade. Consulte o modelo do Gemma card para mais detalhes sobre a abordagem de avaliação, mas com legendagem de imagens e recursos configurações de respostas a perguntas.
  • Avaliação comparativa de comparação de imagem para texto: compare com trabalhos acadêmicos relevantes conjuntos de dados, como FairFace Dataset (Karkkainen et al., 2021).

Resultados da avaliação

  • Os resultados das avaliações humanas de ética e segurança estão dentro os limites aceitáveis para atender aos requisitos de políticas para categorias como segurança infantil, segurança de conteúdo danos.
  • Além de avaliações internas robustas, também usamos a API Perspective (limite de 0, 8) para medir toxicidade, linguagem obscena e outros possíveis problemas nas legendas geradas para imagens do FairFace no conjunto de dados. Informamos os valores máximos e medianos observados em subgrupos para cada atributo percebido de gênero, etnia e idade.
Métrica Gênero percebido Etnia Faixa etária
Máximo Mediana Máximo Mediana Máximo Mediana
Toxicidade 0,04% 0,03% 0,08% 0% 0,09% 0%
Ataque de identidade 0% 0% 0% 0% 0% 0%
Insultos 0,06% 0,04% 0,09% 0,07% 0,16% 0%
Ameaça 0,06% 0,05% 0,14% 0,05% 0,17% 0%
Linguagem obscena 0% 0% 0% 0% 0% 0%

Uso e limitações

Uso pretendido

Os modelos de linguagem de visão aberta (VLMs) têm uma ampla variedade de aplicativos em vários setores e domínios. A lista de possíveis usos a seguir não está abrangente. O objetivo dessa lista é fornecer informações contextuais sobre os possíveis casos de uso que os criadores de modelos consideraram treinamento e desenvolvimento.

Ajuste uma tarefa específica de linguagem visual:

  • Os modelos pré-treinados podem ser ajustados em uma ampla variedade de linguagens visuais tarefas como legendagem de imagens, legenda de vídeo curta, pergunta visual resposta, leitura de texto, detecção e segmentação de objetos.
  • Os modelos pré-treinados podem ser ajustados para domínios específicos, como perguntas sensoriais, perguntas visuais feitas por pessoas cegas, respostas a perguntas científicas, descrever as funcionalidades do elemento da interface.
  • Os modelos pré-treinados podem ser ajustados para tarefas com saídas não textuais como caixas delimitadoras ou máscaras de segmentação.

Pesquisa de linguagem visual:

  • Os modelos pré-treinados e ajustados podem servir de base para os pesquisadores a testar técnicas de VLM, desenvolver algoritmos e contribuir para o avanço da área.

Considerações éticas e riscos

O desenvolvimento de modelos de linguagem visual (VLMs) desperta vários fatores éticos problemas. Ao criar um modelo aberto, consideramos cuidadosamente o seguinte:

  • Viés e imparcialidade
    • VLMs treinados com dados de texto e imagem em grande escala do mundo real podem refletir vieses socioculturais incorporados no material de treinamento. Esses modelos passou por um exame minucioso, o pré-processamento dos dados de entrada descreveu e de avaliações posteriores relatadas nesse card.
  • Desinformação e uso indevido
    • VLMs podem ser usados indevidamente para gerar texto falso, enganoso ou prejudiciais.
    • as diretrizes são fornecidas para uso responsável com o modelo, consulte a Kit de ferramentas de IA generativa responsável.
  • Transparência e responsabilidade
    • Este card de modelo resume os detalhes da arquitetura capacidades, limitações e processos de avaliação.
    • Um modelo aberto e desenvolvido de forma responsável oferece a oportunidade de compartilhar tornando a tecnologia do VLM acessível a desenvolvedores e pesquisadores em todo o ecossistema de IA.

Riscos identificados e mitigações:

  • Perpetuação de vieses:é incentivado a realização de monitoramento contínuo. (usando métricas de avaliação, revisão humana) e a análise de desigualdade técnicas durante o treinamento de modelos, o ajuste fino e outros casos de uso.
  • Geração de conteúdo nocivo:mecanismos e diretrizes para conteúdo. segurança são essenciais. Incentivamos os desenvolvedores a ter cautela a implementar salvaguardas previstas de segurança de conteúdo com base políticas de produtos e casos de uso de aplicativos.
  • Uso indevido para fins maliciosos: limitações técnicas e o a educação do usuário final pode ajudar a mitigar aplicativos maliciosos de LLMs. Existem recursos educacionais e mecanismos de denúncia para os usuários sinalizarem uso indevido fornecido: consulte "Kit de ferramentas de IA generativa responsável". Usos proibidos do Gemma são descritos na política de uso proibido do Gemma.
  • Violações de privacidade:os modelos foram treinados com dados filtrados para remoção. algumas informações pessoais e dados sensíveis. Recomendamos que os desenvolvedores aderir aos regulamentos de privacidade com técnicas que preservam a privacidade.

Limitações

  • A maioria das limitações herdadas do modelo Gemma subjacente ainda se aplica:
    • Os VLMs são melhores em tarefas que podem ser estruturadas com instruções claras e instruções. Tarefas abertas ou altamente complexas podem ser desafiadoras.
    • A linguagem natural é inerentemente complexa. Os VLMs podem ter dificuldade para entender nuances sutis, sarcasmo ou linguagem figurada.
    • Os VLMs geram respostas com base nas informações que aprenderam com os conjuntos de dados de treinamento, mas não são bases de conhecimento. Eles podem gerar declarações factuais incorretas ou desatualizadas.
    • Os VLMs se baseiam em padrões estatísticos em linguagem e imagens. Eles poderiam não conseguem aplicar o raciocínio de bom senso em determinadas situações.
  • O PaliGemma foi projetado, acima de tudo, para servir como um modelo modelo para ajustar tarefas especializadas. Por isso, ele vem pronto para uso ou "zero-shot" o desempenho pode ficar para trás dos modelos projetados especificamente para isso.
  • O PaliGemma não é um chatbot com várias interações. Ele foi projetado para uma única rodada de entrada de imagem e texto.