Página de modelo:PaliGemma
Recursos e documentação técnica:
Termos de Uso: Termos
Autores: Google
Informações do modelo
Resumo do modelo
Descrição
O PaliGemma é um modelo de linguagem visual (VLM) versátil e leve inspirado na PaLI-3 e baseado em componentes abertos, como o modelo de visão SigLIP e o Gemma de linguagem grande. Ele usa imagens e texto como entrada e gera texto como saída, compatível com vários idiomas. É projetada para alcançar o melhor desempenho em diversos tarefas de linguagem visual, como imagens, legendas de vídeos curtos, perguntas visuais resposta, leitura de texto, detecção e segmentação de objetos.
Arquitetura do modelo
PaliGemma é a composição de um Transformer decodificador e uma imagem do Vision Transformer codificador, que tem um total de 3 bilhões de parâmetros. O decodificador de texto é inicializado Gemma-2B (link em inglês). O codificador de imagem é inicializado em SigLIP-So400m/14. O PaliGemma é treinado seguindo as receitas do PaLI-3.
Entradas e saídas
- Entrada:string de texto e imagem, como um comando para legendar a imagem, ou uma pergunta.
- Saída: texto gerado em resposta à entrada, como uma legenda de a imagem, uma resposta a uma pergunta, uma lista de caixas delimitadoras de objeto coordenadas ou palavras de código de segmentação.
Dados do modelo
Pré-treinar conjuntos de dados
O PaliGemma é pré-treinado com a seguinte combinação de conjuntos de dados:
- WebLI:WebLI (Web Language Image) é um conjunto de dados multilíngue e de texto em escala da Web criado a partir da Web pública. Um uma ampla gama de divisões de WebLI é usada para adquirir recursos de modelo versáteis, como compreensão semântica visual, localização de objetos compreensão de texto com situação visual, multilingualidade etc.
- CC3M-35L:pares de image-alt_text em inglês selecionados de páginas da Web (Sharma et al., 2018). Usamos o Google Cloud API Translation para tradução para 34 idiomas adicionais.
- VQ²A-CC3M-35L/VQG-CC3M-35L::um subconjunto de VQ2A-CC3M (Changpinyo et al., 2022a), traduzido no os mesmos 34 idiomas adicionais do CC3M-35L, usando o Google Cloud API Translation.
- OpenImages: perguntas e respostas de detecção e reconhecimento de objetos (Piergiovanni et al. 2022) gerado pelo regras manuais no conjunto de dados OpenImages.
- WIT:imagens e textos coletados da Wikipédia (Srinivasan et al., 2021).
Filtragem de responsabilidade de dados
Os filtros a seguir são aplicados ao WebLI com o objetivo de treinar o PaliGemma. em dados limpos:
- Filtragem de imagens pornográficas:esse filtro remove imagens consideradas como natureza pornográfica.
- Filtro de segurança do texto:identificamos e filtramos imagens que combinam com texto não seguro. Texto não seguro é qualquer texto que possa conter ou ser sobre CSAI, pornografia, vulgaridades ou qualquer outra forma ofensiva.
- Filtragem de toxicidade do texto:usamos mais a Perspectiva API para identificar e filtrar imagens que são em conjunto com texto considerado ofensivo, obsceno, odioso ou de outra forma tóxico.
- Filtragem de texto de informações pessoais:filtramos determinadas informações e outros dados sensíveis usando a API Cloud Data Loss (DLP) para proteger e a privacidade dos indivíduos. Identificadores como CPF e CNPJ outros tipos de informações sensíveis foram removidos.
- Métodos adicionais:filtragem com base na qualidade e segurança do conteúdo em estejam alinhados às nossas políticas e práticas.
Informações de implementação
Hardware
O PaliGemma foi treinado com a última geração de Unidade de Processamento de Tensor (TPU) de hardware (TPUv5e).
Software
O treinamento foi feito usando JAX,
Flax,
TFDS e
big_vision
.
Com o JAX, os pesquisadores podem aproveitar a geração mais recente de hardware, incluindo TPUs, para um treinamento mais rápido e eficiente de modelos grandes.
O TFDS é usado para acessar os conjuntos de dados, e o Flax é usado para a arquitetura do modelo. O
O código de ajuste de detalhes do PaliGemma e o código de inferência foram lançados no big_vision
repositório do GitHub.
Informações da avaliação
Resultados da comparação
Para verificar a possibilidade de transferência do PaliGemma para uma ampla variedade de em tarefas acadêmicas, ajustamos os modelos pré-treinados em cada tarefa. Além disso, treinar o modelo de combinação com uma combinação de tarefas de transferência. Registramos resultados em resoluções diferentes para dar uma impressão de quais tarefas se beneficiam maior resolução. É importante ressaltar que nenhuma dessas tarefas ou conjuntos de dados faz parte mistura de dados pré-treinamento, e suas imagens são explicitamente removidas dados pré-treinamento na escala da Web.
Tarefa única (ajustar uma tarefa única)
Comparativo de mercado (divisão de treinamento) | Métrica (dividida) | pt-224 | pt-448 | pt-896 |
---|---|---|---|---|
Legendagem | ||||
Legendas COCO (train+restval) | CIDEr (val) | 141,92 | 144,60 | |
NoCaps (avaliação da transferência de legendas COCO) | CIDEr (val) | 121,72 | 123,58 | |
COCO-35L (trem) | CIDEr dev (en/avg-34/avg) |
|
|
|
XM3600 (avaliação da transferência COCO-35L) | CIDEr dev (en/avg-34/avg) |
|
|
|
TextCaps (treinamento) | CIDEr (val) | 127,48 | 153,94 | |
SciCap (primeira frase, sem subfigura) (train+val) | CIDEr/BLEU-4 (teste) |
|
|
|
Screen2words (train+dev) | CIDEr (teste) | 117,57 | 119,59 | |
Legendagem de widgets (train+dev) | CIDEr (teste) | 136,07 | 148,36 | |
Respostas a perguntas | ||||
VQAv2 (treinamento + validação) | Precisão (servidor de teste - std) | 83,19 | 85,64 | |
MMVP (avaliação da transferência VQAv2) | Precisão pareada | 47,33 | 45,33 | |
POPE (avaliação da transferência VQAv2) | Acurácia (aleatória/popular/adversária) |
|
|
|
OKVQA (trem) | Acurácia (val) | 63,54 | 63,15 | |
A-OKVQA (MC) (treinamento + valor) | Precisão (servidor de teste) | 76,37 | 76,90 | |
A-OKVQA (DA) (train+val) | Precisão (servidor de teste) | 61,85 | 63,22 | |
GQA (train_balanced+val_balanced) | Precisão (teste de desenvolvimento equilibrado) | 65,61 | 67,03 | |
xGQA (avaliação da transferência do GQA) | Precisão média (bn, de, en, id, ko, pt, ru, zh) | 58,37 | 59,07 | |
NLVR2 (train+dev) | Acurácia (teste) | 90,02 | 88,93 | |
MaRVL (avaliação da transferência NLVR2) | Precisão média (teste) (id, sw, ta, tr, zh) | 80,57 | 76,78 | |
AI2D (trem) | Acurácia (teste) | 72,12 | 73,28 | |
ScienceQA (subconjunto de Img, sem CoT) (treinamento + valor) | Acurácia (teste) | 95,39 | 95,93 | |
RSVQA-LR (não numérico) (train+val) | Precisão média (teste) | 92,65 | 93,11 | |
RSVQA-HR (não numérico) (treinamento+val) | Precisão média (teste/teste2) |
|
|
|
ChartQA (humano + agosto) x(treinamento + valor) | Precisão média reduzida (test_human, test_aug) | 57,08 | 71,36 | |
VizWiz VQA (treinamento + valor) | Precisão (servidor de teste - std) | 73,7 | 75,52 | |
TallyQA (treinamento) | Acurácia (test_simple/test_complex) |
|
|
|
OCR-VQA (treinamento + avaliação) | Acurácia (teste) | 72,32 | 74,61 | 74,93 |
TextVQA (train+val) | Precisão (servidor de teste - std) | 55,47 | 73,15 | 76,48 |
DocVQA (treinamento+val) | ANLS (servidor de teste) | 43,74 | 78,02 | 84,77 |
Infográfico VQA (treinamento + valor) | ANLS (servidor de teste) | 28,46 | 40,47 | 47,75 |
SceneText VQA (train+val) | ANLS (servidor de teste) | 63,29 | 81,82 | 84,40 |
Segmentação | ||||
RefCOCO (refcoco, refcoco+ e refcocog combinados, excluindo imagens de val e de teste) | MIoU (validação) refcoco/refcoco+/refcocog |
|
|
|
Tarefas de vídeo (legenda/controle de qualidade) | ||||
MSR-VTT (legendagem) | CIDEr (teste) | 70,54 | ||
MSR-VTT (controle de qualidade) | Acurácia (teste) | 50,09 | ||
ActivityNet (legendagem) | CIDEr (teste) | 34,62 | ||
ActivityNet (controle de qualidade) | Acurácia (teste) | 50,78 | ||
IVAEX (legendagem) | CIDEr (teste) | 79,73 | ||
MSVD (controle de qualidade) | Acurácia (teste) | 60,22 |
Modelo misto (ajustar a combinação de tarefas de transferência)
Benchmark | Métrica (dividida) | mix-224 | mix-448 |
---|---|---|---|
MMVP | Precisão pareada | 46,00 | 45,33 |
POPE (em inglês) | Acurácia (aleatória/popular/adversária) |
|
|
Ética e segurança
Abordagem de avaliação
Nossos métodos de avaliação incluem avaliações estruturadas e equipe vermelha interna testes de políticas de conteúdo relevantes. A equipe vermelha foi conduzida por vários equipes diferentes, cada uma com metas e métricas de avaliação humana diferentes. Esses modelos foram avaliados em relação a várias categorias diferentes ética e segurança, incluindo:
- Avaliação humana em tópicos sobre segurança infantil, segurança de conteúdo e danos à representatividade. Consulte o modelo do Gemma card para mais detalhes sobre a abordagem de avaliação, mas com legendagem de imagens e recursos configurações de respostas a perguntas.
- Avaliação comparativa de comparação de imagem para texto: compare com trabalhos acadêmicos relevantes conjuntos de dados, como FairFace Dataset (Karkkainen et al., 2021).
Resultados da avaliação
- Os resultados das avaliações humanas de ética e segurança estão dentro os limites aceitáveis para atender aos requisitos de políticas para categorias como segurança infantil, segurança de conteúdo danos.
- Além de avaliações internas robustas, também usamos a API Perspective (limite de 0, 8) para medir toxicidade, linguagem obscena e outros possíveis problemas nas legendas geradas para imagens do FairFace no conjunto de dados. Informamos os valores máximos e medianos observados em subgrupos para cada atributo percebido de gênero, etnia e idade.
Métrica | Gênero percebido | Etnia | Faixa etária | |||
---|---|---|---|---|---|---|
Máximo | Mediana | Máximo | Mediana | Máximo | Mediana | |
Toxicidade | 0,04% | 0,03% | 0,08% | 0% | 0,09% | 0% |
Ataque de identidade | 0% | 0% | 0% | 0% | 0% | 0% |
Insultos | 0,06% | 0,04% | 0,09% | 0,07% | 0,16% | 0% |
Ameaça | 0,06% | 0,05% | 0,14% | 0,05% | 0,17% | 0% |
Linguagem obscena | 0% | 0% | 0% | 0% | 0% | 0% |
Uso e limitações
Uso pretendido
Os modelos de linguagem de visão aberta (VLMs) têm uma ampla variedade de aplicativos em vários setores e domínios. A lista de possíveis usos a seguir não está abrangente. O objetivo dessa lista é fornecer informações contextuais sobre os possíveis casos de uso que os criadores de modelos consideraram treinamento e desenvolvimento.
Ajuste uma tarefa específica de linguagem visual:
- Os modelos pré-treinados podem ser ajustados em uma ampla variedade de linguagens visuais tarefas como legendagem de imagens, legenda de vídeo curta, pergunta visual resposta, leitura de texto, detecção e segmentação de objetos.
- Os modelos pré-treinados podem ser ajustados para domínios específicos, como perguntas sensoriais, perguntas visuais feitas por pessoas cegas, respostas a perguntas científicas, descrever as funcionalidades do elemento da interface.
- Os modelos pré-treinados podem ser ajustados para tarefas com saídas não textuais como caixas delimitadoras ou máscaras de segmentação.
Pesquisa de linguagem visual:
- Os modelos pré-treinados e ajustados podem servir de base para os pesquisadores a testar técnicas de VLM, desenvolver algoritmos e contribuir para o avanço da área.
Considerações éticas e riscos
O desenvolvimento de modelos de linguagem visual (VLMs) desperta vários fatores éticos problemas. Ao criar um modelo aberto, consideramos cuidadosamente o seguinte:
- Viés e imparcialidade
- VLMs treinados com dados de texto e imagem em grande escala do mundo real podem refletir vieses socioculturais incorporados no material de treinamento. Esses modelos passou por um exame minucioso, o pré-processamento dos dados de entrada descreveu e de avaliações posteriores relatadas nesse card.
- Desinformação e uso indevido
- VLMs podem ser usados indevidamente para gerar texto falso, enganoso ou prejudiciais.
- as diretrizes são fornecidas para uso responsável com o modelo, consulte a Kit de ferramentas de IA generativa responsável.
- Transparência e responsabilidade
- Este card de modelo resume os detalhes da arquitetura capacidades, limitações e processos de avaliação.
- Um modelo aberto e desenvolvido de forma responsável oferece a oportunidade de compartilhar tornando a tecnologia do VLM acessível a desenvolvedores e pesquisadores em todo o ecossistema de IA.
Riscos identificados e mitigações:
- Perpetuação de vieses:é incentivado a realização de monitoramento contínuo. (usando métricas de avaliação, revisão humana) e a análise de desigualdade técnicas durante o treinamento de modelos, o ajuste fino e outros casos de uso.
- Geração de conteúdo nocivo:mecanismos e diretrizes para conteúdo. segurança são essenciais. Incentivamos os desenvolvedores a ter cautela a implementar salvaguardas previstas de segurança de conteúdo com base políticas de produtos e casos de uso de aplicativos.
- Uso indevido para fins maliciosos: limitações técnicas e o a educação do usuário final pode ajudar a mitigar aplicativos maliciosos de LLMs. Existem recursos educacionais e mecanismos de denúncia para os usuários sinalizarem uso indevido fornecido: consulte "Kit de ferramentas de IA generativa responsável". Usos proibidos do Gemma são descritos na política de uso proibido do Gemma.
- Violações de privacidade:os modelos foram treinados com dados filtrados para remoção. algumas informações pessoais e dados sensíveis. Recomendamos que os desenvolvedores aderir aos regulamentos de privacidade com técnicas que preservam a privacidade.
Limitações
- A maioria das limitações herdadas do modelo Gemma subjacente ainda se aplica:
- Os VLMs são melhores em tarefas que podem ser estruturadas com instruções claras e instruções. Tarefas abertas ou altamente complexas podem ser desafiadoras.
- A linguagem natural é inerentemente complexa. Os VLMs podem ter dificuldade para entender nuances sutis, sarcasmo ou linguagem figurada.
- Os VLMs geram respostas com base nas informações que aprenderam com os conjuntos de dados de treinamento, mas não são bases de conhecimento. Eles podem gerar declarações factuais incorretas ou desatualizadas.
- Os VLMs se baseiam em padrões estatísticos em linguagem e imagens. Eles poderiam não conseguem aplicar o raciocínio de bom senso em determinadas situações.
- O PaliGemma foi projetado, acima de tudo, para servir como um modelo modelo para ajustar tarefas especializadas. Por isso, ele vem pronto para uso ou "zero-shot" o desempenho pode ficar para trás dos modelos projetados especificamente para isso.
- O PaliGemma não é um chatbot com várias interações. Ele foi projetado para uma única rodada de entrada de imagem e texto.