Página do modelo:PaliGemma
Recursos e documentação técnica:
Termos de Uso: Termos
Autores:Google
Informações do modelo
Resumo do modelo
Descrição
O PaliGemma é um modelo de visão-linguagem (VLM, na sigla em inglês) versátil e leve inspirado no PaLI-3 e baseado em componentes abertos, como o modelo de visão SigLIP e o modelo de linguagem Gemma (links em inglês). Ela usa imagem e texto como entrada e gera texto como saída, oferecendo suporte a vários idiomas. Ele foi projetado para desempenho de ajuste fino líder da classe em uma ampla variedade de tarefas de linguagem visual, como imagem e legenda de vídeo curta, resposta a perguntas visuais, leitura de texto, detecção de objetos e segmentação de objetos.
Arquitetura do modelo
O PaliGemma é a composição de um decodificador de transformador e de um codificador de imagens do Vision Transformer, com um total de 3 bilhões de parâmetros. O decodificador de texto é inicializado em Gemma-2B. O codificador de imagem é inicializado em SigLIP-So400m/14. O PaliGemma é treinado seguindo as receitas do PaLI-3.
Entradas e saídas
- Entrada:imagem e string de texto, como um prompt para legendar a imagem ou uma pergunta.
- Saída: texto gerado em resposta à entrada, como uma legenda da imagem, uma resposta a uma pergunta, uma lista de coordenadas de caixa delimitadora de objetos ou palavras de código de segmentação.
Dados do modelo
Pré-treinar conjuntos de dados
O PaliGemma é pré-treinado com a seguinte combinação de conjuntos de dados:
- WebLI:WebLI (imagem de linguagem da Web) é um conjunto de dados de texto de imagens multilíngue na escala da Web criado a partir da Web pública. Várias divisões do WebLI são usadas para adquirir recursos de modelo versáteis, como compreensão semântica visual, localização de objetos, compreensão de texto visualmente situada, multilíngue etc.
- CC3M-35L:pares de image-alt_text selecionados em inglês de páginas da Web (Sharma et al., 2018). Usamos a Google Cloud Translation API para traduzir para 34 idiomas adicionais.
- VQ²A-CC3M-35L/VQG-CC3M-35L::um subconjunto de VQ2A-CC3M (Changpinyo et al., 2022a), traduzido para os mesmos 34 idiomas que o CC3M-35L, usando a API Google Cloud Translation.
- OpenImages:perguntas e respostas de detecção e reconhecimento de objetos (Piergiovanni et al., 2022) geradas por regras artesanais no conjunto de dados do OpenImages.
- WIT:imagens e textos coletados da Wikipédia (Srinivasan et al., 2021).
Filtragem da responsabilidade de dados
Os filtros a seguir são aplicados ao WebLI, com o objetivo de treinar o PaliGemma em dados limpos:
- Filtragem de imagens pornográficas:este filtro remove imagens consideradas pornográficas.
- Filtragem de segurança de texto:identificamos e filtramos imagens que aparecem com textos não seguros. É qualquer texto que tenha ou seja sobre CSAI, pornografia, vulgaridades ou de outra forma ofensivo.
- Filtragem de toxicidade de textos:usamos a API Perspective para identificar e filtrar imagens pareadas com texto considerado ofensivo, obsceno, de incitação ao ódio ou tóxico.
- Filtragem de informações pessoais de texto: filtramos determinadas informações pessoais e outros dados sensíveis usando a API Cloud Data Loss Prevention (DLP) para proteger a privacidade das pessoas. Identificadores como CPF ou CNPJ e outros tipos de informações sensíveis foram removidos.
- Métodos adicionais:filtragem com base na qualidade e segurança do conteúdo de acordo com nossas políticas e práticas.
Informações de implementação
Hardware
O PaliGemma foi treinado usando a geração mais recente de hardware da Unidade de Processamento de Tensor (TPUv5e).
Software
O treinamento foi feito usando JAX,
Flax,
TFDS e
big_vision
.
O JAX permite que os pesquisadores aproveitem a geração mais recente de hardware, incluindo TPUs, para um treinamento mais rápido e eficiente de modelos grandes.
O TFDS é usado para acessar conjuntos de dados e o Flax é usado para a arquitetura de modelos. O código de ajuste fino do PaliGemma e o código de inferência estão disponíveis no repositório big_vision
do GitHub.
Informações da avaliação
Resultados da comparação
Para verificar a transferência do PaliGemma para uma ampla variedade de tarefas acadêmicas, ajustamos os modelos pré-treinados em cada tarefa. Além disso, treinamos o modelo misto com uma mistura das tarefas de transferência. Informamos os resultados em diferentes resoluções para mostrar quais tarefas se beneficiam de uma resolução maior. É importante ressaltar que nenhuma dessas tarefas ou conjuntos de dados faz parte da mistura de dados de pré-treinamento, e as imagens deles são explicitamente removidas dos dados de pré-treinamento na escala da Web.
Tarefa única (ajustar em uma única tarefa)
Comparativo de mercado (divisão de treinamento) | Métrica (divisão) | pt-224 | pt-448 | pt-896 |
---|---|---|---|---|
Legendagem | ||||
Legendas do COCO (train+restval) | CIDEr (valor) | 141,92 | 144,60 | |
NoCaps (avaliação de transferência de legendas COCO) | CIDEr (valor) | 121,72 | 123,58 | |
COCO-35L (trem) | Desenvolvimento do CIDEr (en/avg-34/avg) |
|
|
|
XM3600 (avaliação da transferência de COCO-35L) | Desenvolvimento do CIDEr (en/avg-34/avg) |
|
|
|
TextCaps (trem) | CIDEr (valor) | 127,48 | 153,94 | |
SciCap (primeira frase, sem subfiguras) (train+val) | CIDEr/BLEU-4 (teste) |
|
|
|
Screen2words (treinamento + desenvolvimento) | CIDEr (teste) | 117,57 | 119,59 | |
Legenda do widget (trein+dev) | CIDEr (teste) | 136,07 | 148,36 | |
Respostas a perguntas | ||||
VQAv2 (trem + validação) | Precisão (servidor de teste - std) | 83,19 | 85,64 | |
MMVP (avaliação da transferência VQAv2) | Acurácia pareada | 47,33 | 45,33 | |
POPE (avaliação da transferência VQAv2) | Acurácia (aleatório/popular/adversário) |
|
|
|
OKVQA (trem) | Precisão (val) | 63,54 | 63,15 | |
A-OKVQA (MC) (train+val) | Precisão (servidor de teste) | 76,37 | 76,90 | |
A-OKVQA (DA) (train+val) | Precisão (servidor de teste) | 61,85 | 63,22 | |
GQA (train_balanced+val_balanced) | Acurácia (testdev equilibrado) | 65,61 | 67,03 | |
xGQA (avaliação de transferência de GQA) | Precisão média (bn, de, en, id, ko, pt, ru, zh) | 58,37 | 59,07 | |
NLVR2 (trein+dev) | Acurácia (teste) | 90,02 | 88,93 | |
MaRVL (avaliação de transferência do NLVR2) | Precisão média (teste) (id, sw, ta, tr, zh) | 80,57 | 76,78 | |
AI2D (treino) | Acurácia (teste) | 72,12 | 73,28 | |
ScienceQA (subconjunto de Img, sem CoT) (train+val) | Acurácia (teste) | 95,39 | 95,93 | |
RSVQA-LR (não numérico) (train+val) | Precisão média (teste) | 92,65 | 93,11 | |
RSVQA-HR (não numérico) (train+val) | Precisão média (teste/teste2) |
|
|
|
ChartQA (humano+ago)x(train+val) | Precisão média de relaxamento (humano de teste, agosto de teste) | 57,08 | 71,36 | |
VizWiz VQA (trem+val) | Precisão (servidor de teste - std) | 73,7 | 75,52 | |
TallyQA (trem) | Acurácia (teste_simples/complexo de teste) |
|
|
|
OCR-VQA (trem+val) | Acurácia (teste) | 72,32 | 74,61 | 74,93 |
TextVQA (trem+val) | Precisão (servidor de teste - std) | 55,47 | 73,15 | 76,48 |
DocVQA (trem+val) | ANLS (servidor de teste) | 43,74 | 78,02 | 84,77 |
VQA do infográfico (trem+val) | ANLS (servidor de teste) | 28,46 | 40,47 | 47,75 |
SceneText VQA (trein+val) | ANLS (servidor de teste) | 63,29 | 81,82 | 84,40 |
Segmentação | ||||
RefCOCO (combinado com refcoco, refcoco+ e refcocog excluindo imagens de teste e valor) | MIoU (validação) refcoco/refcoco+/refcocog |
|
|
|
Tarefas de vídeo (legenda/controle de qualidade) | ||||
MSR-VTT (Legendagem) | CIDEr (teste) | 70,54 | ||
MSR-VTT (controle de qualidade) | Acurácia (teste) | 50,09 | ||
ActivityNet (legendagem) | CIDEr (teste) | 34,62 | ||
ActivityNet (controle de qualidade) | Acurácia (teste) | 50,78 | ||
IVAEX (legendagem) | CIDEr (teste) | 79,73 | ||
MSVD (controle de qualidade) | Acurácia (teste) | 60,22 |
Modelo de combinação (ajuste na combinação de tarefas de transferência)
Benchmark | Métrica (divisão) | mix-224 | mix-448 |
---|---|---|---|
MMVP (em inglês) | Acurácia pareada | 46,00 | 45,33 |
POPE (link em alemão) | Acurácia (aleatório/popular/adversário) |
|
|
Ética e segurança
Abordagem de avaliação
Nossos métodos incluem avaliações estruturadas e testes internos em equipe vermelha de políticas de conteúdo relevantes. A equipe vermelha foi conduzida por várias equipes diferentes, cada uma com metas e métricas de avaliação humana distintas. Esses modelos foram avaliados em relação a várias categorias diferentes relevantes para ética e segurança, incluindo:
- Avaliação humana de comandos que abrangem a segurança infantil, segurança de conteúdo e danos representativos. Consulte o card de modelo Gemma para ver mais detalhes sobre a abordagem de avaliação, mas com legendagem de imagens e configurações de respostas visuais a perguntas.
- Avaliação de comparativos de mercado de imagem para texto: compare com conjuntos de dados acadêmicos relevantes, como o conjunto de dados FairFace (Karkkainen et al., 2021).
Resultados da avaliação
- Os resultados das avaliações de ética e segurança estão dentro de limites aceitáveis para atender a políticas internas de categorias como segurança infantil, segurança de conteúdo e danos representativos.
- Além de avaliações internas robustas, também usamos a API Perspective (limite de 0, 8) para medir toxicidade, linguagem obscena e outros possíveis problemas nas legendas geradas para imagens provenientes do conjunto de dados FairFace. Informamos os valores máximo e médio observados em subgrupos para cada um dos atributos percebidos de gênero, etnia e idade.
Métrica | Gênero percebido | Etnia | Faixa etária | |||
---|---|---|---|---|---|---|
Máxima | Mediana | Máxima | Mediana | Máxima | Mediana | |
Toxicidade | 0,04% | 0,03% | 0,08% | 0% | 0,09% | 0% |
Ataque de identidade | 0% | 0% | 0% | 0% | 0% | 0% |
Ofensivo | 0,06% | 0,04% | 0,09% | 0,07% | 0,16% | 0% |
Ameaça | 0,06% | 0,05% | 0,14% | 0,05% | 0,17% | 0% |
Linguagem obscena | 0% | 0% | 0% | 0% | 0% | 0% |
Uso e limitações
Uso pretendido
Os modelos de linguagem de visão aberta (VLMs, na sigla em inglês) têm uma ampla variedade de aplicativos em vários setores e domínios. A lista de possíveis usos a seguir não é abrangente. O objetivo desta lista é fornecer informações contextuais sobre os possíveis casos de uso que os criadores do modelo consideraram como parte do treinamento e do desenvolvimento do modelo.
Ajustar em tarefas específicas de linguagem visual:
- Os modelos pré-treinados podem ser ajustados em uma ampla gama de tarefas de visão e linguagem, como legendagem de imagens, legenda de vídeo curta, resposta a perguntas visuais, leitura de texto, detecção de objetos e segmentação de objetos.
- Os modelos pré-treinados podem ser ajustados para domínios específicos, como respostas a perguntas de detecção remota, perguntas visuais de pessoas cegas, respostas a perguntas científicas e descrições de funcionalidades de elementos da interface.
- Os modelos pré-treinados podem ser ajustados para tarefas com saídas não textuais, como caixas delimitadoras ou máscaras de segmentação.
Pesquisa de linguagem visual:
- Os modelos pré-treinados e ajustados podem servir de base para pesquisadores testarem técnicas de VLM, desenvolver algoritmos e contribuir para o avanço da área.
Considerações éticas e riscos
O desenvolvimento de modelos de linguagem visual (VLMs) gera várias questões éticas. Ao criar um modelo aberto, consideramos cuidadosamente o seguinte:
- Viés e imparcialidade
- VLMs treinados com dados de texto de imagem em grande escala do mundo real podem refletir vieses socioculturais incorporados no material de treinamento. Esses modelos passaram por uma análise cuidadosa, o pré-processamento de dados de entrada descrito e avaliações posteriores relatadas neste card.
- Desinformação e uso indevido
- Os VLMs podem ser usados indevidamente para gerar texto falso, enganoso ou prejudicial.
- As diretrizes são fornecidas para uso responsável com o modelo. Consulte o Kit de ferramentas de IA generativa responsável.
- Transparência e responsabilidade
- Este card de modelo resume os detalhes sobre a arquitetura, os recursos, as limitações e os processos de avaliação dos modelos.
- Um modelo aberto desenvolvido com responsabilidade oferece a oportunidade de compartilhar inovações, tornando a tecnologia VLM acessível a desenvolvedores e pesquisadores em todo o ecossistema de IA.
Riscos identificados e mitigações:
- Perpetuação de vieses:é recomendável realizar um monitoramento contínuo (usando métricas de avaliação, revisão humana) e a exploração de técnicas de neutralização durante o treinamento do modelo, o ajuste e outros casos de uso.
- Geração de conteúdo nocivo:mecanismos e diretrizes para a segurança do conteúdo são essenciais. Recomendamos que os desenvolvedores tenham cuidado e implementem as salvaguardas adequadas de segurança do conteúdo com base nas políticas e nos casos de uso do aplicativo específicas deles.
- Uso indevido para fins maliciosos: limitações técnicas e instruções para desenvolvedores e usuários finais podem ajudar a mitigar o uso de LLMs maliciosos. São fornecidos recursos educacionais e mecanismos de geração de relatórios para que os usuários sinalizem uso indevido: consulte o kit de ferramentas de IA generativa responsável. Usos proibidos de modelos Gemma estão descritos na Política de Uso Proibido.
- Violações de privacidade:os modelos foram treinados em dados filtrados para remover determinadas informações pessoais e dados sensíveis. Os desenvolvedores são incentivados a seguir os regulamentos de privacidade com técnicas que preservam a privacidade.
Limitações
- A maioria das limitações herdadas do modelo Gemma subjacente ainda se aplica:
- Os VLMs são melhores em tarefas que podem ser enquadradas com instruções e instruções claras. Tarefas abertas ou altamente complexas podem ser desafiadoras.
- A linguagem natural é inerentemente complexa. Os VLMs podem ter dificuldade para entender nuances sutis, sarcasmo ou linguagem figurativa.
- Os VLMs geram respostas com base nas informações que aprenderam com os conjuntos de dados de treinamento, mas não são bases de conhecimento. Podem gerar declarações factuais incorretas ou desatualizadas.
- Os VLMs dependem de padrões estatísticos de linguagem e imagens. Eles podem não conseguir aplicar o raciocínio com bom senso em determinadas situações.
- O PaliGemma foi projetado principalmente para servir como um modelo pré-treinado geral para ajustar tarefas especializadas. Portanto, o desempenho "prontos para uso" ou "zero-shot" pode ter um defasagem em relação aos modelos projetados especificamente para isso.
- O PaliGemma não é um chatbot com várias interações. Ele é projetado para uma única rodada de entrada de imagem e texto.