Página do modelo:PaliGemma
Recursos e documentação técnica:
Termos de Uso:Termos
Autores:Google
Informações do modelo
Resumo do modelo
O PaliGemma 2 é uma atualização do modelo de linguagem/visão (VLM) PaliGemma, que incorpora os recursos dos modelos Gemma 2. A família de modelos PaliGemma é inspirada no PaLI-3 e baseada em componentes abertos, como o modelo de visão SigLIP e os modelos de linguagem Gemma 2. Ele usa imagens e texto como entrada e gera texto como saída, com suporte a vários idiomas. Ele foi projetado para ajustar o desempenho em uma ampla gama de tarefas de visão e linguagem, como legendas de imagens e vídeos curtos, respostas a perguntas visuais, leitura de texto, detecção e segmentação de objetos.
Arquitetura do modelo
O PaliGemma 2 é a composição de um decodificador de transformador e um codificador de imagem do Vision Transformer. O decodificador de texto é inicializado pelo Gemma 2 nos tamanhos de parâmetro 2B, 9B e 27B. O codificador de imagem é inicializado em SigLIP-So400m/14. Assim como o modelo PaliGemma original, o PaliGemma 2 é treinado seguindo as receitas do PaLI-3.
Entradas e saídas
- Entrada:string de imagem e texto, como um comando para legendar a imagem ou uma pergunta.
- Saída:texto gerado em resposta à entrada, como uma legenda da imagem, uma resposta a uma pergunta, uma lista de coordenadas da caixa delimitadora do objeto ou palavras-código de segmentação.
Citação
@article{
title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
year={2024},
journal={arXiv preprint arXiv:2412.03555}
}
Dados do modelo
Conjuntos de dados de pré-treinamento
O PaliGemma 2 é pré-treinado com a seguinte mistura de conjuntos de dados:
- WebLI:WebLI (imagem de linguagem da Web) é um conjunto de dados de texto e imagem multilíngue em escala da Web criado a partir da Web pública. Uma ampla gama de divisões de WebLI é usada para adquirir recursos versáteis do modelo, como compreensão semântica visual, localização de objetos, compreensão de texto situada visualmente e multilinguismo.
- CC3M-35L:pares de imagem-alt_text em inglês selecionados de páginas da Web (Sharma et al., 2018). Usamos a API Google Cloud Translation para traduzir em mais 34 idiomas.
- VQ²A-CC3M-35L/VQG-CC3M-35L::um subconjunto de VQ2A-CC3M (Changpinyo et al., 2022a), traduzido para os mesmos 34 idiomas adicionais do CC3M-35L, usando a API Translation do Google Cloud.
- OpenImages:perguntas e respostas de detecção e detecção de objetos (Piergiovanni et al. 2022) geradas por regras manuais no conjunto de dados OpenImages.
- WIT:imagens e textos coletados do Wikipedia (Srinivasan et al., 2021).
O PaliGemma 2 é baseado no Gemma 2, e você pode encontrar informações sobre os conjuntos de dados de pré-treinamento do Gemma 2 no card de modelo do Gemma 2.
Filtragem de responsabilidade de dados
Os filtros a seguir são aplicados à WebLI, com o objetivo de treinar o PaliGemma 2 com dados seguros e responsáveis:
- Filtragem de imagens pornográficas:esse filtro remove imagens consideradas de natureza pornográfica.
- Filtragem de segurança de texto:identificamos e filtramos imagens que são associadas a texto não seguro. Texto inseguro é qualquer texto considerado como contendo ou sendo sobre imagens de abuso sexual infantil (CSAI), pornografia, vulgaridades ou qualquer outra coisa ofensiva.
- Filtragem de toxicidade de texto:usamos a API Perspective para identificar e filtrar imagens que são associadas a textos considerados ofensivos, obscenos, odiosos ou tóxicos.
- Filtragem de informações pessoais em texto:filtramos determinadas informações pessoais e outros dados sensíveis usando a API Cloud Data Loss Prevention (DLP) para proteger a privacidade das pessoas. Identificadores como CPF ou CNPJ e outros tipos de informações sensíveis foram removidos.
- Outros métodos:filtragem com base na qualidade e segurança do conteúdo, de acordo com nossas políticas e práticas.
Informações de implementação
Hardware
O PaliGemma 2 foi treinado usando a geração mais recente de hardware de Unidade de Processamento de Tensor (TPU, na sigla em inglês) (TPUv5e).
Software
O treinamento foi concluído usando JAX,
Flax,
TFDS e
big_vision
.
O JAX permite que os pesquisadores aproveitem a geração mais recente de hardware, incluindo TPUs, para um treinamento mais rápido e eficiente de modelos grandes.
O TFDS é usado para acessar conjuntos de dados, e o Flax é usado para arquitetura de modelos. O
código de ajuste fino e de inferência do PaliGemma 2 foi lançado no repositório do GitHub
big_vision
.
Informações da avaliação
Resultados da comparação
Para verificar a transferibilidade do PaliGemma 2 para uma ampla variedade de tarefas acadêmicas, ajustamos os modelos pré-treinados em cada tarefa. Informamos os resultados em diferentes resoluções para dar uma ideia de quais tarefas se beneficiam do aumento da resolução. É importante ressaltar que nenhuma dessas tarefas ou conjuntos de dados faz parte da mistura de dados de pré-treinamento, e as imagens são removidas explicitamente dos dados de pré-treinamento em escala da Web.
Resultados do PaliGemma 2 por resolução e tamanho do modelo
Benchmark | 224-3B | 224-10B | 224-28B | 448-3B | 448-10B | 448-28B |
---|---|---|---|---|---|---|
AI2D | 74,7 | 83,1 | 83,2 | 76,0 | 84,4 | 84,6 |
AOKVQA-DA (val) | 64.2 | 68,9 | 70,2 | 67,9 | 70,8 | 71,2 |
AOKVQA-MC (val) | 79,7 | 83,7 | 84,7 | 82,5 | 85,9 | 87,0 |
ActivityNet-CAP | 34,2 | 35,9 | - | - | - | - |
ActivityNet-QA | 51.3 | 53.2 | - | - | - | - |
COCO-35L (avg34) | 113,9 | 115,8 | 116,5 | 115,8 | 117,2 | 117,2 |
COCO-35L (pt) | 138,4 | 140,8 | 142,4 | 140,4 | 142,4 | 142.3 |
COCOcap | 141.3 | 143,7 | 144,0 | 143,4 | 145,0 | 145,2 |
ChartQA (média) | 74,4 | 74,2 | 68,9 | 89,2 | 90.1 | 85,1 |
ChartQA (humano) | 42,0 | 48,4 | 46,8 | 54,0 | 66.4 | 61.3 |
CountBenchQA | 81,0 | 84,0 | 86,4 | 82,0 | 85,3 | 87,4 |
DocVQA (val) | 39,9 | 43,9 | 44,9 | 73,6 | 76,6 | 76,1 |
GQA | 66.2 | 67.2 | 67,3 | 68.1 | 68,3 | 68,3 |
InfoVQA (val) | 25,2 | 33,6 | 36,4 | 37,5 | 47,8 | 46,7 |
MARVL (avg5) | 83,5 | 89,5 | 90,6 | 82,7 | 89,1 | 89.7 |
MSRVTT-CAP | 68,5 | 72.1 | - | - | - | - |
MSRVTT-QA | 50,5 | 51,9 | - | - | - | - |
MSVD-QA | 61.1 | 62,5 | - | - | - | - |
NLVR2 | 91,4 | 93,9 | 94,2 | 91,6 | 93,7 | 94,1 |
NoCaps | 123.1 | 126,3 | 127.1 | 123,5 | 126,9 | 127,0 |
OCR-VQA | 73,4 | 74,7 | 75,3 | 75,7 | 76,3 | 76,6 |
OKVQA | 64.2 | 68,0 | 71,2 | 64.1 | 68,6 | 70,6 |
RSVQA-hr (teste) | 92,7 | 92,6 | 92,7 | 92,8 | 92,8 | 92,8 |
RSVQA-hr (test2) | 90,9 | 90,8 | 90,9 | 90,7 | 90,7 | 90,8 |
RSVQA-lr | 93,0 | 92,8 | 93,5 | 92,7 | 93,1 | 93,7 |
RefCOCO (testA) | 75,7 | 77.2 | 76,8 | 78,6 | 79,7 | 79,3 |
RefCOCO (testeB) | 71,0 | 74,2 | 73,9 | 73,5 | 76,2 | 74,8 |
RefCOCO (val) | 73,4 | 75,9 | 75,0 | 76,3 | 78,2 | 77.3 |
RefCOCO+ (testeA) | 72,7 | 74,7 | 73,6 | 76,1 | 77,7 | 76,6 |
RefCOCO+ (testeB) | 64.2 | 68.4 | 67.1 | 67,0 | 71.1 | 68,6 |
RefCOCO+ (val) | 68,6 | 72,0 | 70,3 | 72.1 | 74,4 | 72,8 |
RefCOCOg (teste) | 69,0 | 71,9 | 70,7 | 72,7 | 74,8 | 73,7 |
RefCOCOg (val) | 68,3 | 71,4 | 70,5 | 72,3 | 74,4 | 73,0 |
ST-VQA (val) | 61,9 | 64,3 | 65.1 | 80,5 | 82,0 | 81,8 |
SciCap | 165,1 | 159,5 | 156,9 | 183.3 | 177.2 | 172,7 |
ScienceQA | 96,1 | 98,2 | 98,2 | 96,2 | 98,5 | 98,6 |
Screen2Words | 113.3 | 117,8 | 122,8 | 114,0 | 119.1 | 123,4 |
TallyQA (complexo) | 70,3 | 73,4 | 74,2 | 73,6 | 76,7 | 76,8 |
TallyQA (simples) | 81,8 | 83,2 | 83,4 | 85,3 | 86,2 | 85,7 |
TextCaps | 127,5 | 137,9 | 139,9 | 152.1 | 157,7 | 153,6 |
TextVQA (val) | 59,6 | 64,0 | 64,7 | 75,2 | 76,6 | 76,2 |
VATEX | 80,8 | 82,7 | - | - | - | - |
VQAv2 (minival) | 83 | 84,3 | 84,5 | 84,8 | 85,8 | 85,8 |
VizWizVQA (val) | 76,4 | 78,1 | 78,7 | 77,5 | 78,6 | 78,9 |
WidgetCap | 138.1 | 139,8 | 138,8 | 151,4 | 151,9 | 148,9 |
XM3600 (avg35) | 42,8 | 44,5 | 45.2 | 43.2 | 44,6 | 45.2 |
XM3600 (en) | 79,8 | 80,7 | 81,0 | 80,3 | 81,5 | 81,0 |
xGQA (avg7) | 58,6 | 61.4 | 61.1 | 60,4 | 62,6 | 62.1 |
Outros comparativos de mercado
Modelo | Precisão | Recall | F1 |
---|---|---|---|
PaliGemma 2 3B | 81,88 | 70,73 | 75,9 |
Modelo | Precisão | Recall | F1 |
---|---|---|---|
PaliGemma 2 3B | 73,8. | 74,54 | 74,17 |
Modelo | S-TEDS | TEDS | GriTS-Top | GriTS-Con |
---|---|---|---|---|
PaliGemma 2 3B | 99,18 | 98,94 | 99,43 | 99,21 |
Modelo | S-TEDS | TEDS | GriTS-Top | GriTS-Con |
---|---|---|---|---|
PaliGemma 2 3B | 97,6 | 97,31 | 97,99 | 97,84 |
Modelo | CER | LER | SER |
---|---|---|---|
PaliGemma 2 3B | 1.6 | 6,7 | 2.3 |
- PaliGemma 2 3B, correspondência total: 94,8
Modelo | avg#char | avg#sent | NES % |
---|---|---|---|
PaliGemma 2 3B | 529 | 7,74 | 28,42 |
PaliGemma 2 10B | 521 | 7,45 | 20,27 |
- avg#char: número médio de caracteres
- avg#sent: número médio de frases
- NES: frases sem implicação
Modelo | CIDEr | BLEU4 | Rouge-L | RadGraph F1 |
---|---|---|---|---|
PaliGemma 2 3B | 19,9% | 14,6% | 31,92% | 28,8% |
PaliGemma 2 10B | 17,4% | 15% | 32,41% | 29,5% |
Modelo | Divisão de VSR sem imagem (teste) | Divisão aleatória do VSR (teste) |
---|---|---|
PaliGemma 2 3B | 0,75 | 0,82 |
PaliGemma 2 10B | 0,80 | 0.87 |
Ética e segurança
Abordagem de avaliação
Nossos métodos de avaliação incluem avaliações estruturadas de ética e segurança em todas as políticas de conteúdo relevantes, incluindo:
- Avaliação humana de instruções sobre segurança infantil, segurança de conteúdo e danos de representação. Consulte o card de modelo do Gemma para mais detalhes sobre a abordagem de avaliação, mas com configurações de legendas de imagem e resposta visual a perguntas.
- Avaliação de comparativo de mercado de imagem para texto: comparativo de mercado com conjuntos de dados acadêmicos relevantes, como o FairFace Dataset (Karkkainen et al., 2021).
Resultados da avaliação
- Os resultados da avaliação humana de ética e segurança estão dentro dos limites aceitáveis para atender às políticas internas em categorias como segurança infantil, segurança de conteúdo e danos de representação.
- Além de avaliações internas robustas, também usamos a API Perspective (limite de 0, 8) para medir toxicidade, linguagem obscena e outros possíveis problemas nas legendas geradas para imagens do conjunto de dados do FairFace. Informamos os valores máximos e medianos observados nos subgrupos para cada um dos atributos de gênero, etnia e idade percebidos.
Métrica | Gênero percebido | Etnia | Faixa etária | ||||||
---|---|---|---|---|---|---|---|---|---|
Tamanho do modelo | 3 bi | 10B | 28B | 3 bi | 10B | 28B | 3 bi | 10B | 28B |
Máximo | |||||||||
Toxicidade | 0,14% | 0,15% | 0,19% | 0,29% | 0,39% | 0,39% | 0,26% | 0,18% | 0,32% |
Ataque de identidade | 0,04% | 0,02% | 0,02% | 0,13% | 0,06% | 0,06% | 0,06% | 0,03% | 0,06% |
Insultos | 0,17% | 0,25% | 0,17% | 0,37% | 0,52% | 0,52% | 0,27% | 0,39% | 0,24% |
Ameaça | 0,55% | 0,43% | 0,57% | 0,83% | 0,48% | 0,48% | 0,64% | 0,43% | 0,64% |
Linguagem obscena | 0% | 0% | 0% | 0% | 0% | 0% | 0% | 0% | 0% |
Mediana | |||||||||
Toxicidade | 0,13% | 0,10% | 0,18% | 0,07% | 0,07% | 0,14% | 0,12% | 0,08% | 0,12% |
Ataque de identidade | 0,02% | 0.01% | 0,02% | 0% | 0% | 0% | 0% | 0% | 0% |
Insultos | 0,15% | 0,23% | 0,14% | 0,14% | 0,17% | 0,13% | 0,09% | 0,18% | 0,16% |
Ameaça | 0,35% | 0,27% | 0,41% | 0,28% | 0,19% | 0,42% | 0,27% | 0,31% | 0,40 % |
Linguagem obscena | 0% | 0% | 0% | 0% | 0% | 0% | 0% | 0% | 0% |
Uso e limitações
Uso pretendido
Os modelos de linguagem visual abertos (VLMs) têm uma ampla gama de aplicações em vários setores e domínios. A lista de usos possíveis a seguir não é completa. O objetivo desta lista é fornecer informações contextuais sobre os possíveis casos de uso que os criadores de modelos consideraram como parte do treinamento e desenvolvimento do modelo. Os usos proibidos dos modelos Gemma estão descritos na Política de uso proibido do Gemma.
Ajustar a tarefa de linguagem de visão específica:
- Os modelos pré-treinados podem ser ajustados em uma ampla gama de tarefas de visão e linguagem, como: legendagem de imagens, legendas de vídeos curtos, resposta a perguntas visuais, leitura de texto, detecção e segmentação de objetos.
- Os modelos pré-treinados podem ser ajustados para domínios específicos, como resposta a perguntas de sensores remotos, perguntas visuais de pessoas com deficiência visual, resposta a perguntas de ciências e descrição de funcionalidades de elementos da interface.
- Os modelos pré-treinados podem ser ajustados para tarefas com saídas não textuais, como caixas delimitadoras ou máscaras de segmentação.
Pesquisa de linguagem visual:
- Os modelos pré-treinados e ajustados podem servir de base para que os pesquisadores testem técnicas de VLM, desenvolvam algoritmos e contribuam para o avanço da área.
Considerações éticas e riscos
O desenvolvimento de modelos de visão-linguagem (VLMs, na sigla em inglês) levanta várias questões éticas. Ao criar um modelo aberto, consideramos cuidadosamente o seguinte:
- Viés e imparcialidade
- Os VLMs treinados com dados de texto e imagem reais em grande escala podem refletir vieses socioculturais incorporados no material de treinamento. Esses modelos foram cuidadosamente examinados, o pré-processamento de dados de entrada foi descrito e as avaliações posteriores foram informadas neste card.
- Desinformação e uso indevido
- Os VLMs podem ser usados indevidamente para gerar textos falsos, enganosos ou prejudiciais.
- As diretrizes são fornecidas para uso responsável com o modelo. Consulte o Toolkit para IA generativa responsável.
- Transparência e responsabilidade
- Este card de modelo resume detalhes sobre a arquitetura, os recursos, as limitações e os processos de avaliação dos modelos.
- Um modelo aberto desenvolvido de forma responsável oferece a oportunidade de compartilhar inovação, tornando a tecnologia VLM acessível a desenvolvedores e pesquisadores em todo o ecossistema de IA.
Riscos identificados e mitigações:
- Perpetuação de vieses:é recomendável realizar um monitoramento contínuo (usando métricas de avaliação, revisão humana) e a exploração de técnicas de eliminação de viés durante o treinamento do modelo, ajuste fino e outros casos de uso.
- Geração de conteúdo nocivo:mecanismos e diretrizes para a segurança do conteúdo são essenciais. Recomendamos que os desenvolvedores tenham cuidado e implementem as salvaguardas de segurança de conteúdo adequadas com base nas políticas específicas do produto e nos casos de uso do aplicativo.
- Uso indevido para fins maliciosos:limitações técnicas e treinamentos para desenvolvedores e usuários finais podem ajudar a mitigar aplicativos maliciosos de LLMs. Recursos educacionais e mecanismos de denúncia para que os usuários denunciem o uso indevido são fornecidos: consulte o Toolkit para IA generativa responsável. Os usos proibidos dos modelos Gemma estão descritos na Política de uso proibido do Gemma.
- Violações de privacidade:os modelos foram treinados com dados filtrados para remover certas informações pessoais e dados sensíveis. Os desenvolvedores são incentivados a aderir às regulamentações de privacidade com técnicas que preservam a privacidade.
Limitações
- A maioria das limitações herdadas dos modelos subjacentes do Gemma 2 ainda se aplica:
- Os VLMs são melhores em tarefas que podem ser enquadradas com instruções e comandos claros. Tarefas abertas ou muito complexas podem ser desafiadoras.
- A linguagem natural é inerentemente complexa. Os VLMs podem ter dificuldade para entender nuances sutis, sarcasmo ou linguagem figurada.
- Os VLMs geram respostas com base nas informações que aprenderam com os conjuntos de dados de treinamento, mas não são bases de conhecimento. Eles podem gerar declarações factuais incorretas ou desatualizadas.
- Os VLMs dependem de padrões estatísticos na linguagem e nas imagens. Eles podem não ter a capacidade de aplicar o raciocínio de bom senso em determinadas situações.
- O PaliGemma 2 foi projetado principalmente para servir como um modelo pré-treinado geral para ajuste fino de tarefas especializadas. Portanto, a performance "fora da caixa" ou "zero-shot" pode ficar para trás em relação aos modelos projetados especificamente para uso geral.
- O PaliGemma 2 não é um chatbot de vários turnos. Ele foi projetado para uma única rodada de entrada de imagem e texto.