Confira o repositório do Gemma Cookbook para ver exemplos de geração e ajuste. Saiba mais

Esta página foi traduzida pela API Cloud Translation.

Card de modelo do PaliGemma 2

Página do modelo:PaliGemma

Recursos e documentação técnica:

Termos de Uso:Termos

Autores:Google

Informações do modelo

Resumo do modelo

O PaliGemma 2 é uma atualização do modelo de linguagem de visão (VLM) PaliGemma, que incorpora os recursos dos modelos Gemma 2. A família de modelos PaliGemma é inspirada no PaLI-3 e baseada em componentes abertos, como o modelo de visão SigLIP e os modelos de linguagem Gemma 2. Ele usa imagens e texto como entrada e gera texto como saída, com suporte a vários idiomas. Ele foi projetado para ajustar o desempenho em uma ampla gama de tarefas de visão e linguagem, como legendas de imagens e vídeos curtos, respostas a perguntas visuais, leitura de texto, detecção e segmentação de objetos.

Arquitetura do modelo

O PaliGemma 2 é a composição de um decodificador de transformador e um codificador de imagem do Vision Transformer. O decodificador de texto é inicializado pelo Gemma 2 nos tamanhos de parâmetro 2B, 9B e 27B. O codificador de imagem é inicializado em SigLIP-So400m/14. Assim como o modelo PaliGemma original, o PaliGemma 2 é treinado seguindo as receitas do PaLI-3.

Entradas e saídas

Entrada:string de imagem e texto, como um comando para legendar a imagem ou uma pergunta.
Saída:texto gerado em resposta à entrada, como uma legenda da imagem, uma resposta a uma pergunta, uma lista de coordenadas da caixa delimitadora do objeto ou palavras-código de segmentação.

Citação

@article{
    title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
    author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
    year={2024},
    journal={arXiv preprint arXiv:2412.03555}
}

Dados do modelo

Conjuntos de dados de pré-treinamento

O PaliGemma 2 é pré-treinado com a seguinte mistura de conjuntos de dados:

WebLI:WebLI (imagem de linguagem da Web) é um conjunto de dados de texto e imagem multilíngue em escala da Web criado a partir da Web pública. Uma ampla gama de divisões de WebLI é usada para adquirir recursos de modelo versáteis, como compreensão semântica visual, localização de objetos, compreensão de texto visualmente situado e multilinguismo.
CC3M-35L:pares de imagem-alt_text em inglês selecionados de páginas da Web (Sharma et al., 2018). Usamos a API Google Cloud Translation para traduzir em mais 34 idiomas.
VQ²A-CC3M-35L/VQG-CC3M-35L::um subconjunto de VQ2A-CC3M (Changpinyo et al., 2022a), traduzido para os mesmos 34 idiomas adicionais do CC3M-35L, usando a API Google Cloud Translation.
OpenImages:perguntas e respostas de detecção e detecção de objetos (Piergiovanni et al. 2022) geradas por regras manuais no conjunto de dados OpenImages.
WIT:imagens e textos coletados do Wikipedia (Srinivasan et al., 2021).

O PaliGemma 2 é baseado no Gemma 2, e você pode encontrar informações sobre os conjuntos de dados de pré-treinamento do Gemma 2 no card de modelo do Gemma 2.

Filtragem de responsabilidade de dados

Os filtros a seguir são aplicados à WebLI, com o objetivo de treinar o PaliGemma 2 com dados seguros e responsáveis:

Filtragem de imagens pornográficas:esse filtro remove imagens consideradas de natureza pornográfica.
Filtragem de segurança de texto:identificamos e filtramos imagens que são associadas a texto não seguro. Texto não seguro é qualquer texto considerado como contendo ou sendo sobre imagens de abuso sexual infantil (CSAI, na sigla em inglês), pornografia, vulgaridades ou ofensivo.
Filtragem de toxicidade de texto:usamos a API Perspective para identificar e filtrar imagens que são associadas a textos considerados ofensivos, obscenos, odiosos ou tóxicos.
Filtragem de informações pessoais em texto:filtramos determinadas informações pessoais e outros dados sensíveis usando a API Cloud Data Loss Prevention (DLP) para proteger a privacidade das pessoas. Identificadores como CPF ou CNPJ e outros tipos de informações sensíveis foram removidos.
Outros métodos:filtragem com base na qualidade e segurança do conteúdo, de acordo com nossas políticas e práticas.

Informações de implementação

Hardware

O PaliGemma 2 foi treinado usando a geração mais recente de hardware de Unidade de Processamento de Tensor (TPU, na sigla em inglês) (TPUv5e).

Software

O treinamento foi concluído usando JAX, Flax, TFDS e big_vision.

O JAX permite que os pesquisadores aproveitem a geração mais recente de hardware, incluindo TPUs, para um treinamento mais rápido e eficiente de modelos grandes.

O TFDS é usado para acessar conjuntos de dados, e o Flax é usado para arquitetura de modelos. O código de ajuste fino e de inferência do PaliGemma 2 foi lançado no repositório do GitHub big_vision.

Informações da avaliação

Resultados da comparação

Para verificar a transferibilidade do PaliGemma 2 para uma ampla variedade de tarefas acadêmicas, ajustamos os modelos pré-treinados em cada tarefa. Além disso, treinamos o modelo de mix com uma mistura das tarefas de transferência. Informamos os resultados em diferentes resoluções para dar uma ideia de quais tarefas se beneficiam de uma resolução maior. É importante ressaltar que nenhuma dessas tarefas ou conjuntos de dados faz parte da mistura de dados de pré-treinamento, e as imagens são removidas explicitamente dos dados de pré-treinamento em escala da Web.

Resultados do PaliGemma 2 por resolução e tamanho do modelo

Benchmark	224-3B	224-10B	224-28B	448-3B	448-10B	448-28B
AI2D	74,7	83,1	83,2	76,0	84,4	84,6
AOKVQA-DA (val)	64.2	68,9	70,2	67,9	70,8	71,2
AOKVQA-MC (val)	79,7	83,7	84,7	82,5	85,9	87,0
ActivityNet-CAP	34.2	35,9	-	-	-	-
ActivityNet-QA	51.3	53.2	-	-	-	-
COCO-35L (avg34)	113,9	115,8	116,5	115,8	117,2	117,2
COCO-35L (pt)	138,4	140,8	142,4	140,4	142,4	142.3
COCOcap	141.3	143,7	144,0	143,4	145,0	145,2
ChartQA (média)	74,4	74,2	68,9	89,2	90.1	85,1
ChartQA (humano)	42,0	48,4	46,8	54,0	66.4	61,3
CountBenchQA	81,0	84,0	86,4	82,0	85,3	87,4
DocVQA (val)	39,9	43,9	44,9	73,6	76,6	76,1
Perguntas frequentes	66.2	67.2	67,3	68.1	68,3	68,3
InfoVQA (val)	25,2	33,6	36,4	37,5	47,8	46,7
MARVL (avg5)	83,5	89,5	90,6	82,7	89,1	89.7
MSRVTT-CAP	68,5	72.1	-	-	-	-
MSRVTT-QA	50,5	51,9	-	-	-	-
MSVD-QA	61.1	62,5	-	-	-	-
NLVR2	91,4	93,9	94,2	91,6	93,7	94,1
NoCaps	123.1	126,3	127,1	123,5	126,9	127.0
OCR-VQA	73,4	74,7	75,3	75,7	76,3	76,6
OKVQA	64.2	68,0	71,2	64.1	68,6	70,6
RSVQA-hr (teste)	92,7	92,6	92,7	92,8	92,8	92,8
RSVQA-hr (test2)	90,9	90,8	90,9	90,7	90,7	90,8
RSVQA-lr	93,0	92,8	93,5	92,7	93,1	93,7
RefCOCO (testA)	75,7	77.2	76,8	78,6	79,7	79,3
RefCOCO (testeB)	71,0	74,2	73,9	73,5	76,2	74,8
RefCOCO (val)	73,4	75,9	75,0	76,3	78,2	77.3
RefCOCO+ (testeA)	72,7	74,7	73,6	76,1	77,7	76,6
RefCOCO+ (testeB)	64.2	68,4	67.1	67,0	71.1	68,6
RefCOCO+ (val)	68,6	72,0	70,3	72.1	74,4	72,8
RefCOCOg (teste)	69,0	71,9	70,7	72,7	74,8	73,7
RefCOCOg (val)	68.3	71,4	70,5	72,3	74,4	73,0
ST-VQA (val)	61,9	64,3	65.1	80,5	82,0	81,8
SciCap	165,1	159,5	156,9	183.3	177,2	172,7
ScienceQA	96,1	98,2	98,2	96,2	98,5	98,6
Screen2Words	113.3	117,8	122,8	114,0	119.1	123,4
TallyQA (complexo)	70,3	73,4	74,2	73,6	76,7	76,8
TallyQA (simples)	81,8	83,2	83,4	85,3	86,2	85,7
TextCaps	127,5	137,9	139,9	152.1	157,7	153,6
TextVQA (val)	59,6	64,0	64,7	75,2	76,6	76,2
VATEX	80,8	82,7	-	-	-	-
VQAv2 (minival)	83	84,3	84,5	84,8	85,8	85,8
VizWizVQA (val)	76,4	78,1	78,7	77,5	78,6	78,9
WidgetCap	138.1	139,8	138,8	151,4	151,9	148,9
XM3600 (avg35)	42,8	44,5	45.2	43.2	44,6	45.2
XM3600 (en)	79,8	80,7	81,0	80,3	81,5	81,0
xGQA (avg7)	58,6	61,4	61.1	60,4	62,6	62.1

Outros comparativos de mercado

ICDAR 2015 Incidental

Modelo	Precisão	Recall	F1
PaliGemma 2 3B	81,88	70,73	75,9

Total-Text

Modelo	Precisão	Recall	F1
PaliGemma 2 3B	73,8.	74,54	74,17

FinTabNet

Modelo	S-TEDS	TEDS	GriTS-Top	GriTS-Con
PaliGemma 2 3B	99,18	98,94	99,43	99,21

PubTabNet

Modelo	S-TEDS	TEDS	GriTS-Top	GriTS-Con
PaliGemma 2 3B	97,6	97,31	97,99	97,84

GrandStaff

Modelo	CER	LER	SER
PaliGemma 2 3B	1.6	6,7	2.3

PubChem

PaliGemma 2 3B, correspondência total: 94,8

DOCCI

Modelo	avg#char	avg#sent	NES %
PaliGemma 2 3B	529	7,74	28,42
PaliGemma 2 10B	521	7,45	20,27

avg#char: número médio de caracteres
avg#sent: número médio de frases
NES: frases sem implicação

MIMIC-CXR

Modelo	CIDEr	BLEU4	Rouge-L	RadGraph F1
PaliGemma 2 3B	19,9%	14,6%	31,92%	28,8%
PaliGemma 2 10B	17,4%	15%	32,41%	29,5%

Raciocínio espacial visual

Modelo	Divisão de zeroshot do VSR (teste)	Divisão aleatória do VSR (teste)
PaliGemma 2 3B	0,75	0,82
PaliGemma 2 10B	0,80	0.87

Ética e segurança

Abordagem de avaliação

Nossos métodos de avaliação incluem avaliações estruturadas de ética e segurança em todas as políticas de conteúdo relevantes, incluindo:

Avaliação humana de instruções sobre segurança infantil, segurança de conteúdo e danos de representação. Consulte o card de modelo do Gemma para mais detalhes sobre a abordagem de avaliação, mas com configurações de legendas de imagem e respostas a perguntas visuais.
Avaliação de comparativo de mercado de imagem para texto: comparativo de mercado com conjuntos de dados acadêmicos relevantes, como o FairFace Dataset (Karkkainen et al., 2021).

Resultados da avaliação

Os resultados da avaliação humana de ética e segurança estão dentro dos limites aceitáveis para atender às políticas internas em categorias como segurança infantil, segurança de conteúdo e danos de representação.
Além de avaliações internas robustas, também usamos a API Perspective (limite de 0, 8) para medir toxicidade, linguagem obscena e outros possíveis problemas nas legendas geradas para imagens do conjunto de dados do FairFace. Informamos os valores máximos e medianos observados nos subgrupos para cada um dos atributos de gênero, etnia e idade percebidos.

Métrica	Gênero percebido			Etnia			Faixa etária
Tamanho do modelo	3 bilhões	10B	28B	3 bilhões	10B	28B	3 bilhões	10B	28B
	Máximo
Toxicidade	0,14%	0,15%	0,19%	0,29%	0,39%	0,39%	0,26%	0,18%	0,32%
Ataque de identidade	0,04%	0,02%	0,02%	0,13%	0,06%	0,06%	0,06%	0,03%	0,06%
Insultos	0,17%	0,25%	0,17%	0,37%	0,52%	0,52%	0,27%	0,39%	0,24%
Ameaça	0,55%	0,43%	0,57%	0,83%	0,48%	0,48%	0,64%	0,43%	0,64%
Linguagem obscena	0%	0%	0%	0%	0%	0%	0%	0%	0%
	Mediana
Toxicidade	0,13%	0,10%	0,18%	0,07%	0,07%	0,14%	0,12%	0,08%	0,12%
Ataque de identidade	0,02%	0.01%	0,02%	0%	0%	0%	0%	0%	0%
Insultos	0,15%	0,23%	0,14%	0,14%	0,17%	0,13%	0,09%	0,18%	0,16%
Ameaça	0,35%	0,27%	0,41%	0,28%	0,19%	0,42%	0,27%	0,31%	0,40 %
Linguagem obscena	0%	0%	0%	0%	0%	0%	0%	0%	0%

Uso e limitações

Uso pretendido

Os modelos de linguagem de visão aberta (VLMs) têm uma ampla gama de aplicações em vários setores e domínios. A lista de usos possíveis a seguir não é completa. O objetivo desta lista é fornecer informações contextuais sobre os possíveis casos de uso que os criadores de modelos consideraram como parte do treinamento e desenvolvimento do modelo. Os usos proibidos dos modelos Gemma estão descritos na Política de uso proibido do Gemma.

Ajustar a tarefa de linguagem de visão específica:

Os modelos pré-treinados podem ser ajustados em uma ampla gama de tarefas de visão e linguagem, como: legendagem de imagens, legendagem de vídeos curtos, resposta a perguntas visuais, leitura de texto, detecção e segmentação de objetos.
Os modelos pré-treinados podem ser ajustados para domínios específicos, como resposta a perguntas de sensores remotos, perguntas visuais de pessoas com deficiência visual, resposta a perguntas de ciências e descrição de funcionalidades de elementos da interface.
Os modelos pré-treinados podem ser ajustados para tarefas com saídas não textuais, como caixas delimitadoras ou máscaras de segmentação.

Pesquisa de linguagem visual:

Os modelos pré-treinados e ajustados podem servir de base para que os pesquisadores testem técnicas de VLM, desenvolvam algoritmos e contribuam para o avanço da área.

Considerações éticas e riscos

O desenvolvimento de modelos de visão-linguagem (VLMs, na sigla em inglês) levanta várias questões éticas. Ao criar um modelo aberto, consideramos cuidadosamente o seguinte:

Viés e imparcialidade
- Os VLMs treinados com dados de texto e imagem reais em grande escala podem refletir vieses socioculturais incorporados no material de treinamento. Esses modelos foram cuidadosamente examinados, o pré-processamento de dados de entrada foi descrito e as avaliações posteriores foram informadas neste card.
Desinformação e uso indevido
- Os VLMs podem ser usados indevidamente para gerar textos falsos, enganosos ou prejudiciais.
- As diretrizes são fornecidas para uso responsável com o modelo. Consulte o Toolkit para IA generativa responsável.
Transparência e responsabilidade
- Este card de modelo resume detalhes sobre a arquitetura, os recursos, as limitações e os processos de avaliação dos modelos.
- Um modelo aberto desenvolvido de forma responsável oferece a oportunidade de compartilhar inovação, tornando a tecnologia VLM acessível a desenvolvedores e pesquisadores em todo o ecossistema de IA.

Riscos identificados e mitigações:

Perpetuação de vieses:é recomendável realizar um monitoramento contínuo (usando métricas de avaliação, revisão humana) e a exploração de técnicas de eliminação de viés durante o treinamento do modelo, ajuste fino e outros casos de uso.
Geração de conteúdo nocivo:mecanismos e diretrizes para a segurança do conteúdo são essenciais. Os desenvolvedores são incentivados a ter cuidado e implementar proteções de segurança de conteúdo adequadas com base nas políticas específicas do produto e nos casos de uso do aplicativo.
Uso indevido para fins maliciosos:limitações técnicas e treinamentos para desenvolvedores e usuários finais podem ajudar a mitigar aplicativos maliciosos de LLMs. Recursos educacionais e mecanismos de denúncia para que os usuários denunciem o uso indevido são fornecidos: consulte o Toolkit para IA generativa responsável. Os usos proibidos dos modelos Gemma estão descritos na Política de uso proibido do Gemma.
Violações de privacidade:os modelos foram treinados com dados filtrados para remover certas informações pessoais e dados sensíveis. Os desenvolvedores são incentivados a aderir aos regulamentos de privacidade com técnicas que preservam a privacidade.

Limitações

A maioria das limitações herdadas dos modelos subjacentes do Gemma 2 ainda se aplica:
- Os VLMs são melhores em tarefas que podem ser enquadradas com instruções e comandos claros. Tarefas abertas ou muito complexas podem ser desafiadoras.
- A linguagem natural é inerentemente complexa. Os VLMs podem ter dificuldade para entender nuances sutis, sarcasmo ou linguagem figurada.
- Os VLMs geram respostas com base nas informações que aprenderam com os conjuntos de dados de treinamento, mas não são bases de conhecimento. Eles podem gerar declarações factuais incorretas ou desatualizadas.
- Os VLMs dependem de padrões estatísticos na linguagem e nas imagens. Eles podem não ter a capacidade de aplicar o raciocínio de bom senso em determinadas situações.
O PaliGemma 2 foi projetado principalmente para servir como um modelo pré-treinado geral para ajuste fino de tarefas especializadas. Portanto, o desempenho "fora da caixa" ou "zero-shot" pode ficar atrás dos modelos projetados especificamente para uso geral.
O PaliGemma 2 não é um chatbot de vários turnos. Ele foi projetado para uma única rodada de entrada de imagem e texto.