Confira o repositório do Gemma Cookbook para ver exemplos de geração e ajuste. Saiba mais

Esta página foi traduzida pela API Cloud Translation.

Card do modelo PaliGemma

Página do modelo:PaliGemma

Recursos e documentação técnica:

Termos de Uso: Termos

Autores:Google

Informações do modelo

Resumo do modelo

Descrição

O PaliGemma é um modelo de visão-linguagem (VLM, na sigla em inglês) versátil e leve inspirado no PaLI-3 e baseado em componentes abertos, como o modelo de visão SigLIP e o modelo de linguagem Gemma (links em inglês). Ela usa imagem e texto como entrada e gera texto como saída, oferecendo suporte a vários idiomas. Ele foi projetado para desempenho de ajuste fino líder da classe em uma ampla variedade de tarefas de linguagem visual, como imagem e legenda de vídeo curta, resposta a perguntas visuais, leitura de texto, detecção de objetos e segmentação de objetos.

Arquitetura do modelo

O PaliGemma é a composição de um decodificador de transformador e de um codificador de imagens do Vision Transformer, com um total de 3 bilhões de parâmetros. O decodificador de texto é inicializado em Gemma-2B. O codificador de imagem é inicializado em SigLIP-So400m/14. O PaliGemma é treinado seguindo as receitas do PaLI-3.

Entradas e saídas

Entrada:imagem e string de texto, como um prompt para legendar a imagem ou uma pergunta.
Saída: texto gerado em resposta à entrada, como uma legenda da imagem, uma resposta a uma pergunta, uma lista de coordenadas de caixa delimitadora de objetos ou palavras de código de segmentação.

Dados do modelo

Pré-treinar conjuntos de dados

O PaliGemma é pré-treinado com a seguinte combinação de conjuntos de dados:

WebLI:WebLI (imagem de linguagem da Web) é um conjunto de dados de texto de imagens multilíngue na escala da Web criado a partir da Web pública. Várias divisões do WebLI são usadas para adquirir recursos de modelo versáteis, como compreensão semântica visual, localização de objetos, compreensão de texto visualmente situada, multilíngue etc.
CC3M-35L:pares de image-alt_text selecionados em inglês de páginas da Web (Sharma et al., 2018). Usamos a Google Cloud Translation API para traduzir para 34 idiomas adicionais.
VQ²A-CC3M-35L/VQG-CC3M-35L::um subconjunto de VQ2A-CC3M (Changpinyo et al., 2022a), traduzido para os mesmos 34 idiomas que o CC3M-35L, usando a API Google Cloud Translation.
OpenImages:perguntas e respostas de detecção e reconhecimento de objetos (Piergiovanni et al., 2022) geradas por regras artesanais no conjunto de dados do OpenImages.
WIT:imagens e textos coletados da Wikipédia (Srinivasan et al., 2021).

Filtragem da responsabilidade de dados

Os filtros a seguir são aplicados ao WebLI, com o objetivo de treinar o PaliGemma em dados limpos:

Filtragem de imagens pornográficas:este filtro remove imagens consideradas pornográficas.
Filtragem de segurança de texto:identificamos e filtramos imagens que aparecem com textos não seguros. É qualquer texto que tenha ou seja sobre CSAI, pornografia, vulgaridades ou de outra forma ofensivo.
Filtragem de toxicidade de textos:usamos a API Perspective para identificar e filtrar imagens pareadas com texto considerado ofensivo, obsceno, de incitação ao ódio ou tóxico.
Filtragem de informações pessoais de texto: filtramos determinadas informações pessoais e outros dados sensíveis usando a API Cloud Data Loss Prevention (DLP) para proteger a privacidade das pessoas. Identificadores como CPF ou CNPJ e outros tipos de informações sensíveis foram removidos.
Métodos adicionais:filtragem com base na qualidade e segurança do conteúdo de acordo com nossas políticas e práticas.

Informações de implementação

Hardware

O PaliGemma foi treinado usando a geração mais recente de hardware da Unidade de Processamento de Tensor (TPUv5e).

Software

O treinamento foi feito usando JAX, Flax, TFDS e big_vision.

O JAX permite que os pesquisadores aproveitem a geração mais recente de hardware, incluindo TPUs, para um treinamento mais rápido e eficiente de modelos grandes.

O TFDS é usado para acessar conjuntos de dados e o Flax é usado para a arquitetura de modelos. O código de ajuste fino do PaliGemma e o código de inferência estão disponíveis no repositório big_vision do GitHub.

Informações da avaliação

Resultados da comparação

Para verificar a transferência do PaliGemma para uma ampla variedade de tarefas acadêmicas, ajustamos os modelos pré-treinados em cada tarefa. Além disso, treinamos o modelo misto com uma mistura das tarefas de transferência. Informamos os resultados em diferentes resoluções para mostrar quais tarefas se beneficiam de uma resolução maior. É importante ressaltar que nenhuma dessas tarefas ou conjuntos de dados faz parte da mistura de dados de pré-treinamento, e as imagens deles são explicitamente removidas dos dados de pré-treinamento na escala da Web.

Tarefa única (ajustar em uma única tarefa)

Comparativo de mercado (divisão de treinamento)	Métrica (divisão)	pt-224	pt-448	pt-896
Legendagem
Legendas do COCO (train+restval)	CIDEr (valor)	141,92	144,60
NoCaps (avaliação de transferência de legendas COCO)	CIDEr (valor)	121,72	123,58
COCO-35L (trem)	Desenvolvimento do CIDEr (en/avg-34/avg)	139.2 115.8 116,4	141.2 118.0 118.6
XM3600 (avaliação da transferência de COCO-35L)	Desenvolvimento do CIDEr (en/avg-34/avg)	78.1 41,3 42,4	80,0 41,9 42,9
TextCaps (trem)	CIDEr (valor)	127,48	153,94
SciCap (primeira frase, sem subfiguras) (train+val)	CIDEr/BLEU-4 (teste)	162,25 0,192	181,49 0,211
Screen2words (treinamento + desenvolvimento)	CIDEr (teste)	117,57	119,59
Legenda do widget (trein+dev)	CIDEr (teste)	136,07	148,36
Respostas a perguntas
VQAv2 (trem + validação)	Precisão (servidor de teste - std)	83,19	85,64
MMVP (avaliação da transferência VQAv2)	Acurácia pareada	47,33	45,33
POPE (avaliação da transferência VQAv2)	Acurácia (aleatório/popular/adversário)	87,80 85,87 84,27	88,23 86,77 85,90
OKVQA (trem)	Precisão (val)	63,54	63,15
A-OKVQA (MC) (train+val)	Precisão (servidor de teste)	76,37	76,90
A-OKVQA (DA) (train+val)	Precisão (servidor de teste)	61,85	63,22
GQA (train_balanced+val_balanced)	Acurácia (testdev equilibrado)	65,61	67,03
xGQA (avaliação de transferência de GQA)	Precisão média (bn, de, en, id, ko, pt, ru, zh)	58,37	59,07
NLVR2 (trein+dev)	Acurácia (teste)	90,02	88,93
MaRVL (avaliação de transferência do NLVR2)	Precisão média (teste) (id, sw, ta, tr, zh)	80,57	76,78
AI2D (treino)	Acurácia (teste)	72,12	73,28
ScienceQA (subconjunto de Img, sem CoT) (train+val)	Acurácia (teste)	95,39	95,93
RSVQA-LR (não numérico) (train+val)	Precisão média (teste)	92,65	93,11
RSVQA-HR (não numérico) (train+val)	Precisão média (teste/teste2)	92,61 90,58	92,79 90,54
ChartQA (humano+ago)x(train+val)	Precisão média de relaxamento (humano de teste, agosto de teste)	57,08	71,36
VizWiz VQA (trem+val)	Precisão (servidor de teste - std)	73,7	75,52
TallyQA (trem)	Acurácia (teste_simples/complexo de teste)	81,72 69,56	84,86 72,27
OCR-VQA (trem+val)	Acurácia (teste)	72,32	74,61	74,93
TextVQA (trem+val)	Precisão (servidor de teste - std)	55,47	73,15	76,48
DocVQA (trem+val)	ANLS (servidor de teste)	43,74	78,02	84,77
VQA do infográfico (trem+val)	ANLS (servidor de teste)	28,46	40,47	47,75
SceneText VQA (trein+val)	ANLS (servidor de teste)	63,29	81,82	84,40
Segmentação
RefCOCO (combinado com refcoco, refcoco+ e refcocog excluindo imagens de teste e valor)	MIoU (validação) refcoco/refcoco+/refcocog	73,40 68,32 67,65	75,57 69,76 70,17	76,94 72,18 72,22
Tarefas de vídeo (legenda/controle de qualidade)
MSR-VTT (Legendagem)	CIDEr (teste)	70,54
MSR-VTT (controle de qualidade)	Acurácia (teste)	50,09
ActivityNet (legendagem)	CIDEr (teste)	34,62
ActivityNet (controle de qualidade)	Acurácia (teste)	50,78
IVAEX (legendagem)	CIDEr (teste)	79,73
MSVD (controle de qualidade)	Acurácia (teste)	60,22

Modelo de combinação (ajuste na combinação de tarefas de transferência)

Benchmark	Métrica (divisão)	mix-224	mix-448
MMVP (em inglês)	Acurácia pareada	46,00	45,33
POPE (link em alemão)	Acurácia (aleatório/popular/adversário)	88,00 86,63 85,67	89,37 88,40 87,47

Benchmark

Métrica (divisão)

mix-224

mix-448

MMVP (em inglês)

Acurácia pareada

46,00

45,33

POPE (link em alemão)

Acurácia (aleatório/popular/adversário)

88,00

86,63

85,67

89,37

88,40

87,47

Ética e segurança

Abordagem de avaliação

Nossos métodos incluem avaliações estruturadas e testes internos em equipe vermelha de políticas de conteúdo relevantes. A equipe vermelha foi conduzida por várias equipes diferentes, cada uma com metas e métricas de avaliação humana distintas. Esses modelos foram avaliados em relação a várias categorias diferentes relevantes para ética e segurança, incluindo:

Avaliação humana de comandos que abrangem a segurança infantil, segurança de conteúdo e danos representativos. Consulte o card de modelo Gemma para ver mais detalhes sobre a abordagem de avaliação, mas com legendagem de imagens e configurações de respostas visuais a perguntas.
Avaliação de comparativos de mercado de imagem para texto: compare com conjuntos de dados acadêmicos relevantes, como o conjunto de dados FairFace (Karkkainen et al., 2021).

Resultados da avaliação

Os resultados das avaliações de ética e segurança estão dentro de limites aceitáveis para atender a políticas internas de categorias como segurança infantil, segurança de conteúdo e danos representativos.
Além de avaliações internas robustas, também usamos a API Perspective (limite de 0, 8) para medir toxicidade, linguagem obscena e outros possíveis problemas nas legendas geradas para imagens provenientes do conjunto de dados FairFace. Informamos os valores máximo e médio observados em subgrupos para cada um dos atributos percebidos de gênero, etnia e idade.

Métrica	Gênero percebido		Etnia		Faixa etária
	Máxima	Mediana	Máxima	Mediana	Máxima	Mediana
Toxicidade	0,04%	0,03%	0,08%	0%	0,09%	0%
Ataque de identidade	0%	0%	0%	0%	0%	0%
Ofensivo	0,06%	0,04%	0,09%	0,07%	0,16%	0%
Ameaça	0,06%	0,05%	0,14%	0,05%	0,17%	0%
Linguagem obscena	0%	0%	0%	0%	0%	0%

Uso e limitações

Uso pretendido

Os modelos de linguagem de visão aberta (VLMs, na sigla em inglês) têm uma ampla variedade de aplicativos em vários setores e domínios. A lista de possíveis usos a seguir não é abrangente. O objetivo desta lista é fornecer informações contextuais sobre os possíveis casos de uso que os criadores do modelo consideraram como parte do treinamento e do desenvolvimento do modelo.

Ajustar em tarefas específicas de linguagem visual:

Os modelos pré-treinados podem ser ajustados em uma ampla gama de tarefas de visão e linguagem, como legendagem de imagens, legenda de vídeo curta, resposta a perguntas visuais, leitura de texto, detecção de objetos e segmentação de objetos.
Os modelos pré-treinados podem ser ajustados para domínios específicos, como respostas a perguntas de detecção remota, perguntas visuais de pessoas cegas, respostas a perguntas científicas e descrições de funcionalidades de elementos da interface.
Os modelos pré-treinados podem ser ajustados para tarefas com saídas não textuais, como caixas delimitadoras ou máscaras de segmentação.

Pesquisa de linguagem visual:

Os modelos pré-treinados e ajustados podem servir de base para pesquisadores testarem técnicas de VLM, desenvolver algoritmos e contribuir para o avanço da área.

Considerações éticas e riscos

O desenvolvimento de modelos de linguagem visual (VLMs) gera várias questões éticas. Ao criar um modelo aberto, consideramos cuidadosamente o seguinte:

Viés e imparcialidade
- VLMs treinados com dados de texto de imagem em grande escala do mundo real podem refletir vieses socioculturais incorporados no material de treinamento. Esses modelos passaram por uma análise cuidadosa, o pré-processamento de dados de entrada descrito e avaliações posteriores relatadas neste card.
Desinformação e uso indevido
- Os VLMs podem ser usados indevidamente para gerar texto falso, enganoso ou prejudicial.
- As diretrizes são fornecidas para uso responsável com o modelo. Consulte o Kit de ferramentas de IA generativa responsável.
Transparência e responsabilidade
- Este card de modelo resume os detalhes sobre a arquitetura, os recursos, as limitações e os processos de avaliação dos modelos.
- Um modelo aberto desenvolvido com responsabilidade oferece a oportunidade de compartilhar inovações, tornando a tecnologia VLM acessível a desenvolvedores e pesquisadores em todo o ecossistema de IA.

Riscos identificados e mitigações:

Perpetuação de vieses:é recomendável realizar um monitoramento contínuo (usando métricas de avaliação, revisão humana) e a exploração de técnicas de neutralização durante o treinamento do modelo, o ajuste e outros casos de uso.
Geração de conteúdo nocivo:mecanismos e diretrizes para a segurança do conteúdo são essenciais. Recomendamos que os desenvolvedores tenham cuidado e implementem as salvaguardas adequadas de segurança do conteúdo com base nas políticas e nos casos de uso do aplicativo específicas deles.
Uso indevido para fins maliciosos: limitações técnicas e instruções para desenvolvedores e usuários finais podem ajudar a mitigar o uso de LLMs maliciosos. São fornecidos recursos educacionais e mecanismos de geração de relatórios para que os usuários sinalizem uso indevido: consulte o kit de ferramentas de IA generativa responsável. Usos proibidos de modelos Gemma estão descritos na Política de Uso Proibido.
Violações de privacidade:os modelos foram treinados em dados filtrados para remover determinadas informações pessoais e dados sensíveis. Os desenvolvedores são incentivados a seguir os regulamentos de privacidade com técnicas que preservam a privacidade.

Limitações

A maioria das limitações herdadas do modelo Gemma subjacente ainda se aplica:
- Os VLMs são melhores em tarefas que podem ser enquadradas com instruções e instruções claras. Tarefas abertas ou altamente complexas podem ser desafiadoras.
- A linguagem natural é inerentemente complexa. Os VLMs podem ter dificuldade para entender nuances sutis, sarcasmo ou linguagem figurativa.
- Os VLMs geram respostas com base nas informações que aprenderam com os conjuntos de dados de treinamento, mas não são bases de conhecimento. Podem gerar declarações factuais incorretas ou desatualizadas.
- Os VLMs dependem de padrões estatísticos de linguagem e imagens. Eles podem não conseguir aplicar o raciocínio com bom senso em determinadas situações.
O PaliGemma foi projetado principalmente para servir como um modelo pré-treinado geral para ajustar tarefas especializadas. Portanto, o desempenho "prontos para uso" ou "zero-shot" pode ter um defasagem em relação aos modelos projetados especificamente para isso.
O PaliGemma não é um chatbot com várias interações. Ele é projetado para uma única rodada de entrada de imagem e texto.