Scheda del modello PaliGemma

Pagina del modello: PaliGemma

Risorse e documentazione tecnica:

Termini e condizioni d'uso: Termini

Autori: Google

Informazioni sul modello

Riepilogo modello

Descrizione

PaliGemma è un modello VLM (Vision Language) versatile e leggero ispirato a PaLI-3 e basato su componenti aperti come il modello di visione artificiale SigLIP e il modello linguistico Gemma. Prende immagini e testi come input e genera testo come output, supportando più lingue. È progettato per ottimizzare le prestazioni in un'ampia gamma di attività di visione artificiale, come didascalie di immagini e video brevi, domande visive, lettura di testi, rilevamento di oggetti e segmentazione degli oggetti.

Architettura del modello

PaliGemma è la composizione di un decoder Transformer e un encoder di immagini Vision Transformer, con un totale di 3 miliardi di parametri. Il decoder del testo viene inizializzato da Gemma-2B. L'encoder di immagini viene inizializzato da SigLIP-So400m/14. PaliGemma viene addestrato seguendo le ricette PaLI-3.

Ingressi e uscite

  • Input: stringa di immagine e testo, ad esempio un prompt per aggiungere una didascalia all'immagine o una domanda.
  • Output: testo generato in risposta all'input, ad esempio una didascalia dell'immagine, una risposta a una domanda, un elenco di coordinate del riquadro di delimitazione degli oggetti o parole in codice di segmentazione.

Dati del modello

Preaddestra set di dati

PaliGemma è preaddestrato sulla seguente combinazione di set di dati:

Filtro della responsabilità dei dati

I seguenti filtri vengono applicati a WebLI, con l'obiettivo di addestrare PaliGemma su dati puliti:

  • Filtro immagini pornografiche: questo filtro rimuove le immagini considerate di natura pornografica.
  • Filtro sicurezza testo:identifichiamo e filtriamo le immagini abbinate a testo non sicuro. Per testo non sicuro si intende qualsiasi testo che contenga o che riguardi CSAI, pornografia, volgarità o altri contenuti offensivi.
  • Filtro della tossicità del testo:usiamo ulteriormente l'API Perspective per identificare e filtrare le immagini associate a testo ritenuto offensivo, osceno, che incita all'odio o comunque tossico.
  • Filtro informazioni personali di testo:abbiamo filtrato alcune informazioni personali e altri dati sensibili utilizzando l'API Cloud Data Loss Prevention (DLP) per proteggere la privacy delle persone. Identificatori come codici fiscali e altri tipi di informazioni sensibili sono stati rimossi.
  • Metodi aggiuntivi: filtri in base alla qualità e alla sicurezza dei contenuti, in linea con le nostre norme e prassi.

Informazioni sull'implementazione

Hardware

PaliGemma è stato addestrato utilizzando l'ultima generazione di hardware Tensor Processing Unit (TPU) (TPUv5e) di ultima generazione.

Software

L'addestramento è stato effettuato utilizzando JAX, Flax, TFDS e big_vision.

JAX consente ai ricercatori di sfruttare l'hardware di ultima generazione, incluse le TPU, per un addestramento più rapido ed efficiente di modelli di grandi dimensioni.

TFDS viene utilizzato per accedere ai set di dati e Flax viene utilizzato per l'architettura dei modelli. Il codice di ottimizzazione e il codice di inferenza di PaliGemma vengono rilasciati nel repository GitHub di big_vision.

Informazioni sulla valutazione

Risultati benchmark

Per verificare la trasferibilità di PaliGemma ad un'ampia gamma di attività accademiche, perfezioniamo i modelli preaddestrati per ogni attività. Inoltre, addestriamo il modello di combinazione con una combinazione delle attività di trasferimento. Registriamo i risultati con risoluzioni diverse per fornire un'idea di quali attività traggono vantaggio da una maggiore risoluzione. È importante sottolineare che nessuna di queste attività o nessuno di questi set di dati fa parte della combinazione di dati di preaddestramento e le relative immagini vengono rimosse esplicitamente dai dati di preaddestramento su scala web.

Singola attività (ottimizza su una singola attività)

Benchmark (suddivisione del treno) Metrica (suddivisione) pt-224 pt-448 pt-896
Sottotitoli codificati
Sottotitoli COCO (treno + tempo di riposo) CIDEr (val) 141,92 144,60
NoCaps (valutazione del trasferimento dei sottotitoli codificati COCO) CIDEr (val) 121,72 123,58
COCO-35L (treno) Sviluppo CIDEr (en/avg-34/avg)
139,2
115,8
116,4
141,2
118,0
118,6
XM3600 (valutazione del trasferimento COCO-35L) Sviluppo CIDEr (en/avg-34/avg)
78,1
41,3
42,4
80,0
41,9
42,9
TextCaps (addestramento) CIDEr (val) 127,48 153,94
SciCap (prima frase, nessuna figura secondaria) (addestramento+val) CIDEr/BLEU-4 (test)
162,25
0,192
181,49
0,211
Screen2words (addestramento+sviluppo) CIDEr (test) 117,57 119,59
Sottotitolaggio widget (treno+sviluppo) CIDEr (test) 136,07 148,36
Question answering
VQAv2 (addestramento+convalida) Accuratezza (server di test - standard) 83,19 85,64
MMVP (valutazione del trasferimento VQAv2) Precisione accoppiata 47,33 45,33
POPE (valutazione del trasferimento VQAv2) Accuratezza (casuale/popolare/avversario)
87,80
85,87
84,27
88,23
86,77
85,90
OKVQA (addestramento) Precisione (val) 63,54 63,15
A-OKVQA (MC) (treno+val) Accuratezza (server di test) 76,37 76,90
A-OKVQA (DA) (treno+val) Accuratezza (server di test) 61,85 63,22
GQA (addestramento_bilanciato+val_bilanciato) Accuratezza (testdev bilanciato) 65,61 67,03
xGQA (valutazione del trasferimento GQA) Precisione media (bn, de, en, id, ko, pt, ru, zh) 58,37 59,07
NLVR2 (treno + sviluppo) Accuratezza (test) 90,02 88,93
MaRVL (valutazione del trasferimento NLVR2) Precisione media (test) (id, sw, ta, tr, zh) 80,57 76,78
AI2D (treno) Accuratezza (test) 72,12 73,28
ScienceQA (sottogruppo Img, nessun CoT) (treno+val) Accuratezza (test) 95,39 95,93
RSVQA-LR (non numerico) (addestramento+val) Accuratezza media (test) 92,65 93,11
RSVQA-HR (non numerico) (addestramento+val) Accuratezza media (test/test2)
92,61
90,58
92,79
90,54
ChartQA (umano+aug)x(treno+val) Precisione media del rilassamento (test_human, test_aug) 57,08 71,36
VQA VizWiz (treno+val) Accuratezza (server di test - standard) 73,7 75,52
TallyQA (addestramento) Accuratezza (test_simple/test_complex)
81,72
69,56
84,86
72,27
OCR-VQA (addestramento+val) Accuratezza (test) 72,32 74,61 74,93
TextVQA (addestramento+val) Accuratezza (server di test - standard) 55,47 73,15 76,48
DocVQA (addestramento+val) ANLS (server di test) 43,74 78,02 84,77
VQA infografica (treno+val) ANLS (server di test) 28,46 40,47 47,75
SceneText VQA (addestramento+val) ANLS (server di test) 63,29 81,82 84,40
Segmentazione
RefCOCO (combinazione di refcoco, refcoco+, refcocog escludendo le immagini di val e test) MIoU (convalida) refcoco/refcoco+/refcocog
73,40
68,32
67,65
75,57
69,76
70,17
76,94
72,18
72,22
Attività video (Sottotitoli codificati/QA)
MSR-VTT (sottotitoli codificati) CIDEr (test) 70,54
MSR-VTT (QA) Accuratezza (test) 50,09
ActivityNet (sottotitoli codificati) CIDEr (test) 34,62
ActivityNet (QA) Accuratezza (test) 50,78
VATEX (sottotitoli codificati) CIDEr (test) 79,73
MSVD (QA) Accuratezza (test) 60,22

Modello misto (ottimizza sulla combinazione di attività di trasferimento)

Benchmark Metrica (suddivisione) mix-224 mix-448
MMVP Precisione accoppiata 46,00 45,33
PAOLO Accuratezza (casuale/popolare/avversario)
88,00
86,63
85,67
89,37
88,40
87,47

Etica e sicurezza

Approccio alla valutazione

I nostri metodi di valutazione includono valutazioni strutturate e test interni di red team delle norme relative ai contenuti pertinenti. Il red team è stato condotto da una serie di team diversi, ciascuno con obiettivi e metriche di valutazione diverse da parte di persone fisiche. Questi modelli sono stati valutati in base a una serie di categorie diverse relative all'etica e alla sicurezza, tra cui:

  • Valutazione umana su prompt riguardanti la sicurezza dei bambini, la sicurezza dei contenuti e danni rappresentativi. Per ulteriori dettagli sull'approccio alla valutazione, consulta la scheda del modello Gemma, ma prevede anche la configurazione di didascalie delle immagini e risposte visive alle domande.
  • Valutazione benchmark Image-to-Text: benchmark con set di dati accademici rilevanti, come il set di dati FairFace (Karkkainen et al., 2021).

Risultati valutazione

  • I risultati delle valutazioni umane delle valutazioni etiche e della sicurezza rientrano entro soglie accettabili per il rispetto dei criteri interni per categorie quali sicurezza dei minori, sicurezza dei contenuti e danni rappresentativi.
  • Oltre a solide valutazioni interne, utilizziamo anche l'API Perspective (soglia di 0, 8) per misurare tossicità, linguaggio volgare e altri potenziali problemi nelle didascalie generate per le immagini provenienti dal set di dati di FairFace. Registriamo i valori massimo e mediano osservati nei sottogruppi per ciascuno degli attributi genere, etnia ed età percepiti.
Metrica Genere percepito Etnia Fascia d'età
Massimo Mediana Massimo Mediana Massimo Mediana
Tossicità 0,04% 0,03% 0,08% 0,00% 0,09% 0,00%
Attacco all'identità 0,00% 0,00% 0,00% 0,00% 0,00% 0,00%
Insulti 0,06% 0,04% 0,09% 0,07% 0,16% 0,00%
Minaccia 0,06% 0,05% 0,14% 0,05% 0,17% 0,00%
Linguaggio volgare 0,00% 0,00% 0,00% 0,00% 0,00% 0,00%

Utilizzo e limitazioni

Utilizzo previsto

I modelli VLM (Open Vision Language Models) hanno un'ampia gamma di applicazioni in vari settori e domini. Il seguente elenco di potenziali usi non è esaustivo. Lo scopo di questo elenco è fornire informazioni contestuali sui possibili casi d'uso che gli autori dei modelli hanno considerato nell'ambito dell'addestramento e dello sviluppo dei modelli.

Perfezionamento di un'attività specifica in linguaggio visivo:

  • I modelli preaddestrati possono essere perfezionati per un'ampia gamma di attività legate al linguaggio visivo, tra cui: aggiunta di didascalie alle immagini, brevi didascalie dei video, risposte visive a domande, lettura di testi, rilevamento di oggetti e segmentazione degli oggetti.
  • I modelli preaddestrati possono essere perfezionati per domini specifici, come il rilevamento remoto della risposta alle domande, le domande visive di persone non vedenti, la risposta alle domande scientifiche o la descrizione delle funzionalità degli elementi UI.
  • I modelli preaddestrati possono essere perfezionati per attività con output non testuali, come riquadri di delimitazione o maschere di segmentazione.

Ricerca sul linguaggio visivo:

  • I modelli preaddestrati e perfezionati possono fungere da base per i ricercatori per sperimentare le tecniche VLM, sviluppare algoritmi e contribuire al progresso del campo.

Considerazioni e rischi etici

Lo sviluppo di modelli linguistici di visione artificiale (VLM) solleva diversi problemi etici. Durante la creazione di un modello aperto, abbiamo considerato con attenzione quanto segue:

  • Pregiudizi ed equità
    • Le VLM addestrati su dati di testo di immagini reali su larga scala possono riflettere pregiudizi socio-culturali incorporati nel materiale di formazione. Questi modelli sono stati sottoposti a un'attenta analisi, pre-elaborazione dei dati di input descritta e valutazioni posteriori riportate in questa scheda.
  • Disinformazione e uso improprio
    • I VLM possono essere usati in modo improprio per generare testo falso, fuorviante o dannoso.
    • Vengono fornite linee guida per l'uso responsabile con il modello; consulta il toolkit per l'IA generativa responsabile.
  • Trasparenza e responsabilità
    • Questa scheda del modello riassume i dettagli sull'architettura, le funzionalità, le limitazioni e i processi di valutazione dei modelli.
    • Un modello aperto sviluppato responsabilmente offre l'opportunità di condividere l'innovazione rendendo la tecnologia VLM accessibile a sviluppatori e ricercatori nell'intero ecosistema IA.

Rischi identificati e mitigazioni:

  • Perpetrazione dei bias: si consiglia di eseguire un monitoraggio continuo (utilizzando metriche di valutazione, revisione da parte di persone fisiche) e l'esplorazione di tecniche di rimozione del bias durante l'addestramento, l'ottimizzazione e altri casi d'uso del modello.
  • Generazione di contenuti dannosi: i meccanismi e le linee guida per la sicurezza dei contenuti sono essenziali. Consigliamo agli sviluppatori di procedere con cautela e di implementare le misure di salvaguardia della sicurezza dei contenuti appropriate in base ai criteri specifici del prodotto e ai casi d'uso delle applicazioni.
  • Utilizzo improprio per scopi dannosi: le limitazioni tecniche e le informazioni fornite a sviluppatori e utenti finali possono contribuire a mitigare le applicazioni dannose degli LLM. Vengono fornite risorse educative e meccanismi di segnalazione per consentire agli utenti di segnalare l'uso improprio. Consulta il Toolkit per l'IA generativa responsabile. Gli usi vietati dei modelli Gemma sono descritti nelle Norme relative all'uso vietato di Gemma.
  • Violazioni della privacy: i modelli sono stati addestrati sui dati filtrati per rimuovere determinate informazioni personali e dati sensibili. Gli sviluppatori sono invitati a rispettare le normative sulla privacy con tecniche incentrate sulla tutela della privacy.

Limitazioni

  • Si applicano ancora la maggior parte delle limitazioni ereditate dal modello Gemma sottostante:
    • Le VLM sono migliori nelle attività che possono essere inquadrate con prompt e istruzioni chiari. Le attività aperte o molto complesse possono essere impegnative.
    • Il linguaggio naturale è intrinsecamente complesso. I modelli VLM possono avere difficoltà a capire sfumature sottili, sarcasmo o linguaggio figurativo.
    • I VLM generano risposte in base alle informazioni apprese dai set di dati di addestramento, ma non sono knowledge base. Potrebbero generare dichiarazioni fattuali errate o obsolete.
    • I VLM si basano su modelli statistici nel linguaggio e nelle immagini. Potrebbero non essere in grado di applicare il ragionamento del buon senso in determinate situazioni.
  • PaliGemma è stato progettato principalmente per fungere da modello generale preaddestrato per l'ottimizzazione per attività specializzate. Di conseguenza, le sue prestazioni "out of the box" o "zero-shot" potrebbero essere in ritardo rispetto ai modelli progettati appositamente per questo scopo.
  • PaliGemma non è un chatbot multi-turno. È progettato per una singola serie di immagini e testo.