Scheda del modello PaliGemma 2

Pagina del modello: PaliGemma

Risorse e documentazione tecnica:

Termini e condizioni d'uso: Termini

Autori: Google

Informazioni sul modello

Riepilogo modello

PaliGemma 2 è un aggiornamento del modello linguistico visivo (VLM) PaliGemma che incorpora le funzionalità dei modelli Gemma 2. La famiglia di modelli PaliGemma è ispirata a PaLI-3 e si basa su componenti aperti come il modello di visione SigLIP e i modelli linguistici Gemma 2. Accetta come input sia immagini che testo e genera testo come output, supportando più lingue. È progettato per offrire prestazioni di ottimizzazione di primo livello su un'ampia gamma di attività di visione e linguaggio, come sottotitoli codificati di immagini e video brevi, risposta a domande visive, lettura di testo, rilevamento e segmentazione di oggetti.

Architettura del modello

PaliGemma 2 è composto da un decoder Transformer e da un encoder di immagini Vision Transformer. Il decodificatore di testo viene inizializzato da Gemma 2 nelle dimensioni dei parametri 2B, 9B e 27B. Il codificatore di immagini viene inizializzato da SigLIP-So400m/14. Come il modello PaliGemma originale, PaliGemma 2 viene addestrato seguendo le ricette di PaLI-3.

Input e output

  • Input: stringa di testo e immagine, ad esempio un prompt per aggiungere una didascalia all'immagine o una domanda.
  • Output: testo generato in risposta all'input, ad esempio una didascalia dell'immagine, una risposta a una domanda, un elenco di coordinate della casella delimitante dell'oggetto o parole di codice di segmentazione.

Citazione

@article{
    title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
    author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
    year={2024},
    journal={arXiv preprint arXiv:2412.03555}
}

Dati del modello

Set di dati preaddestrati

PaliGemma 2 è preaddestrato sulla seguente combinazione di set di dati:

  • WebLI: WebLI (Web Language Image) è un insieme di dati di testo e immagini multilingue su larga scala sul web creato dal web pubblico. Viene utilizzata una vasta gamma di suddivisioni WebLI per acquisire funzionalità versatili del modello, come la comprensione semantica visiva, la localizzazione degli oggetti, la comprensione del testo in base alla posizione visiva e la multilinguismo.
  • CC3M-35L: coppie di immagini e testo alternativo in inglese selezionate da pagine web (Sharma et al., 2018). Abbiamo utilizzato l'API Google Cloud Translation per tradurre in altre 34 lingue.
  • VQ²A-CC3M-35L/VQG-CC3M-35L: un sottoinsieme di VQ2A-CC3M (Changpinyo et al., 2022a), tradotto nelle stesse 34 lingue aggiuntive di CC3M-35L, utilizzando l'API Google Cloud Translation.
  • OpenImages: domande e risposte basate sul rilevamento e sugli oggetti (Piergiovanni et al. 2022) generate da regole create manualmente sul set di dati OpenImages.
  • WIT: immagini e testi raccolti da Wikipedia (Srinivasan et al., 2021).

PaliGemma 2 si basa su Gemma 2 e puoi trovare informazioni sui set di dati di preaddestramento per Gemma 2 nella scheda del modello Gemma 2.

Filtro della responsabilità dei dati

I seguenti filtri vengono applicati a WebLI, con l'obiettivo di addestrare PaliGemma 2 su dati sicuri e responsabili:

  • Filtro di immagini pornografiche:questo filtro rimuove le immagini ritenute di natura pornografica.
  • Filtro di sicurezza del testo:identifichiamo e rimuoviamo le immagini associate a testo non sicuro. Per testo non sicuro si intende qualsiasi testo ritenuto contenente o relativo a immagini pedopornografiche, pornografia, linguaggio volgare o comunque offensivo.
  • Filtro per contenuti tossici: utilizziamo inoltre l'API Perspective per identificare e filtrare le immagini associate a testo ritenuto offensivo, osceno, di incitamento all'odio o altrimenti tossico.
  • Filtro delle informazioni personali nel testo: abbiamo filtrato determinate informazioni personali e altri dati sensibili utilizzando l'API Cloud Data Loss Prevention (DLP) per proteggere la privacy delle persone. Sono stati rimossi identificatori come i codici fiscali e altri tipi di informazioni sensibili.
  • Metodi aggiuntivi: filtri in base alla qualità e alla sicurezza dei contenuti in linea con le nostre norme e pratiche.

Informazioni sull'implementazione

Hardware

PaliGemma 2 è stato addestrato utilizzando l'hardware (TPUv5e) di ultima generazione delle Tensor Processing Unit (TPU).

Software

L'addestramento è stato completato utilizzando JAX, Flax, TFDS e big_vision.

JAX consente ai ricercatori di sfruttare l'hardware di ultima generazione, tra cui le TPU, per un addestramento più rapido ed efficiente di modelli di grandi dimensioni.

TFDS viene utilizzato per accedere ai set di dati e Flax per l'architettura del modello. Il codice di ottimizzazione fine e il codice di inferenza di PaliGemma 2 vengono rilasciati nel big_vision repository GitHub.

Informazioni sulla valutazione

Risultati del benchmark

Per verificare la trasferibilità di PaliGemma 2 a un'ampia gamma di attività accademiche, perfezioniamo i modelli preaddestrati su ogni attività. Report risultati su risoluzioni diverse per fornire un'impressione di quali attività beneficiano dall'aumento della risoluzione. È importante sottolineare che nessuna di queste attività o di questi set di dati fa parte della miscela di dati di pre-addestramento e le relative immagini vengono rimosse esplicitamente dai dati di pre-addestramento su larga scala.

Risultati di PaliGemma 2 in base alla risoluzione e alle dimensioni del modello

Benchmark 224-3B 224-10B 224-28B 448-3B 448-10B 448-28B
AI2D 74,7 83,1 83,2 76,0 84,4 84,6
AOKVQA-DA (val) 64,2 68,9 70,2 67,9 70,8 71,2
AOKVQA-MC (val) 79,7 83,7 84,7 82,5 85,9 87,0
ActivityNet-CAP 34,2 35,9 - - - -
ActivityNet-QA 51,3 53,2 - - - -
COCO-35L (media34) 113,9 115,8 116,5 115,8 117,2 117,2
COCO-35L (en) 138,4 140,8 142,4 140,4 142,4 142,3
COCOcap 141,3 143,7 144,0 143,4 145,0 145,2
ChartQA (media) 74,4 74,2 68,9 89,2 90,1 85,1
ChartQA (persona) 42,0 48,4 46,8 54,0 66,4 61,3
CountBenchQA 81,0 84,0 86,4 82,0 85,3 87,4
DocVQA (val) 39.9 43,9 44,9 73,6 76,6 76,1
GQA 66,2 67,2 67,3 68,1 68,3 68,3
InfoVQA (val) 25,2 33,6 36,4 37,5 47,8 46,7
MARVL (media5) 83,5 89,5 90,6 82,7 89,1 89,7
MSRVTT-CAP 68,5 72,1 - - - -
MSRVTT-QA 50,5 51,9 - - - -
MSVD-QA 61.1 62,5 - - - -
NLVR2 91,4 93,9 94,2 91,6 93,7 94,1
NoCaps 123.1 126,3 127.1 123,5 126,9 127,0
OCR-VQA 73,4 74,7 75,3 75,7 76,3 76,6
OKVQA 64,2 68,0 71,2 64.1 68,6 70,6
RSVQA-hr (test) 92,7 92,6 92,7 92,8 92,8 92,8
RSVQA-hr (test2) 90,9 90,8 90,9 90,7 90,7 90,8
RSVQA-lr 93,0 92,8 93,5 92,7 93,1 93,7
RefCOCO (testA) 75,7 77,2 76,8 78,6 79,7 79,3
RefCOCO (testB) 71,0 74,2 73,9 73,5 76,2 74,8
RefCOCO (val) 73,4 75,9 75,0 76,3 78,2 77,3
RefCOCO+ (testA) 72,7 74,7 73,6 76,1 77,7 76,6
RefCOCO+ (testB) 64,2 68,4 67,1 67,0 71,1 68,6
RefCOCO+ (val) 68,6 72,0 70,3 72,1 74,4 72,8
RefCOCOg (test) 69,0 71,9 70,7 72,7 74,8 73,7
RefCOCOg (val) 68,3 71,4 70,5 72,3 74,4 73,0
ST-VQA (val) 61,9 64,3 65.1 80,5 82,0 81,8
SciCap 165,1 159,5 156,9 183,3 177,2 172,7
ScienceQA 96,1 98,2 98,2 96,2 98,5 98,6
Screen2Words 113,3 117,8 122,8 114,0 119,1 123,4
TallyQA (complesso) 70,3 73,4 74,2 73,6 76,7 76,8
TallyQA (semplice) 81,8 83,2 83,4 85,3 86,2 85,7
TextCaps 127,5 137,9 139,9 152,1 157,7 153,6
TextVQA (val) 59,6 64,0 64,7 75,2 76,6 76,2
VATEX 80,8 82,7 - - - -
VQAv2 (minival) 83,0 84,3 84,5 84,8 85,8 85,8
VizWizVQA (val) 76,4 78,1 78,7 77,5 78,6 78,9
WidgetCap 138,1 139,8 138,8 151,4 151,9 148,9
XM3600 (avg35) 42,8 44,5 45,2 43,2 44,6 45,2
XM3600 (en) 79,8 80,7 81,0 80,3 81,5 81,0
xGQA (media7) 58,6 61,4 61.1 60,4 62,6 62,1

Benchmark aggiuntivi

ICDAR 2015 Incidental

Modello Precisione Richiamo F1
PaliGemma 2 3B 81,88 70,73 75,9

Total-Text

Modello Precisione Richiamo F1
PaliGemma 2 3B 73,8. 74,54 74,17

FinTabNet

Modello S-TEDS TEDS GriTS-Top GriTS-Con
PaliGemma 2 3B 99,18 98,94 99,43 99,21

PubTabNet

Modello S-TEDS TEDS GriTS-Top GriTS-Con
PaliGemma 2 3B 97,6 97,31 97,99 97,84

GrandStaff

Modello CER LER SER
PaliGemma 2 3B 1,6 6,7 2.3

PubChem

  • PaliGemma 2 3B, corrispondenza completa: 94,8

DOCCI

Modello media#caratteri avg#sent NES %
PaliGemma 2 3B 529 7,74 28,42
PaliGemma 2 10B 521 7,45 20,27
  • avg#char: numero medio di caratteri
  • avg#sent: numero medio di frasi
  • NES: frasi senza implicazione

MIMIC-CXR

Modello CIDEr BLEU4 Rouge-L RadGraph F1
PaliGemma 2 3B 19,9% 14,6% 31,92% 28,8%
PaliGemma 2 10B 17,4% 15% 32,41% 29,5%

Ragionamento spaziale visivo

Modello Test di suddivisione zeroshot (VSR) Suddivisione casuale (test) del rapporto di visualizzazione della scheda
PaliGemma 2 3B 0,75 0,82
PaliGemma 2 10B 0,80 0,87

Etica e sicurezza

Approccio di valutazione

I nostri metodi di valutazione includono valutazioni etiche e di sicurezza strutturate in base alle norme relative ai contenuti pertinenti, tra cui:

  • Valutazione umana di prompt che riguardano la sicurezza dei bambini, la sicurezza dei contenuti e i danni causati dalla rappresentazione. Per maggiori dettagli sull'approccio di valutazione, consulta la scheda del modello Gemma, ma con le configurazioni di risposta alle domande visive e di generazione di didascalie delle immagini.
  • Valutazione del benchmark di conversione di immagini in testo: benchmark rispetto a set di dati accademici pertinenti come FairFace Dataset (Karkkainen et al., 2021).

Risultati valutazione

  • I risultati delle valutazioni umane relative a etica e sicurezza rientrano in ngưỡng accettabili per rispettare le norme interne per categorie come sicurezza dei bambini, sicurezza dei contenuti e danni rappresentati.
  • Oltre a valutazioni interne rigorose, utilizziamo anche l'API Perspective (soglia di 0, 8) per misurare la tossicità, il linguaggio volgare e altri potenziali problemi nei sottotitoli codificati generati per le immagini provenienti dal set di dati FairFace. Vengono riportati i valori massimi e medi osservati nei sottogruppi per ciascuno degli attributi percepiti di genere, etnia ed età.
Metrica Genere percepito Etnia Fascia d'età
Dimensione modello 3 MLD 10 MLD 28 MLD 3 MLD 10 MLD 28 MLD 3 MLD 10 MLD 28 MLD
Massimo
Tossicità 0,14% 0,15% 0,19% 0,29% 0,39% 0,39% 0,26% 0,18% 0,32%
Attacco all'identità 0,04% 0,02% 0,02% 0,13% 0,06% 0,06% 0,06% 0,03% 0,06%
Insulti 0,17% 0,25% 0,17% 0,37% 0,52% 0,52% 0,27% 0,39% 0,24%
Minaccia 0,55% 0,43% 0,57% 0,83% 0,48% 0,48% 0,64% 0,43% 0,64%
Linguaggio volgare 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00%
Mediana
Tossicità 0,13% 0,10% 0,18% 0,07% 0,07% 0,14% 0,12% 0,08% 0,12%
Attacco all'identità 0,02% 0,01% 0,02% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00%
Insulti 0,15% 0,23% 0,14% 0,14% 0,17% 0,13% 0,09% 0,18% 0,16%
Minaccia 0,35% 0,27% 0,41% 0,28% 0,19% 0,42% 0,27% 0,31% 0,40%
Linguaggio volgare 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00%

Utilizzo e limitazioni

Utilizzo previsto

I modelli linguistici di Open Vision (VLM) hanno un'ampia gamma di applicazioni in vari settori e domini. Il seguente elenco di potenziali utilizzi non è completo. Lo scopo di questo elenco è fornire informazioni contestuali sui possibili casi d'uso che gli autori del modello hanno preso in considerazione durante l'addestramento e lo sviluppo del modello. Gli usi vietati dei modelli Gemma sono descritti nelle Norme relative all'uso vietato di Gemma.

Ottimizzazione per un'attività specifica di visione e linguaggio:

  • I modelli preaddestrati possono essere perfezionati su un'ampia gamma di attività legate alla visione e al linguaggio, come l'inserimento di didascalie per immagini, la trascrizione di video brevi, la risposta a domande visive, la lettura di testo, il rilevamento e la segmentazione degli oggetti.
  • I modelli pre-addestrati possono essere ottimizzati per domini specifici, come la risposta a domande sul rilevamento remoto, le domande visive di persone cieche, la risposta a domande scientifiche e la descrizione delle funzionalità degli elementi dell'interfaccia utente.
  • I modelli preaddestrati possono essere ottimizzati per attività con output non di testo, come riquadri di delimitazione o maschere di segmentazione.

Ricerca sulla visione e sul linguaggio:

  • I modelli preaddestrati e ottimizzati possono servire da base per sperimentare tecniche VLM, sviluppare algoritmi e contribuire allo sviluppo del settore.

Considerazioni etiche e rischi

Lo sviluppo di modelli linguistici visivi (VLM) solleva diversi problemi di natura etico. Nel creare un modello aperto, abbiamo preso in considerazione attentamente quanto segue:

  • Bias ed equità
    • I VLM addestrati su dati di testo e immagini reali di grandi dimensioni possono riflettere bias socio-culturali incorporati nel materiale di addestramento. Questi modelli sono stati sottoposti a un'attenta verifica, al pretrattamento dei dati di input descritto e alle valutazioni successive riportate in questa scheda.
  • Disinformazione e uso improprio
    • I VLM possono essere utilizzati in modo improprio per generare testo falso, fuorviante o dannoso.
    • Per l'uso responsabile del modello sono disponibili linee guida, consulta il Responsible Generative AI Toolkit.
  • Trasparenza e responsabilizzazione
    • Questa scheda del modello riassume i dettagli sull'architettura, sulle funzionalità, sulle limitazioni e sui processi di valutazione dei modelli.
    • Un modello aperto sviluppato in modo responsabile offre l'opportunità di condividere l'innovazione rendendo la tecnologia VLM accessibile a sviluppatori e ricercatori dell'ecosistema dell'IA.

Rischi identificati e mitigazioni:

  • Perpetuazione dei bias: ti invitiamo a eseguire un monitoraggio continuo (utilizzando metriche di valutazione, revisione umana) e a esplorare tecniche di rimozione dei bias durante l'addestramento del modello, l'ottimizzazione e altri casi d'uso.
  • Generare contenuti dannosi: sono essenziali meccanismi e linee guida per la sicurezza dei contenuti. Gli sviluppatori sono invitati a prestare attenzione e implementare misure di salvaguardia della sicurezza dei contenuti appropriate in base alle loro specifiche norme relative ai prodotti e ai casi d'uso delle applicazioni.
  • Uso improprio a scopo dannoso: le limitazioni tecniche e la formazione di sviluppatori e utenti finali possono contribuire a mitigare le applicazioni dannose degli LLM. Sono fornite risorse didattiche e meccanismi di segnalazione per consentire agli utenti di segnalare gli abusi: consulta il toolkit per l'IA generativa responsabile. Gli usi vietati dei modelli Gemma sono descritti nelle Norme relative all'uso vietato di Gemma.
  • Violazioni della privacy: i modelli sono stati addestrati su dati filtrati per rimuovere determinate informazioni personali e dati sensibili. Gli sviluppatori sono invitati a rispettare le normative sulla privacy con tecniche incentrate sulla tutela della privacy.

Limitazioni

  • Si applicano ancora la maggior parte delle limitazioni ereditate dai modelli di Gemma 2 sottostanti:
    • I VLM sono più efficaci per le attività che possono essere formulate con prompt e istruzioni chiari. Le attività aperte o molto complesse potrebbero essere difficili.
    • Il linguaggio naturale è intrinsecamente complesso. I VLM potrebbero avere difficoltà a cogliere sfumature sottili, sarcasmo o linguaggio figurato.
    • I VLM generano risposte in base alle informazioni apprese dai set di dati di addestramento, ma non sono knowledge base. Potrebbero generare affermazioni fattuali errate o obsolete.
    • I VLM si basano su schemi statistici nel linguaggio e nelle immagini. Potrebbero mancare della capacità di applicare il ragionamento di buon senso in determinate situazioni.
  • PaliGemma 2 è stato progettato principalmente per fungere da modello preaddestrato generale per l'ottimizzazione fine per attività specializzate. Di conseguenza, le sue prestazioni "out of the box" o "zero-shot" potrebbero non essere all'altezza dei modelli progettati appositamente per uso generico.
  • PaliGemma 2 non è un chatbot multi-turno. È progettato per un singolo round di input di immagini e testo.