Pagina del modello: PaliGemma
Risorse e documentazione tecnica:
Termini e condizioni d'uso: Termini
Autori: Google
Informazioni sul modello
Riepilogo modello
Descrizione
PaliGemma è un modello linguistico visivo (VLM) versatile e leggero ispirato a PaLI-3 e basato su componenti aperti come il modello di visione SigLIP e il modello linguistico Gemma. Accetta sia immagini che testo come input e genera testo come output, supportando più lingue. È progettato per offrire prestazioni di ottimizzazione di primo livello su un'ampia gamma di attività di visione e linguaggio, come sottotitoli codificati di immagini e video brevi, risposta a domande visive, lettura di testo, rilevamento e segmentazione di oggetti.
Architettura del modello
PaliGemma è composto da un decoder Transformer e da un encoder di immagini Vision Transformer, con un totale di 3 miliardi di parametri. Il decodificatore di testo viene inizializzato da Gemma-2B. Il codificatore di immagini viene inizializzato da SigLIP-So400m/14. PaliGemma viene addestrato seguendo le ricette di PaLI-3.
Input e output
- Input: stringa di testo e immagine, ad esempio un prompt per aggiungere una didascalia all'immagine o una domanda.
- Output: testo generato in risposta all'input, ad esempio una didascalia dell'immagine, una risposta a una domanda, un elenco di coordinate della casella delimitante dell'oggetto o parole di codice di segmentazione.
Citazione
@article{
title={PaliGemma: A versatile 3B VLM for transfer},
author={Lucas Beyer and Andreas Steiner and André Susano Pinto and Alexander Kolesnikov and Xiao Wang* and Daniel Salz and Maxim Neumann and Ibrahim Alabdulmohsin and Michael Tschannen and Emanuele Bugliarello and Thomas Unterthiner and Daniel Keysers and Skanda Koppula and Fangyu Liu and Adam Grycner and Alexey Gritsenko and Neil Houlsby and Manoj Kumar and Keran Rong and Julian Eisenschlos and Rishabh Kabra and Matthias Bauer and Matko Bošnjak and Xi Chen and Matthias Minderer and Paul Voigtlaender and Ioana Bica and Ivana Balazevic and Joan Puigcerver and Pinelopi Papalampidi and Olivier Henaff and Xi Xiong and Radu Soricut and Jeremiah Harmsen and Xiaohua Zhai},
year={2024},
journal={arXiv preprint arXiv:2407.07726}
}
Dati del modello
Set di dati preaddestrati
PaliGemma è preaddestrato sulla seguente combinazione di set di dati:
- WebLI: WebLI (Web Language Image) è un insieme di dati di testo e immagini multilingue su larga scala sul web creato dal web pubblico. Viene utilizzata una vasta gamma di suddivisioni WebLI per acquisire funzionalità di modelli versatili, come la comprensione semantica visiva, la localizzazione degli oggetti, la comprensione del testo in base alla posizione visiva, la multilinguismo e così via.
- CC3M-35L: coppie di immagini e testo alternativo in inglese selezionate da pagine web (Sharma et al., 2018). Abbiamo utilizzato l'API Google Cloud Translation per tradurre in altre 34 lingue.
- VQ²A-CC3M-35L/VQG-CC3M-35L: un sottoinsieme di VQ2A-CC3M (Changpinyo et al., 2022a), tradotto nelle altre 34 lingue come CC3M-35L, utilizzando l'API Translation di Google Cloud.
- OpenImages: domande e risposte basate sul rilevamento e sugli oggetti (Piergiovanni et al. 2022) generate da regole create manualmente sul set di dati OpenImages.
- WIT: immagini e testi raccolti da Wikipedia (Srinivasan et al., 2021).
Filtro della responsabilità dei dati
I seguenti filtri vengono applicati a WebLI, con l'obiettivo di addestrare PaliGemma su dati puliti:
- Filtro di immagini pornografiche:questo filtro rimuove le immagini ritenute di natura pornografica.
- Filtro di sicurezza del testo:identifichiamo e rimuoviamo le immagini associate a testo non sicuro. Per testo non sicuro si intende qualsiasi testo ritenuto contenente o relativo a immagini pedopornografiche, pornografia, linguaggio volgare o comunque offensivo.
- Filtro per contenuti tossici: utilizziamo inoltre l'API Perspective per identificare e filtrare le immagini associate a testo ritenuto offensivo, osceno, di incitamento all'odio o altrimenti tossico.
- Filtro delle informazioni personali nel testo: abbiamo filtrato determinate informazioni personali e altri dati sensibili utilizzando l'API Cloud Data Loss Prevention (DLP) per proteggere la privacy delle persone. Sono stati rimossi identificatori come i codici fiscali e altri tipi di informazioni sensibili.
- Metodi aggiuntivi: filtri in base alla qualità e alla sicurezza dei contenuti in linea con le nostre norme e pratiche.
Informazioni sull'implementazione
Hardware
PaliGemma è stato addestrato utilizzando l'hardware (TPUv5e) di Tensor Processing Unit (TPU) di ultima generazione.
Software
L'addestramento è stato completato utilizzando JAX,
Flax,
TFDS e
big_vision
.
JAX consente ai ricercatori di sfruttare l'hardware di ultima generazione, tra cui le TPU, per un addestramento più rapido ed efficiente di modelli di grandi dimensioni.
TFDS viene utilizzato per accedere ai set di dati e Flax per l'architettura del modello. Il codice di ottimizzazione fine e il codice di inferenza di PaliGemma vengono rilasciati nel big_vision
repository GitHub.
Informazioni sulla valutazione
Risultati del benchmark
Per verificare la trasferibilità di PaliGemma a un'ampia gamma di compiti accademici, perfezioniamo i modelli preaddestrati su ogni compito. Inoltre, addestriamo il modello misto con una combinazione di attività di trasferimento. Reportiamo i risultati su diverse risoluzioni per dare un'idea delle attività che traggono vantaggio da una risoluzione più elevata. È importante sottolineare che nessuna di queste attività o di questi set di dati fa parte della miscela di dati di pre-addestramento e le relative immagini vengono rimosse esplicitamente dai dati di pre-addestramento su larga scala.
Attività singola (ottimizzazione su un'attività singola)
Benchmark (suddivisione in gruppi) | Metrica (split) | pt-224 | pt-448 | pt-896 |
---|---|---|---|---|
Sottotitoli codificati | ||||
Sottotitoli codificati COCO (train+restval) | CIDEr (val) | 141,92 | 144,60 | |
NoCaps (valutazione del trasferimento dei sottotitoli codificati COCO) | CIDEr (val) | 121,72 | 123,58 | |
COCO-35L (treno) | Dev CIDEr (en/avg-34/avg) |
|
|
|
XM3600 (valutazione del trasferimento di COCO-35L) | Dev CIDEr (en/avg-34/avg) |
|
|
|
TextCaps (addestramento) | CIDEr (val) | 127,48 | 153,94 | |
SciCap (prima frase, nessuna sottofigura) (training+val) | CIDEr/BLEU-4 (test) |
|
|
|
Screen2words (training e sviluppo) | CIDEr (test) | 117,57 | 119,59 | |
Sottotitoli codificati dei widget (training e sviluppo) | CIDEr (test) | 136,07 | 148,36 | |
Question answering | ||||
VQAv2 (addestramento + convalida) | Precisione (server di test - dev. standard) | 83,19 | 85,64 | |
MMVP (valutazione del trasferimento VQAv2) | Accuratezza accoppiata | 47,33 | 45,33 | |
POPE (valutazione del trasferimento di VQAv2) | Precisione (casuale/popolare/adversaria) |
|
|
|
OKVQA (treno) | Precisione (val) | 63,54 | 63,15 | |
A-OKVQA (MC) (train+val) | Accuratezza (server di test) | 76,37 | 76,90 | |
A-OKVQA (DA) (train+val) | Accuratezza (server di test) | 61,85 | 63,22 | |
GQA (train_balanced+val_balanced) | Accuratezza (testdev bilanciato) | 65,61 | 67,03 | |
xGQA (valutazione del trasferimento GQA) | Precisione media (bn, de, en, id, ko, pt, ru, zh) | 58,37 | 59,07 | |
NLVR2 (addestramento e sviluppo) | Accuratezza (test) | 90,02 | 88,93 | |
MaRVL (valutazione del trasferimento di NLVR2) | Precisione media (test) (id, sw, ta, tr, zh) | 80,57 | 76,78 | |
AI2D (treno) | Accuratezza (test) | 72,12 | 73,28 | |
ScienceQA (sottoinsieme di immagini, senza CoT) (train+val) | Accuratezza (test) | 95,39 | 95,93 | |
RSVQA-LR (non numerico) (train+val) | Accuratezza media (test) | 92,65 | 93,11 | |
RSVQA-HR (non numerico) (train+val) | Precisione media (test/test2) |
|
|
|
ChartQA (umano+aumento) x(addestramento+valutazione) | Precisione media rilassata (test_human, test_aug) | 57,08 | 71,36 | |
VizWiz VQA (train+val) | Precisione (server di test - dev. standard) | 73,7 | 75,52 | |
TallyQA (addestramento) | Precisione (test_simple/test_complex) |
|
|
|
OCR-VQA (train+val) | Accuratezza (test) | 72,32 | 74,61 | 74,93 |
TextVQA (train+val) | Precisione (server di test - dev. standard) | 55,47 | 73,15 | 76,48 |
DocVQA (train+val) | ANLS (server di test) | 43,74 | 78,02 | 84,77 |
Infografica VQA (training+val) | ANLS (server di test) | 28,46 | 40,47 | 47,75 |
VQA SceneText (train+val) | ANLS (server di test) | 63,29 | 81,82 | 84,40 |
Segmentazione | ||||
RefCOCO (refcoco, refcoco+, refcocog combinati, escluse le immagini di val e test) | MIoU (convalida) refcoco/refcoco+/refcocog |
|
|
|
Attività video (sottotitoli codificati/QA) | ||||
MSR-VTT (sottotitoli codificati) | CIDEr (test) | 70,54 | ||
MSR-VTT (QA) | Accuratezza (test) | 50,09 | ||
ActivityNet (sottotitoli codificati) | CIDEr (test) | 34,62 | ||
ActivityNet (QA) | Accuratezza (test) | 50,78 | ||
VATEX (sottotitoli codificati) | CIDEr (test) | 79,73 | ||
MSVD (QA) | Accuratezza (test) | 60,22 |
Modello misto (ottimizzazione in base alla combinazione di attività di trasferimento)
Benchmark | Metrica (split) | mix-224 | mix-448 |
---|---|---|---|
MMVP | Accuratezza accoppiata | 46,00 | 45,33 |
POPE | Precisione (casuale/popolare/adversaria) |
|
|
Etica e sicurezza
Approccio di valutazione
I nostri metodi di valutazione includono valutazioni strutturate e test di red team interni delle norme relative ai contenuti pertinenti. L'attività di red teaming è stata condotta da diversi team, ognuno con obiettivi e metriche di valutazione umana diversi. Questi modelli sono stati valutati in base a una serie di categorie diverse pertinenti a etica e sicurezza, tra cui:
- Valutazione umana di prompt che riguardano la sicurezza dei bambini, la sicurezza dei contenuti e i danni causati dalla rappresentazione. Per maggiori dettagli sull'approccio di valutazione, consulta la scheda del modello Gemma, ma con le configurazioni di risposta alle domande visive e di generazione di didascalie per le immagini.
- Valutazione del benchmark di conversione di immagini in testo: benchmark rispetto a set di dati accademici pertinenti come FairFace Dataset (Karkkainen et al., 2021).
Risultati valutazione
- I risultati delle valutazioni umane relative a etica e sicurezza rientrano in ngưỡng accettabili per rispettare le norme interne per categorie come sicurezza dei bambini, sicurezza dei contenuti e danni rappresentati.
- Oltre a valutazioni interne rigorose, utilizziamo anche l'API Perspective (soglia di 0, 8) per misurare la tossicità, il linguaggio volgare e altri potenziali problemi nei sottotitoli codificati generati per le immagini provenienti dal set di dati FairFace. Vengono riportati i valori massimi e medi osservati nei sottogruppi per ciascuno degli attributi percepiti di genere, etnia ed età.
Metrica | Genere percepito | Etnia | Fascia d'età | |||
---|---|---|---|---|---|---|
Massimo | Mediana | Massimo | Mediana | Massimo | Mediana | |
Tossicità | 0,04% | 0,03% | 0,08% | 0,00% | 0,09% | 0,00% |
Attacco all'identità | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% |
Insulti | 0,06% | 0,04% | 0,09% | 0,07% | 0,16% | 0,00% |
Minaccia | 0,06% | 0,05% | 0,14% | 0,05% | 0,17% | 0,00% |
Linguaggio volgare | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% |
Utilizzo e limitazioni
Utilizzo previsto
I modelli linguistici di Open Vision (VLM) hanno un'ampia gamma di applicazioni in vari settori e domini. Il seguente elenco di potenziali utilizzi non è completo. Lo scopo di questo elenco è fornire informazioni contestuali sui possibili casi d'uso che gli autori del modello hanno preso in considerazione durante l'addestramento e lo sviluppo del modello. Gli usi vietati dei modelli Gemma sono descritti nelle Norme relative all'uso vietato di Gemma.
Ottimizzazione in un'attività specifica di visione e linguaggio:
- I modelli preaddestrati possono essere perfezionati su un'ampia gamma di attività legate alla visione e al linguaggio, come l'inserimento di didascalie per immagini, la trascrizione di video brevi, la risposta a domande visive, la lettura di testo, il rilevamento e la segmentazione degli oggetti.
- I modelli pre-addestrati possono essere ottimizzati per domini specifici, come la risposta a domande sul rilevamento remoto, le domande visive di persone cieche, la risposta a domande scientifiche e la descrizione delle funzionalità degli elementi dell'interfaccia utente.
- I modelli preaddestrati possono essere ottimizzati per attività con output non di testo, come riquadri di delimitazione o maschere di segmentazione.
Ricerca sulla visione e sul linguaggio:
- I modelli preaddestrati e ottimizzati possono servire da base per sperimentare tecniche VLM, sviluppare algoritmi e contribuire allo sviluppo del settore.
Considerazioni etiche e rischi
Lo sviluppo di modelli linguistici visivi (VLM) solleva diversi problemi di natura etico. Nel creare un modello aperto, abbiamo preso in considerazione attentamente quanto segue:
- Bias ed equità
- I VLM addestrati su dati di testo e immagini reali di grandi dimensioni possono riflettere bias socio-culturali incorporati nel materiale di addestramento. Questi modelli sono stati sottoposti a un'attenta verifica, al pretrattamento dei dati di input descritto e alle valutazioni successive riportate in questa scheda.
- Disinformazione e uso improprio
- I VLM possono essere utilizzati in modo improprio per generare testo falso, fuorviante o dannoso.
- Per l'uso responsabile del modello sono fornite linee guida, consulta il Responsible Generative AI Toolkit.
- Trasparenza e responsabilizzazione
- Questa scheda del modello riassume i dettagli sull'architettura, sulle funzionalità, sulle limitazioni e sui processi di valutazione dei modelli.
- Un modello aperto sviluppato in modo responsabile offre l'opportunità di condividere l'innovazione rendendo la tecnologia VLM accessibile a sviluppatori e ricercatori dell'ecosistema dell'IA.
Rischi identificati e mitigazioni:
- Perpetuazione dei bias: ti invitiamo a eseguire un monitoraggio continuo (utilizzando metriche di valutazione, revisione umana) e a esplorare tecniche di rimozione dei bias durante l'addestramento del modello, l'ottimizzazione e altri casi d'uso.
- Genesi di contenuti dannosi: sono essenziali meccanismi e linee guida per la sicurezza dei contenuti. Gli sviluppatori sono invitati a prestare attenzione e implementare misure di salvaguardia della sicurezza dei contenuti appropriate in base alle loro specifiche norme relative ai prodotti e ai casi d'uso delle applicazioni.
- Uso improprio a scopo dannoso: le limitazioni tecniche e la formazione di sviluppatori e utenti finali possono contribuire a mitigare le applicazioni dannose degli LLM. Sono fornite risorse didattiche e meccanismi di segnalazione per consentire agli utenti di segnalare gli abusi: consulta il toolkit per l'IA generativa responsabile. Gli usi vietati dei modelli Gemma sono descritti nelle Norme relative all'uso vietato di Gemma.
- Violazioni della privacy: i modelli sono stati addestrati su dati filtrati per rimuovere determinate informazioni personali e dati sensibili. Gli sviluppatori sono invitati a rispettare le normative sulla privacy con tecniche incentrate sulla tutela della privacy.
Limitazioni
- Si applicano ancora la maggior parte delle limitazioni ereditate dal modello Gemma sottostante:
- I VLM sono più efficaci per le attività che possono essere delineate con prompt e istruzioni chiari. Le attività aperte o molto complesse potrebbero essere difficili.
- Il linguaggio naturale è intrinsecamente complesso. I VLM potrebbero avere difficoltà a cogliere sfumature sottili, sarcasmo o linguaggio figurato.
- I VLM generano risposte in base alle informazioni apprese dai set di dati di addestramento, ma non sono knowledge base. Potrebbero generare affermazioni fattuali errate o obsolete.
- I VLM si basano su schemi statistici nel linguaggio e nelle immagini. Potrebbero mancare della capacità di applicare il ragionamento di buon senso in determinate situazioni.
- PaliGemma è stato progettato principalmente per fungere da modello pre-addestrato generico per la messa a punto di attività specializzate. Di conseguenza, le sue prestazioni "out of the box" o "zero-shot" potrebbero non essere all'altezza dei modelli progettati specificamente per uso generale.
- PaliGemma non è un chatbot multi-turno. È progettato per un singolo ciclo di input di immagini e testo.