Dai un'occhiata al repository del libro di ricette di Gemma per esempi di generazione e ottimizzazione. Scopri di più

Questa pagina è stata tradotta dall'API Cloud Translation.

Scheda del modello PaliGemma

Pagina modello: PaliGemma

Risorse e documentazione tecnica:

Termini e condizioni d'uso: termini

Autori:Google

Informazioni sul modello

Riepilogo modello

Descrizione

PaliGemma è un modello linguistico di visione (VLM) versatile e leggero, ispirato PaLI-3 e si basano su componenti aperti come il modello di visione SigLIP e il modello Gemma linguistico di grandi dimensioni. Prende sia immagine che testo come input e genera testo come output, supportando più lingue. È progettato per ottimizzare prestazioni ai vertici della categoria su un'ampia gamma attività di linguaggio visivo come le didascalie di immagini e brevi video, le domande visive risposta, lettura del testo, rilevamento degli oggetti e segmentazione degli oggetti.

Architettura del modello

PaliGemma è la composizione di un Transformer decoder e un'immagine Vision Transformer codificatore, con un totale di 3 miliardi di parametri. Il decoder di testo è inizializzato Gemma-2B. Il codificatore delle immagini inizializzato da SigLIP-So400m/14. PaliGemma viene addestrata seguendo le ricette PaLI-3.

Input e output

Input: immagine e stringa di testo, ad esempio un prompt per aggiungere una didascalia all'immagine oppure una domanda.
Output: testo generato in risposta all'input, ad esempio una didascalia di l'immagine, la risposta a una domanda, un elenco di riquadri di delimitazione degli oggetti coordinate o parole in codice di segmentazione.

Dati del modello

Set di dati preaddestrati

PaliGemma è preaddestrato sulla seguente combinazione di set di dati:

WebLI: WebLI (Web Language Image) è un set di dati con testo di immagini multilingue su scala web creato dal web pubblico. R un'ampia gamma di suddivisioni WebLI viene utilizzata per acquisire funzionalità di modelli versatili, come comprensione semantica visiva, localizzazione di oggetti, comprensione del testo strutturata visivamente, multilingualità ecc.
CC3M-35L: coppie selezionate di image-alt_text in inglese da pagine web (Sharma et al., 2018). Abbiamo utilizzato Google Cloud l'API Translation per tradurre in 34 lingue aggiuntive.
VQ²A-CC3M-35L/VQG-CC3M-35L: un sottoinsieme di VQ2A-CC3M (Changpinyo et al., 2022a), tradotto in le stesse 34 lingue aggiuntive di CC3M-35L, utilizzando lo strumento Google Cloud l'API Translation.
OpenImages: domande e risposte sul rilevamento e su oggetti (Piergiovanni et al. 2022) generati da personalizzate nel set di dati OpenImages.
WIT: immagini e testi raccolti da Wikipedia (Srinivasan et al., 2021).

Filtro della responsabilità dei dati

I seguenti filtri vengono applicati a WebLI, con l'obiettivo di addestrare PaliGemma sulla presenza di dati puliti:

Filtro delle immagini pornografiche: questo filtro rimuove le immagini considerate come natura pornografica.
Filtro di sicurezza del testo:identifichiamo e filtriamo le immagini abbinate con testo non sicuro. Per testo non sicuro si intende qualsiasi testo ritenuto contenente o di cui Immagini pedopornografiche, volgarità o contenuti offensivi.
Filtro per tossicità del testo: utilizziamo ulteriormente la funzionalità Perspective API per identificare e filtrare le immagini che vengono abbinata a testi ritenuti offensivi, osceni, che incitano all'odio o comunque tossici.
Filtro delle informazioni personali nel testo: abbiamo filtrato alcune informazioni personali informazioni e altri dati sensibili utilizzando Cloud Data Loss Prevention (DLP)per proteggere la privacy delle persone. Identificatori come codici fiscali e sono stati rimossi altri tipi di informazioni sensibili.
Metodi aggiuntivi: filtri basati sulla qualità e sulla sicurezza dei contenuti in in linea con le nostre norme e prassi.

Informazioni sull'implementazione

Hardware

PaliGemma è stato addestrato utilizzando la Tensor Processing Unit di ultima generazione Hardware (TPU) (TPUv5e).

Software

L'addestramento è stato svolto utilizzando JAX, Lino TFDS e big_vision

JAX consente ai ricercatori di sfruttare l'ultima generazione di hardware, incluse le TPU, per un addestramento più rapido ed efficiente di modelli di grandi dimensioni.

TFDS viene utilizzato per accedere ai set di dati, mentre Flax viene utilizzato per l'architettura del modello. La Il codice di ottimizzazione PaliGemma e il codice di inferenza vengono rilasciati nel big_vision GitHub di ASL.

Informazioni sulla valutazione

Risultati dei benchmark

Per verificare la trasferibilità di PaliGemma a un'ampia varietà di nelle attività accademiche, perfezioniamo i modelli preaddestrati su ogni attività. Inoltre, ti il modello mix con una combinazione di attività di trasferimento. Registriamo i risultati relativi a diverse risoluzioni per dare un'idea di quali attività traggono vantaggio una maggiore risoluzione. È importante sottolineare che nessuna di queste attività o nessuna di queste la combinazione di dati di preaddestramento e le relative immagini vengono rimosse esplicitamente dati di preaddestramento su scala web.

Attività singola (ottimizza su una singola attività)

Benchmark (suddivisione treni)	Metrica (diviso)	pt-224	pt-448	pt-896
Sottotitoli codificati
Sottotitoli COCO (treno+restval)	CIDEr (val)	141,92	144,60
NoCaps (valutazione del trasferimento dei sottotitoli codificati COCO)	CIDEr (val)	121,72	123,58
COCO-35L (treno)	Sviluppo CIDEr (en/avg-34/avg)	139,2 115,8 116,40	141,2 118,0 118,6
XM3600 (valutazione del trasferimento di COCO-35L)	Sviluppo CIDEr (en/avg-34/avg)	78,1 41,30 42,40	80,0 41,9 42,9
TextCaps (addestramento)	CIDEr (val)	127,48	153,94
SciCap (prima frase, senza sottofigura) (train+val)	CIDEr/BLEU-4 (test)	162,25 0,192	181,49 0,211
Screen2words (addestramento+dev)	CIDEr (test)	117,57	119,59
Sottotitoli codificati per i widget (train+dev)	CIDEr (test)	136,07	148,36
Question answering
VQAv2 (addestramento+convalida)	Precisione (server di test - std)	83,19	85,64
MMVP (valutazione del trasferimento VQAv2)	Precisione accoppiata	47,33	45,33
POPE (valutazione del trasferimento VQAv2)	Accuratezza (casuale/popolare/avversaria)	87,80 85,87 84,27	88,23 86,77 85,90
OKVQA (treno)	Accuratezza (val)	63,54	63,15
A-OKVQA (MC) (addestramento+val)	Precisione (server di test)	76,37	76,90
A-OKVQA (DA) (addestramento+val)	Precisione (server di test)	61,85	63,22
GQA (addestramento_bilanciato+val_bilanciato)	Precisione (testdev bilanciato)	65,61	67,03
xGQA (valutazione del trasferimento GQA)	Accuratezza media (bn, de, en, id, ko, pt, ru, zh)	58,37	59,07
NLVR2 (addestramento+sviluppo)	Precisione (test)	90,02	88,93
MaRVL (valutazione del trasferimento NLVR2)	Accuratezza media (test) (id, sw, ta, tr, zh)	80,57	76,78
AI2D (treno)	Precisione (test)	72,12	73,28
ScienceQA (sottogruppo Img, senza CoT) (addestramento+val)	Precisione (test)	95,39	95,93
RSVQA-LR (non numerico) (addestramento+val)	Accuratezza media (test)	92,65	93,11
RSVQA-HR (non numerico) (addestramento+val)	Accuratezza media (test/test2)	92,61 90,58	92,79 90,54
ChartQA (umano+aug)x(addestramento+val)	Precisione media rilassata (test_human, test_aug)	57,08	71,36
VQA VizWiz (treno+val)	Precisione (server di test - std)	73,7	75,52
TallyQA (treno)	Accuratezza (test_simple/test_complex)	81,72 69,56	84,86 72,27
OCR-VQA (addestramento+val)	Precisione (test)	72,32	74,61	74,93
TextVQA (addestramento+val)	Precisione (server di test - std)	55,47	73,15	76,48
DocVQA (addestramento+val)	ANLS (server di test)	43,74	78,02	84,77
VQA infografica (addestramento+val)	ANLS (server di test)	28,46	40,47	47,75
VQA di SceneText (training+val)	ANLS (server di test)	63,29	81,82	84,40
Segmentazione
RefCOCO (combinato refcoco, refcoco+, refcocog, escluse le immagini val e di test)	MIoU (convalida) refcoco/refcoco+/refcocog	73,40 68,32 67,65	75,57 69,76 70,17	76,94 72,18 72,22
Attività video (sottotitoli codificati/QA)
MSR-VTT (sottotitoli codificati)	CIDEr (test)	70,54
MSR-VTT (QA)	Precisione (test)	50,09
ActivityNet (sottotitoli codificati)	CIDEr (test)	34,62
ActivityNet (QA)	Precisione (test)	50,78
VATEX (sottotitoli codificati)	CIDEr (test)	79,73
MSVD (QA)	Precisione (test)	60,22

Combina il modello (ottimizza un mix di attività di trasferimento)

Benchmark	Metrica (diviso)	mix-224	mix-448
MMVP	Precisione accoppiata	46,00	45,33
POPA	Accuratezza (casuale/popolare/avversaria)	88,00 86,63 85,67	89,37 88,40 87,47

Benchmark

Metrica (diviso)

mix-224

mix-448

MMVP

Precisione accoppiata

46,00

45,33

POPA

Accuratezza (casuale/popolare/avversaria)

88,00

86,63

85,67

89,37

88,40

87,47

Etica e sicurezza

Approccio di valutazione

I nostri metodi di valutazione includono valutazioni strutturate e il red teaming interno il test delle norme relative ai contenuti pertinenti. Il red teaming è stato condotto da team diversi, ciascuno con obiettivi e metriche di valutazione umana diversi. Questi sono stati valutati sulla base di varie categorie pertinenti sicurezza e etica, tra cui:

Valutazione da parte di persone fisiche sui prompt relativi a sicurezza dei bambini, sicurezza dei contenuti e rappresentativi. Vedi il modello Gemma scheda per maggiori dettagli sull'approccio di valutazione, ma con le didascalie delle immagini e le configurazioni di question answering.
Valutazione dei benchmark di immagine-testo: confronto con i dati accademici pertinenti come il set di dati FairFace (Karkkainen et al., 2021).

Risultati valutazione

I risultati delle valutazioni da parte di persone fisiche delle valutazioni etiche e della sicurezza rientrano soglie accettabili per il raggiungimento di norme per categorie come sicurezza dei minori, sicurezza dei contenuti e rappresentanza danni.
Oltre alle solide valutazioni interne, usiamo anche l'API Perspective (soglia di 0, 8) per misurare tossicità, linguaggio volgare e altri potenziali problemi nelle didascalie generate per le immagini provenienti da FairFace del set di dati. Registriamo i valori massimi e mediani osservati nei sottogruppi per ognuno degli attributi percepiti su genere, etnia ed età.

Metrica	Genere percepito		Etnia		Fascia d'età
	Massimo	Mediana	Massimo	Mediana	Massimo	Mediana
Tossicità	0,04%	0,03%	0,08%	0,00%	0,09%	0,00%
Attacco all’identità	0,00%	0,00%	0,00%	0,00%	0,00%	0,00%
Insulti	0,06%	0,04%	0,09%	0,07%	0,16%	0,00%
Minaccia	0,06%	0,05%	0,14%	0,05%	0,17%	0,00%
Linguaggio volgare	0,00%	0,00%	0,00%	0,00%	0,00%	0,00%

Utilizzo e limitazioni

Uso previsto

I modelli Open Vision Language (VLM) hanno una vasta gamma di applicazioni in vari settori e domini. Il seguente elenco di potenziali utilizzi non esaustive. Lo scopo di questo elenco è fornire informazioni contestuali casi d'uso che i creator consideravano parte del modello dell'addestramento e dello sviluppo.

Perfeziona un'attività specifica basata sul linguaggio di visione:

I modelli preaddestrati possono essere perfezionati su un'ampia gamma di linguaggi di visione artificiale attività come: didascalie delle immagini, brevi didascalie di video, domande visive risposta, lettura del testo, rilevamento degli oggetti e segmentazione degli oggetti.
I modelli preaddestrati possono essere ottimizzati per domini specifici come risposte a domande sensibili, domande visive da parte di persone cieche, risposte a domande scientifiche, descrivere le funzionalità degli elementi UI.
I modelli preaddestrati possono essere ottimizzati per attività con output non testuali come riquadri di delimitazione o maschere di segmentazione.

Ricerca sul linguaggio visivo:

I modelli preaddestrati e i modelli perfezionati possono servire da base per ai ricercatori di sperimentare le tecniche VLM, sviluppare algoritmi contribuiscono all'avanzamento del settore.

Considerazioni etiche e rischi

Lo sviluppo di modelli linguistici di visione artificiale (VLM) solleva diverse le preoccupazioni dei clienti. Durante la creazione di un modello aperto, abbiamo considerato attentamente i seguenti aspetti:

Pregiudizi ed equità
- I VLM addestrati su dati di testo di immagini reali su larga scala possono riflettere pregiudizi socio-culturali incorporati nel materiale formativo. Questi modelli sono stati sottoposti a un attento esame, la pre-elaborazione dei dati di input è stata descritta e valutazioni a posteriori riportate in questa scheda.
Disinformazione e uso improprio
- I VLM possono essere utilizzati in modo improprio per generare testo falso, fuorviante o dannoso.
- Vengono fornite linee guida per un uso responsabile del modello; consultare Toolkit per l'IA generativa responsabile.
Trasparenza e responsabilità
- Questa scheda del modello riassume i dettagli dei modelli dell'architettura, capacità, limitazioni e processi di valutazione.
- Un modello aperto sviluppato in modo responsabile offre l'opportunità di innovazione rendendo la tecnologia VLM accessibile agli sviluppatori ricercatori di tutto l'ecosistema IA.

Rischi identificati e mitigazioni:

Perpetuazione dei bias: ti consigliamo di eseguire un monitoraggio continuo (utilizzando metriche di valutazione, revisione da parte di persone fisiche) ed esplorando il de-bias tecniche di addestramento durante l'addestramento del modello, l'ottimizzazione e altri casi d'uso.
Generazione di contenuti dannosi:meccanismi e linee guida per i contenuti sono essenziali. Gli sviluppatori sono invitati a prestare attenzione e implementare misure di sicurezza appropriate per la sicurezza dei contenuti in base alle le norme sui prodotti e i casi d'uso delle applicazioni.
Uso improprio per scopi illeciti: limitazioni tecniche e implementazione degli sviluppatori e la formazione dell'utente finale può contribuire a mitigare le applicazioni dannose degli LLM. Le risorse didattiche e i meccanismi di segnalazione per segnalare un uso improprio sono fornito: vedi Toolkit per l'IA generativa responsabile. Utilizzi vietati di Gemma sono descritti nelle Norme relative all'uso vietato di Gemma.
Violazioni della privacy: i modelli sono stati addestrati su dati filtrati per la rimozione alcune informazioni personali e dati sensibili. Incoraggiamo gli sviluppatori di rispettare le normative sulla privacy con tecniche che tutelano la privacy.

Limitazioni

La maggior parte delle limitazioni ereditate dal modello Gemma sottostante rimangono valide:
- I VLM sono migliori nelle attività che possono essere incorniciate con prompt chiari e istruzioni. Le attività aperte o molto complesse potrebbero essere complesse.
- Il linguaggio naturale è intrinsecamente complesso. I VLM potrebbero avere difficoltà a comprendere sottili sfumature, sarcasmo o linguaggio figurativo.
- I VLM generano risposte in base alle informazioni apprese dai loro per l'addestramento, ma non sono knowledge base. Potrebbero generare affermazioni fattuali errate o obsolete.
- I VLM si basano su pattern statistici nel linguaggio e nelle immagini. Potrebbero non sono in grado di applicare il ragionamento di buon senso in determinate situazioni.
PaliGemma è stato progettato innanzitutto come un team preaddestrato per l'ottimizzazione di attività specializzate. Pertanto, è "pronta all'uso" o "zero-shot" potrebbero essere inferiori rispetto ai modelli progettati specificamente per quello.
PaliGemma non è un chatbot multi-turno. È progettata per un singolo round input di immagini e testo.