Faqja e modelit: PaliGemma
Burimet dhe dokumentacioni teknik:
Kushtet e Përdorimit: Kushtet
Autorët: Google
Informacioni i modelit
Përmbledhja e modelit
Përshkrimi
PaliGemma është një model i gjithanshëm dhe i lehtë i gjuhës së vizionit (VLM) i frymëzuar nga PaLI-3 dhe i bazuar në komponentë të hapur si modeli i vizionit SigLIP dhe modeli i gjuhës Gemma . Ai merr si hyrje imazhin ashtu edhe tekstin dhe gjeneron tekst si dalje, duke mbështetur shumë gjuhë. Ai është projektuar për performancën më të mirë të klasit në një gamë të gjerë detyrash në gjuhën e vizionit, si për shembull titrat e imazheve dhe videove të shkurtra, përgjigjet vizuale të pyetjeve, leximin e tekstit, zbulimin e objekteve dhe segmentimin e objekteve.
Arkitektura model
PaliGemma është përbërja e një dekoderi Transformer dhe një koduesi imazhi Vision Transformer , me një total prej 3 miliardë parametrash. Dekoderi i tekstit është inicializuar nga Gemma-2B . Koduesi i imazhit është inicializuar nga SigLIP-So400m/14 . PaliGemma është trajnuar duke ndjekur recetat PaLI-3.
Inputet dhe daljet
- Hyrja: Imazh dhe varg teksti, si p.sh. një kërkesë për të nëntitruar imazhin ose një pyetje.
- Dalja: Teksti i gjeneruar në përgjigje të hyrjes, të tilla si një titull i imazhit, një përgjigje për një pyetje, një listë e koordinatave të kutisë kufizuese të objekteve ose fjalë kodike të segmentimit.
Citim
@article{
title={PaliGemma: A versatile 3B VLM for transfer},
author={Lucas Beyer and Andreas Steiner and André Susano Pinto and Alexander Kolesnikov and Xiao Wang* and Daniel Salz and Maxim Neumann and Ibrahim Alabdulmohsin and Michael Tschannen and Emanuele Bugliarello and Thomas Unterthiner and Daniel Keysers and Skanda Koppula and Fangyu Liu and Adam Grycner and Alexey Gritsenko and Neil Houlsby and Manoj Kumar and Keran Rong and Julian Eisenschlos and Rishabh Kabra and Matthias Bauer and Matko Bošnjak and Xi Chen and Matthias Minderer and Paul Voigtlaender and Ioana Bica and Ivana Balazevic and Joan Puigcerver and Pinelopi Papalampidi and Olivier Henaff and Xi Xiong and Radu Soricut and Jeremiah Harmsen and Xiaohua Zhai},
year={2024},
journal={arXiv preprint arXiv:2407.07726}
}
Të dhënat e modelit
Të dhënat para trenit
PaliGemma është para-trajnuar në përzierjen e mëposhtme të grupeve të të dhënave:
- WebLI: WebLI (Imazhi i Gjuhës së Uebit) është një grup të dhënash me tekst shumëgjuhësh imazhi në shkallë uebi, i ndërtuar nga uebi publik. Një gamë e gjerë ndarjesh WebLI përdoren për të përvetësuar aftësi të gjithanshme të modelit, të tilla si kuptimi semantik vizual, lokalizimi i objekteve, kuptimi i tekstit me vendndodhje vizuale, shumëgjuhësia, etj.
- CC3M-35L: Çifte të kuruara në anglisht image-alt_text nga faqet e internetit ( Sharma et al., 2018 ). Ne përdorëm Google Cloud Translation API për të përkthyer në 34 gjuhë të tjera.
- VQ²A-CC3M-35L/VQG-CC3M-35L: Një nëngrup i VQ2A-CC3M ( Changpinyo et al., 2022a ), i përkthyer në të njëjtat 34 gjuhë të tjera si CC3M-35L, duke përdorur Google Cloud Translation API .
- OpenImages: Pyetje dhe përgjigje për zbulimin dhe objektin ( Piergiovanni et al. 2022 ) të krijuara nga rregulla të punuara me dorë në grupin e të dhënave OpenImages .
- WIT: Imazhe dhe tekste të mbledhura nga Wikipedia ( Srinivasan et al., 2021 ).
Filtrimi i përgjegjësisë së të dhënave
Filtrat e mëposhtëm aplikohen në WebLI, me qëllim të trajnimit të PaliGemma mbi të dhënat e pastra:
- Filtrimi i imazheve pornografike: Ky filtër heq imazhet që konsiderohen të jenë të natyrës pornografike.
- Filtrimi i sigurisë së tekstit: Ne identifikojmë dhe filtrojmë imazhet që janë çiftuar me tekst të pasigurt. Tekst i pasigurt është çdo tekst që konsiderohet se përmban ose ka të bëjë me imazhet e abuzimit seksual të fëmijëve (CSAI), pornografinë, vulgaritetet ose është ndryshe fyes.
- Filtrimi i toksicitetit të tekstit: Ne përdorim më tej API-në Perspective për të identifikuar dhe filtruar imazhet që çiftëzohen me tekst të konsideruar fyes, të turpshëm, të urryer ose ndryshe toksik.
- Filtrimi i informacionit personal me tekst: Ne filtruam disa informacione personale dhe të dhëna të tjera të ndjeshme duke përdorur API-në e Parandalimit të Humbjes së të Dhënave në renë kompjuterike (DLP) për të mbrojtur privatësinë e individëve. Identifikuesit si numrat e sigurimeve shoqërore dhe lloje të tjera të ndjeshme informacioni u hoqën.
- Metodat shtesë: Filtrimi i bazuar në cilësinë dhe sigurinë e përmbajtjes në përputhje me politikat dhe praktikat tona.
Informacioni i zbatimit
Hardware
PaliGemma u trajnua duke përdorur gjeneratën e fundit të harduerit Tensor Processing Unit (TPU) (TPUv5e).
Software
Trajnimi u përfundua duke përdorur JAX , Flax , TFDS dhe big_vision
.
JAX i lejon studiuesit të përfitojnë nga gjenerata e fundit e pajisjeve, duke përfshirë TPU-të, për trajnim më të shpejtë dhe më efikas të modeleve të mëdha.
TFDS përdoret për të aksesuar grupet e të dhënave dhe Liri përdoret për arkitekturën e modelit. Kodi i rregullimit të imët PaliGemma dhe kodi i konkluzionit lëshohen në depon e big_vision
GitHub.
Informacioni i vlerësimit
Rezultatet e standardeve
Për të verifikuar transferueshmërinë e PaliGemma në një shumëllojshmëri të gjerë detyrash akademike, ne rregullojmë modelet e paratrajnuara për secilën detyrë. Përveç kësaj, ne trajnojmë modelin e përzierjes me një përzierje të detyrave të transferimit. Ne raportojmë rezultatet për rezolucione të ndryshme për të dhënë një përshtypje se cilat detyra përfitojnë nga zgjidhja e shtuar. E rëndësishmja, asnjë nga këto detyra ose grupe të dhënash nuk është pjesë e përzierjes së të dhënave të para-trajnimit dhe imazhet e tyre hiqen në mënyrë të qartë nga të dhënat e para-stërvitjes në shkallë të internetit.
Detyrë e vetme (përshtatje në detyrë të vetme)
Standardi (ndarja e trenit) | Metrikë (ndarje) | pt-224 | pt-448 | pt-896 |
---|---|---|---|---|
Titra | ||||
Titrat e COCO-s (tren + pushim) | MUSHT (val) | 141,92 | 144.60 | |
NoCaps (Eval i transferimit të titrave COCO) | MUSHT (val) | 121,72 | 123,58 | |
COCO-35L (tren) | CIDEr zhvillues (en/mesatar-34/mesatar) | |||
XM3600 (Vlerësimi i transferimit të COCO-35L) | CIDEr zhvillues (en/mesatar-34/mesatar) | |||
TextCaps (tren) | MUSHT (val) | 127,48 | 153,94 | |
SciCap (fjalia e parë, pa nënfigurë) (tren+val) | CIDER/BLEU-4 (test) | |||
Screen2words (tren+dev) | CIDER (test) | 117,57 | 119,59 | |
Titrat e miniaplikacioneve (tren+dev) | CIDER (test) | 136.07 | 148,36 | |
Pyetje përgjigje | ||||
VQAv2 (tren+vlefshmëria) | Saktësia (Serveri i testimit - std) | 83,19 | 85,64 | |
MMVP (Vlerësimi i transferimit VQAv2) | Saktësia e çiftuar | 47,33 | 45,33 | |
POPE (Eval i transferimit të VQAv2) | Saktësia (e rastësishme / popullore / kundërshtare) | |||
OKVQA (tren) | Saktësia (val) | 63,54 | 63.15 | |
A-OKVQA (MC) (tren+val) | Saktësia (Serveri i testimit) | 76,37 | 76,90 | |
A-OKVQA (DA) (tren+val) | Saktësia (Serveri i testimit) | 61,85 | 63,22 | |
GQA (train_balanced+val_balanced) | Saktësia (testdev i balancuar) | 65,61 | 67.03 | |
xGQA (Vlerësimi i transferimit të GQA) | Saktësia mesatare (bn, de, en, id, ko, pt, ru, zh) | 58,37 | 59.07 | |
NLVR2 (tren+dev) | Saktësia (test) | 90.02 | 88,93 | |
MaRVL (vlerësimi i transferimit të NLVR2) | Saktësia mesatare (test) (id, sw, ta, tr, zh) | 80,57 | 76,78 | |
AI2D (tren) | Saktësia (test) | 72.12 | 73,28 | |
ScienceQA (nëngrupi Img, pa CoT) (tren+val) | Saktësia (test) | 95,39 | 95,93 | |
RSVQA-LR (jo numerike) (tren+val) | Saktësia mesatare (test) | 92,65 | 93.11 | |
RSVQA-HR (jo numerike) (tren+val) | Saktësia mesatare (test/test2) | |||
Grafik QA (njerëz+gusht)x(tren+val) | Saktësia mesatare e relaksuar (test_human, test_gusht) | 57.08 | 71,36 | |
VizWiz VQA (tren+val) | Saktësia (Serveri i testimit - std) | 73.7 | 75,52 | |
TallyQA (tren) | Saktësia (test_i thjeshtë/test_kompleks) | |||
OCR-VQA (tren+val) | Saktësia (test) | 72,32 | 74,61 | 74,93 |
TextVQA (tren+val) | Saktësia (Serveri i testimit - std) | 55,47 | 73.15 | 76,48 |
DocVQA (tren+val) | ANLS (Serveri i testimit) | 43,74 | 78.02 | 84,77 |
Infografike VQA (tren+val) | ANLS (Serveri i testimit) | 28.46 | 40.47 | 47,75 |
SceneText VQA (tren+val) | ANLS (Serveri i testimit) | 63,29 | 81.82 | 84.40 |
Segmentimi | ||||
RefCOCO (refcoco i kombinuar, refcoco+, refcocog duke përjashtuar imazhet val dhe testuese) | MIoU (vleftësim) refcoco/refcoco+/refcocog | |||
Detyrat e videos (Titrat/QA) | ||||
MSR-VTT (Titrat) | CIDER (test) | 70,54 | ||
MSR-VTT (QA) | Saktësia (test) | 50.09 | ||
ActivityNet (Titrat) | CIDER (test) | 34,62 | ||
Rrjeti i aktivitetit (QA) | Saktësia (test) | 50,78 | ||
VATEX (Titrat) | CIDER (test) | 79,73 | ||
MSVD (QA) | Saktësia (test) | 60.22 |
Modeli i përzierjes (rregullimi i imët në përzierjen e detyrave të transferimit)
Standardi | Metrikë (ndarje) | përzierje-224 | përzierje-448 |
---|---|---|---|
MMVP | Saktësia e çiftuar | 46.00 | 45,33 |
PAPA | Saktësia (e rastësishme / popullore / kundërshtare) |
Etika dhe siguria
Qasja e vlerësimit
Metodat tona të vlerësimit përfshijnë vlerësime të strukturuara dhe testime të brendshme të grupeve të kuqe të politikave përkatëse të përmbajtjes. Red-skuadra u krye nga një numër skuadrash të ndryshme, secila me qëllime të ndryshme dhe metrika të vlerësimit njerëzor. Këto modele u vlerësuan kundrejt një numri kategorish të ndryshme që lidhen me etikën dhe sigurinë, duke përfshirë:
- Vlerësimi njerëzor mbi kërkesat që mbulojnë sigurinë e fëmijëve, sigurinë e përmbajtjes dhe dëmet e përfaqësimit. Shihni kartën e modelit Gemma për më shumë detaje mbi qasjen e vlerësimit, por me titujt e imazhit dhe konfigurimet vizuale të përgjigjes së pyetjeve.
- Vlerësimi i standardit nga imazhi në tekst: Standardi krahasuar me grupet përkatëse të të dhënave akademike si FairFace Dataset ( Karkkainen et al., 2021 ).
Rezultatet e vlerësimit
- Rezultatet e vlerësimit njerëzor të vlerësimeve të etikës dhe sigurisë janë brenda kufijve të pranueshëm për përmbushjen e politikave të brendshme për kategori të tilla si siguria e fëmijëve, siguria e përmbajtjes dhe dëmet e përfaqësimit.
- Përveç vlerësimeve të brendshme të fuqishme, ne përdorim gjithashtu API-në e Perspektivës (pragu prej 0,8) për të matur toksicitetin, blasfeminë dhe çështje të tjera të mundshme në titrat e krijuara për imazhet me burim nga grupi i të dhënave FairFace. Ne raportojmë vlerat maksimale dhe mesatare të vëzhguara nëpër nëngrupe për secilën nga atributet e perceptuara të gjinisë, etnisë dhe moshës.
Metrikë | Gjinia e perceptuar | Përkatësia etnike | Grupmosha | |||
---|---|---|---|---|---|---|
Maksimumi | mesatare | Maksimumi | mesatare | Maksimumi | mesatare | |
Toksiciteti | 0.04% | 0.03% | 0.08% | 0.00% | 0,09% | 0.00% |
Sulmi i identitetit | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
Fyerje | 0.06% | 0.04% | 0,09% | 0.07% | 0,16% | 0.00% |
Kërcënimi | 0.06% | 0,05% | 0.14% | 0,05% | 0,17% | 0.00% |
Fjalë fyese | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
Përdorimi dhe kufizimet
Përdorimi i synuar
Open Vision Language Models (VLM) kanë një gamë të gjerë aplikimesh në industri dhe fusha të ndryshme. Lista e mëposhtme e përdorimeve të mundshme nuk është gjithëpërfshirëse. Qëllimi i kësaj liste është të sigurojë informacion kontekstual në lidhje me rastet e mundshme të përdorimit që krijuesit e modelit i konsideruan si pjesë e trajnimit dhe zhvillimit të modelit. Përdorimet e ndaluara të modeleve Gemma përshkruhen në Politikën e Përdorimit të Ndaluar të Gemma .
Rregulloni mirë detyrën specifike të gjuhës së vizionit:
- Modelet e trajnuara paraprakisht mund të akordohen mirë në një gamë të gjerë detyrash në gjuhën e vizionit, si: mbishkrimi i imazhit, titulli i shkurtër i videos, përgjigjja vizuale e pyetjeve, leximi i tekstit, zbulimi i objekteve dhe segmentimi i objekteve.
- Modelet e trajnuara paraprakisht mund të rregullohen mirë për fusha specifike, si p.sh. përgjigjet e pyetjeve me sensor në distancë, pyetjet vizuale nga njerëzit që janë të verbër, përgjigjet e pyetjeve shkencore, përshkruajnë funksionalitetet e elementit UI.
- Modelet e trajnuara paraprakisht mund të akordohen mirë për detyra me rezultate jo tekstuale si kutitë kufitare ose maskat e segmentimit.
Hulumtimi i gjuhës së vizionit:
- Modelet e trajnuara paraprakisht dhe modelet e rregulluara mirë mund të shërbejnë si një bazë për studiuesit që të eksperimentojnë me teknikat VLM, të zhvillojnë algoritme dhe të kontribuojnë në avancimin e fushës.
Konsideratat dhe rreziqet etike
Zhvillimi i modeleve të gjuhës vizion (VLM) ngre disa shqetësime etike. Në krijimin e një modeli të hapur, ne kemi konsideruar me kujdes sa vijon:
- Paragjykimi dhe Drejtësia
- VLM-të e trajnuara në shkallë të gjerë, të dhëna të tekstit të imazhit të botës reale, mund të pasqyrojnë paragjykimet socio-kulturore të ngulitura në materialin e trajnimit. Këto modele iu nënshtruan një shqyrtimi të kujdesshëm, të përpunimit paraprak të të dhënave hyrëse të përshkruara dhe vlerësimeve të mëvonshme të raportuara në këtë kartë.
- Keqinformim dhe keqpërdorim
- VLM-të mund të keqpërdoren për të gjeneruar tekst që është i rremë, mashtrues ose i dëmshëm.
- Udhëzimet janë dhënë për përdorim të përgjegjshëm me modelin, shihni Paketën e Veglave Përgjegjëse Gjenerative të AI .
- Transparenca dhe Përgjegjshmëria
- Kjo kartë model përmbledh detaje mbi arkitekturën, aftësitë, kufizimet dhe proceset e vlerësimit të modeleve.
- Një model i hapur i zhvilluar me përgjegjësi ofron mundësinë për të ndarë inovacionin duke e bërë teknologjinë VLM të aksesueshme për zhvilluesit dhe studiuesit në të gjithë ekosistemin e AI.
Rreziqet e identifikuara dhe masat zbutëse:
- Përjetësia e paragjykimeve: Inkurajohet kryerja e monitorimit të vazhdueshëm (duke përdorur metrikat e vlerësimit, rishikimi njerëzor) dhe eksplorimi i teknikave të paragjykimit gjatë trajnimit të modelit, rregullimit të imët dhe rasteve të tjera të përdorimit.
- Gjenerimi i përmbajtjes së dëmshme: Mekanizmat dhe udhëzimet për sigurinë e përmbajtjes janë thelbësore. Zhvilluesit inkurajohen të tregojnë kujdes dhe të zbatojnë masat mbrojtëse të përshtatshme të sigurisë së përmbajtjes bazuar në politikat e tyre specifike të produktit dhe rastet e përdorimit të aplikacioneve.
- Keqpërdorimi për qëllime keqdashëse: Kufizimet teknike dhe edukimi i zhvilluesve dhe përdoruesve të fundit mund të ndihmojnë në zbutjen e aplikacioneve me qëllim të keq të LLM-ve. Burimet arsimore dhe mekanizmat e raportimit për përdoruesit për të raportuar keqpërdorimin janë dhënë: shih Paketën e Veglave Përgjegjëse Gjenerative të AI . Përdorimet e ndaluara të modeleve Gemma përshkruhen në Politikën e Përdorimit të Ndaluar të Gemma .
- Shkeljet e privatësisë: Modelet u trajnuan për të dhënat e filtruara për të hequr disa informacione personale dhe të dhëna delikate. Zhvilluesit inkurajohen t'u përmbahen rregulloreve të privatësisë me teknikat e ruajtjes së privatësisë.
Kufizimet
- Shumica e kufizimeve të trashëguara nga modeli themelor Gemma ende zbatohen:
- VLM-të janë më të mira në detyrat që mund të përshtaten me udhëzime dhe udhëzime të qarta. Detyrat e hapura ose shumë komplekse mund të jenë sfiduese.
- Gjuha natyrore është në thelb komplekse. VLM-të mund të luftojnë për të kuptuar nuancat delikate, sarkazmën ose gjuhën figurative.
- VLM-të gjenerojnë përgjigje bazuar në informacionin që mësuan nga grupet e tyre të të dhënave të trajnimit, por ato nuk janë baza njohurish. Ato mund të gjenerojnë deklarata faktike të pasakta ose të vjetruara.
- VLM-të mbështeten në modelet statistikore në gjuhë dhe imazhe. Atyre mund t'u mungojë aftësia për të zbatuar arsyetimin me sens të përbashkët në situata të caktuara.
- PaliGemma u krijua para së gjithash për të shërbyer si një model i përgjithshëm i para-trajnuar për përshtatjen e detyrave të specializuara. Prandaj, performanca e tij "jashtë kutisë" ose "zero-shot" mund të mbetet prapa modeleve të krijuara posaçërisht për përdorim të përgjithshëm.
- PaliGemma nuk është një chatbot me shumë kthesa. Është projektuar për një raund të vetëm të futjes së imazhit dhe tekstit.