Faqja e modelit: PaliGemma
Burimet dhe dokumentacioni teknik:
Kushtet e Përdorimit: Kushtet
Autorë: Google
Informacioni i modelit
Përmbledhja e modelit
PaliGemma 2 është një përditësim i modelit të gjuhës së vizionit PaliGemma (VLM) i cili përfshin aftësitë e modeleve Gemma 2 . Familja e modeleve PaliGemma është frymëzuar nga PaLI-3 dhe bazohet në komponentë të hapur si modeli i vizionit SigLIP dhe modelet e gjuhës Gemma 2 . Ai merr imazhin dhe tekstin si hyrje dhe gjeneron tekst si dalje, duke mbështetur shumë gjuhë. Ai është projektuar për performancën më të mirë të klasit në një gamë të gjerë detyrash në gjuhën e vizionit, si për shembull titrat e imazheve dhe videove të shkurtra, përgjigjet vizuale të pyetjeve, leximin e tekstit, zbulimin e objekteve dhe segmentimin e objekteve.
Arkitektura model
PaliGemma 2 është përbërja e një dekoderi Transformer dhe një koduesi imazhi Vision Transformer . Dekoderi i tekstit është inicializuar nga Gemma 2 në madhësitë e parametrave 2B, 9B dhe 27B. Enkoderi i imazhit është inicializuar nga SigLIP-So400m/14 . Ngjashëm me modelin origjinal PaliGemma, PaliGemma 2 është trajnuar duke ndjekur recetat PaLI-3 .
Inputet dhe daljet
- Hyrja: vargu i imazhit dhe tekstit, si p.sh. një kërkesë për të nëntitruar imazhin ose një pyetje.
- Dalja: Teksti i gjeneruar në përgjigje të hyrjes, të tilla si një titull i imazhit, një përgjigje për një pyetje, një listë e koordinatave të kutisë kufizuese të objekteve ose fjalë kodike të segmentimit.
Citim
@article{
title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
year={2024},
journal={arXiv preprint arXiv:2412.03555}
}
Të dhënat e modelit
Të dhënat para trenit
PaliGemma 2 është para-trajnuar në përzierjen e mëposhtme të grupeve të të dhënave:
- WebLI: WebLI (Imazhi i gjuhës së uebit) është një grup i të dhënave tekstuale shumëgjuhëshe në shkallë ueb, i ndërtuar nga ueb-i publik. Një gamë e gjerë ndarjesh WebLI përdoren për të përvetësuar aftësi të gjithanshme të modelit, të tilla si kuptimi semantik vizual, lokalizimi i objekteve, kuptimi i tekstit me vendndodhje vizuale dhe shumëgjuhësia.
- CC3M-35L: Çifte të kuruara në anglisht image-alt_text nga faqet e internetit ( Sharma et al., 2018 ). Ne përdorëm Google Cloud Translation API për të përkthyer në 34 gjuhë të tjera.
- VQ²A-CC3M-35L/VQG-CC3M-35L: Një nëngrup i VQ2A-CC3M ( Changpinyo et al., 2022a ), i përkthyer në të njëjtat 34 gjuhë të tjera si CC3M-35L, duke përdorur Google Cloud Translation API .
- OpenImages: Pyetje dhe përgjigje për zbulimin dhe objektin ( Piergiovanni et al. 2022 ) të krijuara nga rregulla të punuara me dorë në grupin e të dhënave OpenImages .
- WIT: Imazhe dhe tekste të mbledhura nga Wikipedia ( Srinivasan et al., 2021 ).
PaliGemma 2 bazohet në Gemma 2 dhe mund të gjeni informacion mbi grupet e të dhënave para-trajnuese për Gemma 2 në kartën e modelit Gemma 2 .
Filtrimi i përgjegjësisë së të dhënave
Filtrat e mëposhtëm aplikohen në WebLI, me qëllim të trajnimit të PaliGemma 2 mbi të dhëna të sigurta dhe të përgjegjshme:
- Filtrimi i imazheve pornografike: Ky filtër heq imazhet që konsiderohen të jenë të natyrës pornografike.
- Filtrimi i sigurisë së tekstit: Ne identifikojmë dhe filtrojmë imazhet që janë çiftuar me tekst të pasigurt. Tekst i pasigurt është çdo tekst që konsiderohet se përmban ose ka të bëjë me imazhet e abuzimit seksual të fëmijëve (CSAI), pornografinë, vulgaritetet ose është ndryshe fyes.
- Filtrimi i toksicitetit të tekstit: Ne përdorim më tej API-në Perspective për të identifikuar dhe filtruar imazhet që çiftëzohen me tekst të konsideruar fyes, të turpshëm, të urryer ose ndryshe toksik.
- Filtrimi i informacionit personal me tekst: Ne filtruam disa informacione personale dhe të dhëna të tjera të ndjeshme duke përdorur API-në e Parandalimit të Humbjes së të Dhënave në renë kompjuterike (DLP) për të mbrojtur privatësinë e individëve. Identifikuesit si numrat e sigurimeve shoqërore dhe lloje të tjera të ndjeshme informacioni u hoqën.
- Metodat shtesë: Filtrimi i bazuar në cilësinë dhe sigurinë e përmbajtjes në përputhje me politikat dhe praktikat tona.
Informacioni i zbatimit
Hardware
PaliGemma 2 u trajnua duke përdorur gjeneratën e fundit të harduerit Tensor Processing Unit (TPU) (TPUv5e).
Software
Trajnimi u përfundua duke përdorur JAX , Flax , TFDS dhe big_vision
.
JAX i lejon studiuesit të përfitojnë nga gjenerata e fundit e pajisjeve, duke përfshirë TPU-të, për trajnim më të shpejtë dhe më efikas të modeleve të mëdha.
TFDS përdoret për të hyrë në grupet e të dhënave dhe Liri përdoret për arkitekturën e modelit. Kodi i rregullimit të imët PaliGemma 2 dhe kodi i konkluzionit lëshohen në depon e big_vision
GitHub.
Informacioni i vlerësimit
Rezultatet e standardeve
Për të verifikuar transferueshmërinë e PaliGemma 2 në një shumëllojshmëri të gjerë detyrash akademike, ne rregullojmë modelet e paratrajnuara për secilën detyrë. Ne raportojmë rezultatet për rezolucione të ndryshme për të dhënë një përshtypje se cilat detyra përfitojnë nga zgjidhja e shtuar. E rëndësishmja, asnjë nga këto detyra ose grupe të dhënash nuk është pjesë e përzierjes së të dhënave të para-trajnimit dhe imazhet e tyre hiqen në mënyrë eksplicite nga të dhënat e para-stërvitjes në shkallë të internetit.
PaliGemma 2 rezulton sipas rezolucionit dhe madhësisë së modelit
Standardi | 224-3B | 224-10B | 224-28B | 448-3B | 448-10B | 448-28B |
---|---|---|---|---|---|---|
AI2D | 74.7 | 83.1 | 83.2 | 76.0 | 84.4 | 84.6 |
AOKVQA-DA (val) | 64.2 | 68.9 | 70.2 | 67.9 | 70.8 | 71.2 |
AOKVQA-MC (val) | 79.7 | 83.7 | 84.7 | 82.5 | 85.9 | 87.0 |
ActivityNet-CAP | 34.2 | 35.9 | - | - | - | - |
ActivityNet-QA | 51.3 | 53.2 | - | - | - | - |
COCO-35L (mesatar 34) | 113.9 | 115.8 | 116.5 | 115.8 | 117.2 | 117.2 |
COCO-35L (en) | 138.4 | 140.8 | 142.4 | 140.4 | 142.4 | 142.3 |
COCOcap | 141.3 | 143.7 | 144.0 | 143.4 | 145.0 | 145.2 |
ChartQA (mesatar) | 74.4 | 74.2 | 68.9 | 89.2 | 90.1 | 85.1 |
ChartQA (njerëzore) | 42.0 | 48.4 | 46.8 | 54.0 | 66.4 | 61.3 |
CountBenchQA | 81.0 | 84.0 | 86.4 | 82.0 | 85.3 | 87.4 |
DocVQA (val) | 39.9 | 43.9 | 44.9 | 73.6 | 76.6 | 76.1 |
GQA | 66.2 | 67.2 | 67.3 | 68.1 | 68.3 | 68.3 |
InfoVQA (val) | 25.2 | 33.6 | 36.4 | 37.5 | 47.8 | 46.7 |
MARVL (mesatar 5) | 83.5 | 89.5 | 90.6 | 82.7 | 89.1 | 89.7 |
MSRVTT-CAP | 68.5 | 72.1 | - | - | - | - |
MSRVTT-QA | 50.5 | 51.9 | - | - | - | - |
MSVD-QA | 61.1 | 62.5 | - | - | - | - |
NLVR2 | 91.4 | 93.9 | 94.2 | 91.6 | 93.7 | 94.1 |
NoCaps | 123.1 | 126.3 | 127.1 | 123.5 | 126.9 | 127.0 |
OCR-VQA | 73.4 | 74.7 | 75.3 | 75.7 | 76.3 | 76.6 |
OKVQA | 64.2 | 68.0 | 71.2 | 64.1 | 68.6 | 70.6 |
RSVQA-hr (test) | 92.7 | 92.6 | 92.7 | 92.8 | 92.8 | 92.8 |
RSVQA-orë (test2) | 90.9 | 90.8 | 90.9 | 90.7 | 90.7 | 90.8 |
RSVQA-lr | 93.0 | 92.8 | 93.5 | 92.7 | 93.1 | 93.7 |
RefCOCO (testA) | 75.7 | 77.2 | 76.8 | 78.6 | 79.7 | 79.3 |
RefCOCO (testB) | 71.0 | 74.2 | 73.9 | 73.5 | 76.2 | 74.8 |
RefCOCO (val) | 73.4 | 75.9 | 75.0 | 76.3 | 78.2 | 77.3 |
RefCOCO+ (testA) | 72.7 | 74.7 | 73.6 | 76.1 | 77.7 | 76.6 |
RefCOCO+ (test B) | 64.2 | 68.4 | 67.1 | 67.0 | 71.1 | 68.6 |
RefCOCO+ (val) | 68.6 | 72.0 | 70.3 | 72.1 | 74.4 | 72.8 |
RefCOCOg (test) | 69.0 | 71.9 | 70.7 | 72.7 | 74.8 | 73.7 |
RefCOCOg (val) | 68.3 | 71.4 | 70.5 | 72.3 | 74.4 | 73.0 |
ST-VQA (val) | 61.9 | 64.3 | 65.1 | 80.5 | 82.0 | 81.8 |
SciCap | 165.1 | 159.5 | 156,9 | 183.3 | 177.2 | 172.7 |
ShkencaQA | 96.1 | 98.2 | 98.2 | 96.2 | 98.5 | 98.6 |
Screen2Words | 113.3 | 117.8 | 122.8 | 114.0 | 119.1 | 123.4 |
TallyQA (kompleks) | 70.3 | 73.4 | 74.2 | 73.6 | 76.7 | 76.8 |
TallyQA (e thjeshtë) | 81.8 | 83.2 | 83.4 | 85.3 | 86.2 | 85.7 |
TextCaps | 127.5 | 137,9 | 139,9 | 152.1 | 157.7 | 153.6 |
TextVQA (val) | 59.6 | 64.0 | 64.7 | 75.2 | 76.6 | 76.2 |
VATEX | 80.8 | 82.7 | - | - | - | - |
VQAv2 (minival) | 83.0 | 84.3 | 84.5 | 84.8 | 85.8 | 85.8 |
VizWizVQA (val) | 76.4 | 78.1 | 78.7 | 77.5 | 78.6 | 78.9 |
WidgetCap | 138.1 | 139.8 | 138.8 | 151.4 | 151.9 | 148,9 |
XM3600 (mesatar 35) | 42.8 | 44.5 | 45.2 | 43.2 | 44.6 | 45.2 |
XM3600 (en) | 79.8 | 80.7 | 81.0 | 80.3 | 81.5 | 81.0 |
xGQA (mesatarisht 7) | 58.6 | 61.4 | 61.1 | 60.4 | 62.6 | 62.1 |
Standarde shtesë
Model | Preciziteti | Kujtoni | F1 |
---|---|---|---|
PaliGemma 2 3B | 81.88 | 70,73 | 75.9 |
Model | Preciziteti | Kujtoni | F1 |
---|---|---|---|
PaliGemma 2 3B | 73.8. | 74,54 | 74,17 |
Model | S-TEDS | TEDS | GriTS-Top | GriTS-Con |
---|---|---|---|---|
PaliGemma 2 3B | 99.18 | 98,94 | 99,43 | 99,21 |
Model | S-TEDS | TEDS | GriTS-Top | GriTS-Con |
---|---|---|---|---|
PaliGemma 2 3B | 97.6 | 97,31 | 97,99 | 97,84 |
Model | CER | LER | SER |
---|---|---|---|
PaliGemma 2 3B | 1.6 | 6.7 | 2.3 |
- PaliGemma 2 3B, Përputhja e plotë: 94.8
Model | mesatar #karak | mesatare # dërguar | % NES |
---|---|---|---|
PaliGemma 2 3B | 529 | 7.74 | 28.42 |
PaliGemma 2 10B | 521 | 7.45 | 20.27 |
- avg#char : Numri mesatar i karaktereve
- mesatare # dërguar : Numri mesatar i fjalive
- SHKP : Dënime pa pasoja
Model | MUSHT | BLEU4 | Rouge-L | RadGrafi F1 |
---|---|---|---|---|
PaliGemma 2 3B | 19.9% | 14.6% | 31.92% | 28.8% |
PaliGemma 2 10B | 17.4% | 15% | 32.41% | 29.5% |
Model | Ndarja e VSR zeroshot (test) | Ndarje e rastësishme VSR (test) |
---|---|---|
PaliGemma 2 3B | 0.75 | 0.82 |
PaliGemma 2 10B | 0.80 | 0.87 |
Etika dhe siguria
Qasja e vlerësimit
Metodat tona të vlerësimit përfshijnë vlerësime të strukturuara të etikës dhe sigurisë në politikat përkatëse të përmbajtjes, duke përfshirë:
- Vlerësimi njerëzor mbi kërkesat që mbulojnë sigurinë e fëmijëve, sigurinë e përmbajtjes dhe dëmet e përfaqësimit. Shihni kartën e modelit Gemma për më shumë detaje mbi qasjen e vlerësimit, por me titujt e imazhit dhe konfigurimet vizuale të përgjigjes së pyetjeve.
- Vlerësimi i pikës së referencës nga imazhi në tekst: Standardi krahasuar me grupet përkatëse të të dhënave akademike si FairFace Dataset ( Karkkainen et al., 2021 ).
Rezultatet e vlerësimit
- Rezultatet e vlerësimit njerëzor të vlerësimeve të etikës dhe sigurisë janë brenda kufijve të pranueshëm për përmbushjen e politikave të brendshme për kategori të tilla si siguria e fëmijëve, siguria e përmbajtjes dhe dëmet e përfaqësimit.
- Përveç vlerësimeve të brendshme të fuqishme, ne përdorim gjithashtu API-në e Perspektivës (pragu prej 0,8) për të matur toksicitetin, blasfeminë dhe çështje të tjera të mundshme në titrat e krijuara për imazhet me burim nga grupi i të dhënave FairFace. Ne raportojmë vlerat maksimale dhe mesatare të vëzhguara nëpër nëngrupe për secilën nga atributet e perceptuara të gjinisë, etnisë dhe moshës.
Metrikë | Gjinia e perceptuar | Përkatësia etnike | Grupmosha | ||||||
---|---|---|---|---|---|---|---|---|---|
Madhësia e modelit | 3B | 10B | 28B | 3B | 10B | 28B | 3B | 10B | 28B |
Maksimumi | |||||||||
Toksiciteti | 0,14% | 0,15% | 0,19% | 0.29% | 0.39% | 0.39% | 0.26% | 0,18% | 0.32% |
Sulmi i identitetit | 0.04% | 0.02% | 0.02% | 0.13% | 0.06% | 0.06% | 0.06% | 0.03% | 0.06% |
Fyerje | 0.17% | 0.25% | 0.17% | 0.37% | 0.52% | 0.52% | 0.27% | 0.39% | 0.24% |
Kërcënimi | 0,55% | 0.43% | 0.57% | 0.83% | 0.48% | 0.48% | 0.64% | 0.43% | 0.64% |
Fjalë fyese | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
mesatare | |||||||||
Toksiciteti | 0.13% | 0,10% | 0,18% | 0.07% | 0.07% | 0.14% | 0.12% | 0.08% | 0.12% |
Sulmi i identitetit | 0.02% | 0,01% | 0.02% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
Fyerje | 0,15% | 0.23% | 0.14% | 0.14% | 0.17% | 0.13% | 0,09% | 0,18% | 0,16% |
Kërcënimi | 0.35% | 0.27% | 0.41% | 0.28% | 0,19% | 0.42% | 0.27% | 0.31% | 0,40% |
Fjalë fyese | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
Përdorimi dhe kufizimet
Përdorimi i synuar
Open Vision Language Models (VLM) kanë një gamë të gjerë aplikimesh në industri dhe fusha të ndryshme. Lista e mëposhtme e përdorimeve të mundshme nuk është gjithëpërfshirëse. Qëllimi i kësaj liste është të sigurojë informacion kontekstual në lidhje me rastet e mundshme të përdorimit që krijuesit e modelit i konsideruan si pjesë e trajnimit dhe zhvillimit të modelit. Përdorimet e ndaluara të modeleve Gemma përshkruhen në Politikën e Përdorimit të Ndaluar të Gemma .
Rregulloni mirë detyrën specifike të gjuhës së vizionit:
- Modelet e trajnuara paraprakisht mund të akordohen mirë në një gamë të gjerë detyrash në gjuhën e vizionit, si: mbishkrimi i imazhit, titulli i shkurtër i videos, përgjigjja vizuale e pyetjeve, leximi i tekstit, zbulimi i objekteve dhe segmentimi i objekteve.
- Modelet e trajnuara paraprakisht mund të rregullohen mirë për fusha specifike, si p.sh. përgjigjet e pyetjeve me sensor në distancë, pyetjet vizuale nga njerëzit që janë të verbër, përgjigjet e pyetjeve shkencore, përshkruajnë funksionalitetet e elementit UI.
- Modelet e trajnuara paraprakisht mund të akordohen mirë për detyra me rezultate jo tekstuale si kutitë kufitare ose maskat e segmentimit.
Hulumtimi i gjuhës së vizionit:
- Modelet e trajnuara paraprakisht dhe modelet e rregulluara mirë mund të shërbejnë si një bazë për studiuesit që të eksperimentojnë me teknikat VLM, të zhvillojnë algoritme dhe të kontribuojnë në avancimin e fushës.
Konsideratat dhe rreziqet etike
Zhvillimi i modeleve të gjuhës së vizionit (VLM) ngre disa shqetësime etike. Në krijimin e një modeli të hapur, ne kemi konsideruar me kujdes sa vijon:
- Paragjykimi dhe Drejtësia
- VLM-të e trajnuara në shkallë të gjerë dhe të dhëna të tekstit të imazhit të botës reale mund të pasqyrojnë paragjykimet socio-kulturore të ngulitura në materialin e trajnimit. Këto modele iu nënshtruan një shqyrtimi të kujdesshëm, të përpunimit paraprak të të dhënave hyrëse të përshkruara dhe vlerësimeve të mëvonshme të raportuara në këtë kartë.
- Keqinformim dhe keqpërdorim
- VLM-të mund të keqpërdoren për të gjeneruar tekst që është i rremë, mashtrues ose i dëmshëm.
- Udhëzimet janë dhënë për përdorim të përgjegjshëm me modelin, shihni Paketën e Veglave Përgjegjëse Gjenerative të AI .
- Transparenca dhe Përgjegjshmëria
- Kjo kartë model përmbledh detaje mbi arkitekturën, aftësitë, kufizimet dhe proceset e vlerësimit të modeleve.
- Një model i hapur i zhvilluar me përgjegjësi ofron mundësinë për të ndarë inovacionin duke e bërë teknologjinë VLM të aksesueshme për zhvilluesit dhe studiuesit në të gjithë ekosistemin e AI.
Rreziqet e identifikuara dhe masat zbutëse:
- Përjetësia e paragjykimeve: Inkurajohet kryerja e monitorimit të vazhdueshëm (duke përdorur metrikat e vlerësimit, rishikimi njerëzor) dhe eksplorimi i teknikave të paragjykimit gjatë trajnimit të modelit, rregullimit të imët dhe rasteve të tjera të përdorimit.
- Gjenerimi i përmbajtjes së dëmshme: Mekanizmat dhe udhëzimet për sigurinë e përmbajtjes janë thelbësore. Zhvilluesit inkurajohen të tregojnë kujdes dhe të zbatojnë masat mbrojtëse të përshtatshme të sigurisë së përmbajtjes bazuar në politikat e tyre specifike të produktit dhe rastet e përdorimit të aplikacioneve.
- Keqpërdorimi për qëllime keqdashëse: Kufizimet teknike dhe edukimi i zhvilluesve dhe përdoruesve të fundit mund të ndihmojnë në zbutjen e aplikacioneve me qëllim të keq të LLM-ve. Burimet arsimore dhe mekanizmat e raportimit për përdoruesit për të raportuar keqpërdorimin janë dhënë: shih Paketën e Veglave Përgjegjëse Gjeneruese të AI . Përdorimet e ndaluara të modeleve Gemma përshkruhen në Politikën e Përdorimit të Ndaluar të Gemma .
- Shkeljet e privatësisë: Modelet u trajnuan për të dhënat e filtruara për të hequr disa informacione personale dhe të dhëna delikate. Zhvilluesit inkurajohen t'u përmbahen rregulloreve të privatësisë me teknika të ruajtjes së privatësisë.
Kufizimet
- Shumica e kufizimeve të trashëguara nga modelet themelore Gemma 2 ende zbatohen:
- VLM-të janë më të mira në detyrat që mund të përshtaten me udhëzime dhe udhëzime të qarta. Detyrat e hapura ose shumë komplekse mund të jenë sfiduese.
- Gjuha natyrore është në thelb komplekse. VLM-të mund të luftojnë për të kuptuar nuancat delikate, sarkazmën ose gjuhën figurative.
- VLM-të gjenerojnë përgjigje bazuar në informacionin që mësuan nga grupet e të dhënave të tyre të trajnimit, por ato nuk janë baza njohurish. Ato mund të gjenerojnë deklarata faktike të pasakta ose të vjetruara.
- VLM-të mbështeten në modelet statistikore në gjuhë dhe imazhe. Atyre mund t'u mungojë aftësia për të zbatuar arsyetimin me sens të përbashkët në situata të caktuara.
- PaliGemma 2 u projektua para së gjithash për të shërbyer si një model i përgjithshëm i para-trajnuar për përshtatjen e duhur me detyrat e specializuara. Prandaj, performanca e tij "jashtë kutisë" ose "zero-shot" mund të mbetet prapa modeleve të dizajnuara posaçërisht për përdorim të përgjithshëm.
- PaliGemma 2 nuk është një chatbot me shumë kthesa. Është projektuar për një raund të vetëm të futjes së imazhit dhe tekstit.