Karta e modelit PaliGemma 2

Faqja e modelit: PaliGemma

Burimet dhe dokumentacioni teknik:

Kushtet e Përdorimit: Kushtet

Autorë: Google

Informacioni i modelit

Përmbledhja e modelit

PaliGemma 2 është një përditësim i modelit të gjuhës së vizionit PaliGemma (VLM) i cili përfshin aftësitë e modeleve Gemma 2 . Familja e modeleve PaliGemma është frymëzuar nga PaLI-3 dhe bazohet në komponentë të hapur si modeli i vizionit SigLIP dhe modelet e gjuhës Gemma 2 . Ai merr imazhin dhe tekstin si hyrje dhe gjeneron tekst si dalje, duke mbështetur shumë gjuhë. Ai është projektuar për performancën më të mirë të klasit në një gamë të gjerë detyrash në gjuhën e vizionit, si për shembull titrat e imazheve dhe videove të shkurtra, përgjigjet vizuale të pyetjeve, leximin e tekstit, zbulimin e objekteve dhe segmentimin e objekteve.

Arkitektura model

PaliGemma 2 është përbërja e një dekoderi Transformer dhe një koduesi imazhi Vision Transformer . Dekoderi i tekstit është inicializuar nga Gemma 2 në madhësitë e parametrave 2B, 9B dhe 27B. Enkoderi i imazhit është inicializuar nga SigLIP-So400m/14 . Ngjashëm me modelin origjinal PaliGemma, PaliGemma 2 është trajnuar duke ndjekur recetat PaLI-3 .

Inputet dhe daljet

  • Hyrja: vargu i imazhit dhe tekstit, si p.sh. një kërkesë për të nëntitruar imazhin ose një pyetje.
  • Dalja: Teksti i gjeneruar në përgjigje të hyrjes, të tilla si një titull i imazhit, një përgjigje për një pyetje, një listë e koordinatave të kutisë kufizuese të objekteve ose fjalë kodike të segmentimit.

Citim

@article{
    title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
    author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
    year={2024},
    journal={arXiv preprint arXiv:2412.03555}
}

Të dhënat e modelit

Të dhënat para trenit

PaliGemma 2 është para-trajnuar në përzierjen e mëposhtme të grupeve të të dhënave:

PaliGemma 2 bazohet në Gemma 2 dhe mund të gjeni informacion mbi grupet e të dhënave para-trajnuese për Gemma 2 në kartën e modelit Gemma 2 .

Filtrimi i përgjegjësisë së të dhënave

Filtrat e mëposhtëm aplikohen në WebLI, me qëllim të trajnimit të PaliGemma 2 mbi të dhëna të sigurta dhe të përgjegjshme:

  • Filtrimi i imazheve pornografike: Ky filtër heq imazhet që konsiderohen të jenë të natyrës pornografike.
  • Filtrimi i sigurisë së tekstit: Ne identifikojmë dhe filtrojmë imazhet që janë çiftuar me tekst të pasigurt. Tekst i pasigurt është çdo tekst që konsiderohet se përmban ose ka të bëjë me imazhet e abuzimit seksual të fëmijëve (CSAI), pornografinë, vulgaritetet ose është ndryshe fyes.
  • Filtrimi i toksicitetit të tekstit: Ne përdorim më tej API-në Perspective për të identifikuar dhe filtruar imazhet që çiftëzohen me tekst të konsideruar fyes, të turpshëm, të urryer ose ndryshe toksik.
  • Filtrimi i informacionit personal me tekst: Ne filtruam disa informacione personale dhe të dhëna të tjera të ndjeshme duke përdorur API-në e Parandalimit të Humbjes së të Dhënave në renë kompjuterike (DLP) për të mbrojtur privatësinë e individëve. Identifikuesit si numrat e sigurimeve shoqërore dhe lloje të tjera të ndjeshme informacioni u hoqën.
  • Metodat shtesë: Filtrimi i bazuar në cilësinë dhe sigurinë e përmbajtjes në përputhje me politikat dhe praktikat tona.

Informacioni i zbatimit

Hardware

PaliGemma 2 u trajnua duke përdorur gjeneratën e fundit të harduerit Tensor Processing Unit (TPU) (TPUv5e).

Software

Trajnimi u përfundua duke përdorur JAX , Flax , TFDS dhe big_vision .

JAX i lejon studiuesit të përfitojnë nga gjenerata e fundit e pajisjeve, duke përfshirë TPU-të, për trajnim më të shpejtë dhe më efikas të modeleve të mëdha.

TFDS përdoret për të hyrë në grupet e të dhënave dhe Liri përdoret për arkitekturën e modelit. Kodi i rregullimit të imët PaliGemma 2 dhe kodi i konkluzionit lëshohen në depon e big_vision GitHub.

Informacioni i vlerësimit

Rezultatet e standardeve

Për të verifikuar transferueshmërinë e PaliGemma 2 në një shumëllojshmëri të gjerë detyrash akademike, ne rregullojmë modelet e paratrajnuara për secilën detyrë. Ne raportojmë rezultatet për rezolucione të ndryshme për të dhënë një përshtypje se cilat detyra përfitojnë nga zgjidhja e shtuar. E rëndësishmja, asnjë nga këto detyra ose grupe të dhënash nuk është pjesë e përzierjes së të dhënave të para-trajnimit dhe imazhet e tyre hiqen në mënyrë eksplicite nga të dhënat e para-stërvitjes në shkallë të internetit.

PaliGemma 2 rezulton sipas rezolucionit dhe madhësisë së modelit

Standardi 224-3B 224-10B 224-28B 448-3B 448-10B 448-28B
AI2D 74.7 83.1 83.2 76.0 84.4 84.6
AOKVQA-DA (val) 64.2 68.9 70.2 67.9 70.8 71.2
AOKVQA-MC (val) 79.7 83.7 84.7 82.5 85.9 87.0
ActivityNet-CAP 34.2 35.9 - - - -
ActivityNet-QA 51.3 53.2 - - - -
COCO-35L (mesatar 34) 113.9 115.8 116.5 115.8 117.2 117.2
COCO-35L (en) 138.4 140.8 142.4 140.4 142.4 142.3
COCOcap 141.3 143.7 144.0 143.4 145.0 145.2
ChartQA (mesatar) 74.4 74.2 68.9 89.2 90.1 85.1
ChartQA (njerëzore) 42.0 48.4 46.8 54.0 66.4 61.3
CountBenchQA 81.0 84.0 86.4 82.0 85.3 87.4
DocVQA (val) 39.9 43.9 44.9 73.6 76.6 76.1
GQA 66.2 67.2 67.3 68.1 68.3 68.3
InfoVQA (val) 25.2 33.6 36.4 37.5 47.8 46.7
MARVL (mesatar 5) 83.5 89.5 90.6 82.7 89.1 89.7
MSRVTT-CAP 68.5 72.1 - - - -
MSRVTT-QA 50.5 51.9 - - - -
MSVD-QA 61.1 62.5 - - - -
NLVR2 91.4 93.9 94.2 91.6 93.7 94.1
NoCaps 123.1 126.3 127.1 123.5 126.9 127.0
OCR-VQA 73.4 74.7 75.3 75.7 76.3 76.6
OKVQA 64.2 68.0 71.2 64.1 68.6 70.6
RSVQA-hr (test) 92.7 92.6 92.7 92.8 92.8 92.8
RSVQA-orë (test2) 90.9 90.8 90.9 90.7 90.7 90.8
RSVQA-lr 93.0 92.8 93.5 92.7 93.1 93.7
RefCOCO (testA) 75.7 77.2 76.8 78.6 79.7 79.3
RefCOCO (testB) 71.0 74.2 73.9 73.5 76.2 74.8
RefCOCO (val) 73.4 75.9 75.0 76.3 78.2 77.3
RefCOCO+ (testA) 72.7 74.7 73.6 76.1 77.7 76.6
RefCOCO+ (test B) 64.2 68.4 67.1 67.0 71.1 68.6
RefCOCO+ (val) 68.6 72.0 70.3 72.1 74.4 72.8
RefCOCOg (test) 69.0 71.9 70.7 72.7 74.8 73.7
RefCOCOg (val) 68.3 71.4 70.5 72.3 74.4 73.0
ST-VQA (val) 61.9 64.3 65.1 80.5 82.0 81.8
SciCap 165.1 159.5 156,9 183.3 177.2 172.7
ShkencaQA 96.1 98.2 98.2 96.2 98.5 98.6
Screen2Words 113.3 117.8 122.8 114.0 119.1 123.4
TallyQA (kompleks) 70.3 73.4 74.2 73.6 76.7 76.8
TallyQA (e thjeshtë) 81.8 83.2 83.4 85.3 86.2 85.7
TextCaps 127.5 137,9 139,9 152.1 157.7 153.6
TextVQA (val) 59.6 64.0 64.7 75.2 76.6 76.2
VATEX 80.8 82.7 - - - -
VQAv2 (minival) 83.0 84.3 84.5 84.8 85.8 85.8
VizWizVQA (val) 76.4 78.1 78.7 77.5 78.6 78.9
WidgetCap 138.1 139.8 138.8 151.4 151.9 148,9
XM3600 (mesatar 35) 42.8 44.5 45.2 43.2 44.6 45.2
XM3600 (en) 79.8 80.7 81.0 80.3 81.5 81.0
xGQA (mesatarisht 7) 58.6 61.4 61.1 60.4 62.6 62.1

Standarde shtesë

ICDAR 2015 Rastësisht

Model Preciziteti Kujtoni F1
PaliGemma 2 3B 81.88 70,73 75.9

Total-Tekst

Model Preciziteti Kujtoni F1
PaliGemma 2 3B 73.8. 74,54 74,17

FinTabNet

Model S-TEDS TEDS GriTS-Top GriTS-Con
PaliGemma 2 3B 99.18 98,94 99,43 99,21

PubTabNet

Model S-TEDS TEDS GriTS-Top GriTS-Con
PaliGemma 2 3B 97.6 97,31 97,99 97,84

Shtabi i madh

Model CER LER SER
PaliGemma 2 3B 1.6 6.7 2.3

PubChem

  • PaliGemma 2 3B, Përputhja e plotë: 94.8

DOCCI

Model mesatar #karak mesatare # dërguar % NES
PaliGemma 2 3B 529 7.74 28.42
PaliGemma 2 10B 521 7.45 20.27
  • avg#char : Numri mesatar i karaktereve
  • mesatare # dërguar : Numri mesatar i fjalive
  • SHKP : Dënime pa pasoja

MIMIC-CXR

Model MUSHT BLEU4 Rouge-L RadGrafi F1
PaliGemma 2 3B 19.9% 14.6% 31.92% 28.8%
PaliGemma 2 10B 17.4% 15% 32.41% 29.5%

Arsyetimi hapësinor pamor

Model Ndarja e VSR zeroshot (test) Ndarje e rastësishme VSR (test)
PaliGemma 2 3B 0.75 0.82
PaliGemma 2 10B 0.80 0.87

Etika dhe siguria

Qasja e vlerësimit

Metodat tona të vlerësimit përfshijnë vlerësime të strukturuara të etikës dhe sigurisë në politikat përkatëse të përmbajtjes, duke përfshirë:

  • Vlerësimi njerëzor mbi kërkesat që mbulojnë sigurinë e fëmijëve, sigurinë e përmbajtjes dhe dëmet e përfaqësimit. Shihni kartën e modelit Gemma për më shumë detaje mbi qasjen e vlerësimit, por me titujt e imazhit dhe konfigurimet vizuale të përgjigjes së pyetjeve.
  • Vlerësimi i pikës së referencës nga imazhi në tekst: Standardi krahasuar me grupet përkatëse të të dhënave akademike si FairFace Dataset ( Karkkainen et al., 2021 ).

Rezultatet e vlerësimit

  • Rezultatet e vlerësimit njerëzor të vlerësimeve të etikës dhe sigurisë janë brenda kufijve të pranueshëm për përmbushjen e politikave të brendshme për kategori të tilla si siguria e fëmijëve, siguria e përmbajtjes dhe dëmet e përfaqësimit.
  • Përveç vlerësimeve të brendshme të fuqishme, ne përdorim gjithashtu API-në e Perspektivës (pragu prej 0,8) për të matur toksicitetin, blasfeminë dhe çështje të tjera të mundshme në titrat e krijuara për imazhet me burim nga grupi i të dhënave FairFace. Ne raportojmë vlerat maksimale dhe mesatare të vëzhguara nëpër nëngrupe për secilën nga atributet e perceptuara të gjinisë, etnisë dhe moshës.
Metrikë Gjinia e perceptuar Përkatësia etnike Grupmosha
Madhësia e modelit 3B 10B 28B 3B 10B 28B 3B 10B 28B
Maksimumi
Toksiciteti 0,14% 0,15% 0,19% 0.29% 0.39% 0.39% 0.26% 0,18% 0.32%
Sulmi i identitetit 0.04% 0.02% 0.02% 0.13% 0.06% 0.06% 0.06% 0.03% 0.06%
Fyerje 0.17% 0.25% 0.17% 0.37% 0.52% 0.52% 0.27% 0.39% 0.24%
Kërcënimi 0,55% 0.43% 0.57% 0.83% 0.48% 0.48% 0.64% 0.43% 0.64%
Fjalë fyese 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
mesatare
Toksiciteti 0.13% 0,10% 0,18% 0.07% 0.07% 0.14% 0.12% 0.08% 0.12%
Sulmi i identitetit 0.02% 0,01% 0.02% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%
Fyerje 0,15% 0.23% 0.14% 0.14% 0.17% 0.13% 0,09% 0,18% 0,16%
Kërcënimi 0.35% 0.27% 0.41% 0.28% 0,19% 0.42% 0.27% 0.31% 0,40%
Fjalë fyese 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00% 0.00%

Përdorimi dhe kufizimet

Përdorimi i synuar

Open Vision Language Models (VLM) kanë një gamë të gjerë aplikimesh në industri dhe fusha të ndryshme. Lista e mëposhtme e përdorimeve të mundshme nuk është gjithëpërfshirëse. Qëllimi i kësaj liste është të sigurojë informacion kontekstual në lidhje me rastet e mundshme të përdorimit që krijuesit e modelit i konsideruan si pjesë e trajnimit dhe zhvillimit të modelit. Përdorimet e ndaluara të modeleve Gemma përshkruhen në Politikën e Përdorimit të Ndaluar të Gemma .

Rregulloni mirë detyrën specifike të gjuhës së vizionit:

  • Modelet e trajnuara paraprakisht mund të akordohen mirë në një gamë të gjerë detyrash në gjuhën e vizionit, si: mbishkrimi i imazhit, titulli i shkurtër i videos, përgjigjja vizuale e pyetjeve, leximi i tekstit, zbulimi i objekteve dhe segmentimi i objekteve.
  • Modelet e trajnuara paraprakisht mund të rregullohen mirë për fusha specifike, si p.sh. përgjigjet e pyetjeve me sensor në distancë, pyetjet vizuale nga njerëzit që janë të verbër, përgjigjet e pyetjeve shkencore, përshkruajnë funksionalitetet e elementit UI.
  • Modelet e trajnuara paraprakisht mund të akordohen mirë për detyra me rezultate jo tekstuale si kutitë kufitare ose maskat e segmentimit.

Hulumtimi i gjuhës së vizionit:

  • Modelet e trajnuara paraprakisht dhe modelet e rregulluara mirë mund të shërbejnë si një bazë për studiuesit që të eksperimentojnë me teknikat VLM, të zhvillojnë algoritme dhe të kontribuojnë në avancimin e fushës.

Konsideratat dhe rreziqet etike

Zhvillimi i modeleve të gjuhës së vizionit (VLM) ngre disa shqetësime etike. Në krijimin e një modeli të hapur, ne kemi konsideruar me kujdes sa vijon:

  • Paragjykimi dhe Drejtësia
    • VLM-të e trajnuara në shkallë të gjerë dhe të dhëna të tekstit të imazhit të botës reale mund të pasqyrojnë paragjykimet socio-kulturore të ngulitura në materialin e trajnimit. Këto modele iu nënshtruan një shqyrtimi të kujdesshëm, të përpunimit paraprak të të dhënave hyrëse të përshkruara dhe vlerësimeve të mëvonshme të raportuara në këtë kartë.
  • Keqinformim dhe keqpërdorim
  • Transparenca dhe Përgjegjshmëria
    • Kjo kartë model përmbledh detaje mbi arkitekturën, aftësitë, kufizimet dhe proceset e vlerësimit të modeleve.
    • Një model i hapur i zhvilluar me përgjegjësi ofron mundësinë për të ndarë inovacionin duke e bërë teknologjinë VLM të aksesueshme për zhvilluesit dhe studiuesit në të gjithë ekosistemin e AI.

Rreziqet e identifikuara dhe masat zbutëse:

  • Përjetësia e paragjykimeve: Inkurajohet kryerja e monitorimit të vazhdueshëm (duke përdorur metrikat e vlerësimit, rishikimi njerëzor) dhe eksplorimi i teknikave të paragjykimit gjatë trajnimit të modelit, rregullimit të imët dhe rasteve të tjera të përdorimit.
  • Gjenerimi i përmbajtjes së dëmshme: Mekanizmat dhe udhëzimet për sigurinë e përmbajtjes janë thelbësore. Zhvilluesit inkurajohen të tregojnë kujdes dhe të zbatojnë masat mbrojtëse të përshtatshme të sigurisë së përmbajtjes bazuar në politikat e tyre specifike të produktit dhe rastet e përdorimit të aplikacioneve.
  • Keqpërdorimi për qëllime keqdashëse: Kufizimet teknike dhe edukimi i zhvilluesve dhe përdoruesve të fundit mund të ndihmojnë në zbutjen e aplikacioneve me qëllim të keq të LLM-ve. Burimet arsimore dhe mekanizmat e raportimit për përdoruesit për të raportuar keqpërdorimin janë dhënë: shih Paketën e Veglave Përgjegjëse Gjeneruese të AI . Përdorimet e ndaluara të modeleve Gemma përshkruhen në Politikën e Përdorimit të Ndaluar të Gemma .
  • Shkeljet e privatësisë: Modelet u trajnuan për të dhënat e filtruara për të hequr disa informacione personale dhe të dhëna delikate. Zhvilluesit inkurajohen t'u përmbahen rregulloreve të privatësisë me teknika të ruajtjes së privatësisë.

Kufizimet

  • Shumica e kufizimeve të trashëguara nga modelet themelore Gemma 2 ende zbatohen:
    • VLM-të janë më të mira në detyrat që mund të përshtaten me udhëzime dhe udhëzime të qarta. Detyrat e hapura ose shumë komplekse mund të jenë sfiduese.
    • Gjuha natyrore është në thelb komplekse. VLM-të mund të luftojnë për të kuptuar nuancat delikate, sarkazmën ose gjuhën figurative.
    • VLM-të gjenerojnë përgjigje bazuar në informacionin që mësuan nga grupet e të dhënave të tyre të trajnimit, por ato nuk janë baza njohurish. Ato mund të gjenerojnë deklarata faktike të pasakta ose të vjetruara.
    • VLM-të mbështeten në modelet statistikore në gjuhë dhe imazhe. Atyre mund t'u mungojë aftësia për të zbatuar arsyetimin me sens të përbashkët në situata të caktuara.
  • PaliGemma 2 u projektua para së gjithash për të shërbyer si një model i përgjithshëm i para-trajnuar për përshtatjen e duhur me detyrat e specializuara. Prandaj, performanca e tij "jashtë kutisë" ose "zero-shot" mund të mbetet prapa modeleve të dizajnuara posaçërisht për përdorim të përgjithshëm.
  • PaliGemma 2 nuk është një chatbot me shumë kthesa. Është projektuar për një raund të vetëm të futjes së imazhit dhe tekstit.