PaliGemma model kartı

Model sayfası: PaliGemma

Kaynaklar ve teknik belgeler:

Kullanım Şartları: Şartlar

Yazarlar: Google

Model bilgileri

Model özeti

Açıklama

PaliGemma, PaLI-3'ten esinlenerek SigLIP vizyon modeli ve Gemma dil modeli gibi açık bileşenlere dayanan çok yönlü ve hafif bir görsel dil modelidir (VLM). Hem görüntüyü hem de metni giriş olarak alır ve birden fazla dili destekleyen çıktı olarak metin oluşturur. Resim ve kısa video altyazısı, görsel soru yanıtlama, metin okuma, nesne algılama ve nesne segmentasyonu gibi çeşitli görme dili görevlerinde sınıf lideri ince ayar performansı sunmak için tasarlanmıştır.

Model mimarisi

PaliGemma, toplam 3 milyar parametre içeren bir Dönüştürücü kod çözücü ve bir Vision Dönüştürücü görüntü kodlayıcının bileşimidir. Metin kod çözücü, Gemma-2B ile başlatılır. Resim kodlayıcı, SigLIP-So400m/14 adresinden başlatılır. PaliGemma, PaLI-3 tarifleri kullanılarak eğitilmiştir.

Girişler ve çıkışlar

  • Giriş: Resme altyazı isteği veya soru gibi bir resim ve metin dizesi.
  • Çıktı: Görüntünün başlığı, sorunun yanıtı, nesne sınırlayıcı kutu koordinatlarının listesi veya segmentasyon kod kelimeleri gibi girişe yanıt olarak oluşturulan metindir.

Model verileri

Veri kümelerini önceden eğitin

PaliGemma, aşağıdaki veri kümelerinin karışımı üzerinde önceden eğitilmiştir:

Veri sorumluluğu filtreleme

PaliGemma'yı temiz veriler konusunda eğitmek amacıyla WebLI'ya aşağıdaki filtreler uygulanır:

  • Pornografik resim filtreleme: Bu filtre, pornografik nitelikte olduğu düşünülen resimleri kaldırır.
  • Metin güvenliği filtrelemesi: Güvenli olmayan metinlerle eşleştirilen resimleri belirler ve filtreleriz. Güvenli olmayan metin; CSAI, pornografi, argo sözcükler veya başka bir şekilde rahatsız edici şeyi içeren ya da bunlarla ilgili olduğu düşünülen metinlerdir.
  • Metin kirliliği filtreleme: Aşağılayıcı, müstehcen, nefret söylemi veya başka şekilde zehirli olduğu düşünülen metinlerle eşlenmiş resimleri tanımlamak ve filtrelemek için Perspective API'yi kullanıyoruz.
  • Metin kişisel bilgileri filtreleme: Bireylerin gizliliğini korumak için Cloud Data Loss Prevention (DLP) API'yi kullanarak belirli kişisel bilgileri ve diğer hassas verileri filtreledik. Vatandaşlık numaraları ve diğer hassas bilgi türleri gibi tanımlayıcılar kaldırıldı.
  • Ek yöntemler: Politikalarımız ve uygulamalarımız doğrultusunda içerik kalitesi ve güvenliğine göre filtreleme.

Uygulama bilgileri

Nalbur

PaliGemma, en yeni nesil Tensor İşleme Birimi (TPU) donanımı (TPUv5e) kullanılarak eğitilmiştir.

Yazılım

Eğitim JAX, Flax, TFDS ve big_vision kullanılarak yapıldı.

JAX, araştırmacıların büyük modellerin daha hızlı ve daha verimli eğitimi için TPU'lar da dahil olmak üzere en yeni nesil donanımlardan yararlanmasına imkan tanır.

Veri kümelerine erişmek için TFDS kullanılır, model mimarisi için ise Flax kullanılır. PaliGemma'nın ince ayar kodu ve çıkarım kodu big_vision GitHub deposunda yayınlanır.

Değerlendirme bilgileri

Karşılaştırma sonuçları

PaliGemma'nın çok çeşitli akademik görevlere aktarılabilirliğini doğrulamak için her görevde önceden eğitilmiş modeller üzerinde ince ayar yapıyoruz. Buna ek olarak, karma modelini aktarım görevlerinin bir karışımıyla eğitiyoruz. Hangi görevlerde artırılmış çözünürlükden fayda sağladığına dair bir izlenim sağlamak için farklı çözünürlüklere ilişkin sonuçları raporlarız. Daha da önemlisi, bu görevlerin veya veri kümelerinin hiçbirinin eğitim öncesi veri karışımının parçası değildir ve görüntüleri web ölçeğindeki ön eğitim verilerinden açıkça kaldırılır.

Tek bir görev (tek bir görevde ince ayar yapma)

Karşılaştırma (tren grubu) Metrik (bölünmüş) pt-224 pt-448 pt-896
Altyazı ekleme
COCO altyazıları (tren+restval) CIDEr (değer) 141,92 144,60
NoCaps (Eval of COCO altyazı aktarımı) CIDEr (değer) 121,72 123,58
COCO-35L (tren) Müşteri Kimliği geliştirme (en/avg-34/ort.)
139,2
115,8
116,4
141,2
118,0
118,6
XM3600 (COCO-35L aktarımının Evalü) Müşteri Kimliği geliştirme (en/avg-34/ort.)
78,1
41,3
42,4
80,0
41,9
42,9
TextCaps (tren) CIDEr (değer) 127,48 153,94
SciCap (ilk cümle, alt karakter yok) (tren+val) CIDEr/BLEU-4 (test)
162,25
0,192
181,49
0,211
Screen2words (eğitim+geliştirme) CIDEr (test) 117,57 119,59
Widget Altyazıları (tren+geliştirme) CIDEr (test) 136,07 148,36
Soru yanıtlama
VQAv2 (tren+doğrulama) Doğruluk (Test sunucusu - std) 83,19 85,64
MMVP (Eval of VQAv2 aktarımı) Eşlenmiş Doğruluk 47,33 45,33
POPE (VQAv2 aktarımının Eval'i) Doğruluk (rastgele/popüler/zıtlık)
87,80
85,87
84,27
88,23
86,77
85,90
OKVQA (tren) Doğruluk (değer) % 63,15
A-OKVQA (MC) (tren+val) Doğruluk (Test sunucusu) 76,37 %
A-OKVQA (DA) (tren+val) Doğruluk (Test sunucusu) 61,85 63,22
GQA (tren_dengeli+val_dengeli) Doğruluk (testdev dengeli) 65,61 67,03
xGQA (GQA aktarımının eşdeğeri) Ortalama Doğruluk (bn, de, en, id, ko, pt, ru, zh) 58,37 59,07
NLVR2 (tren+geliştirme) Doğruluk (test) 90,02 88,93
MaRVL (Eval of NLVR2 aktarımı) Ortalama Doğruluk (test) (id, sw, ta, tr, zh) % 76,78
AI2D (tren) Doğruluk (test) 72,12 73,28
ScienceQA (Resim alt kümesi, CoT yok) (tren+val) Doğruluk (test) % %
RSVQA-LR (Sayısal olmayan) (tren+val) Ortalama Doğruluk (test) 92,65 93,11
RSVQA-HR (Sayısal olmayan) (tren+val) Ortalama Doğruluk (test/test2)
92,61
90,58
92,79
90,54
ChartQA (insan+ağ) x(tren+val) Ortalama Esnek Doğruluk (test_human, test_aug) 57,08 71,36
VizWiz VQA (tren+val) Doğruluk (Test sunucusu - std) 73,7 %
TallyQA (tren) Doğruluk (test_simple/test_complex)
81,72
69,56
84,86
72,27
OCR-VQA (tren+val) Doğruluk (test) 72,32 74,61 74,93
TextVQA (tren+val) Doğruluk (Test sunucusu - std) 55,47 73,15 76,48
DocVQA (tren+val) ANLS (Test sunucusu) 43,74 78,02 84,77
İnfografik VQA (tren+val) ANLS (Test sunucusu) 28,46 40,47 47,75
SceneText VQA (tren+val) ANLS (Test sunucusu) 63,29 81,82 84,40
Segmentasyon
RefCOCO (kombine refcoco, refcoco+, val ve test resimleri hariç refcog) MIoU (doğrulama) refcoco/refcoco+/refcocog
73,40
68,32
67,65
75,57
69,76
70,17
76,94
72,18
72,22
Video görevleri (Altyazı/QA)
MSR-VTT (Altyazı) CIDEr (test) %
MSR-VTT (KG) Doğruluk (test) 50,09
ActivityNet (Altyazı) CIDEr (test) 34,62
ActivityNet (KG) Doğruluk (test) 50,78
VATEX (Altyazı) CIDEr (test) %
MSVD (KG) Doğruluk (test) 60,22

Karma modeli (aktarım görevlerinin karışımına ince ayar yapma)

Karşılaştırma Metrik (bölünmüş) mix-224 mix-448
MVP Eşlenmiş Doğruluk % 45,33
PAP Doğruluk (rastgele/popüler/zıtlık)
88,00
86,63
85,67
89,37
88,40
87,47

Etik ve güvenlik

Değerlendirme yaklaşımı

Değerlendirme yöntemlerimiz arasında, yapılandırılmış değerlendirmeler ve ilgili içerik politikalarına yönelik şirket içi genel değerlendirmeler yer alır. Kırmızı ekip oluşturma, her biri farklı hedeflere ve insan değerlendirme metriklerine sahip farklı ekipler tarafından yürütülmüştür. Bu modeller, etik ve güvenlikle ilgili bir dizi farklı kategoriye göre değerlendirilmiştir. Bu kategorilerden bazıları:

  • Çocukların güvenliği, içerik güvenliği ve temsili zararları kapsayan istemler üzerine gerçek kişiler tarafından yapılan değerlendirmeler. Değerlendirme yaklaşımı hakkında daha fazla ayrıntı için Gemma modeli kartına bakın, ancak resim altyazıları ve görsel soru yanıtlama kurulumları bu kapsamdadır.
  • Resimden Metne karşılaştırma değerlendirmesi: FairFace Dataset gibi alakalı akademik veri kümeleriyle (Karkkainen ve diğerleri, 2021).

Değerlendirme sonuçları

  • Etik ve güvenlik değerlendirmelerinin insan değerlendirme sonuçları; çocuk güvenliği, içerik güvenliği ve temsili zararlar gibi kategoriler için dahili politikaları karşılamak için kabul edilebilir eşikler dahilindedir.
  • Kapsamlı dahili değerlendirmelerin yanı sıra, FairFace veri kümesinden alınan resimler için oluşturulan altyazılardaki kötü niyetli davranışları, küfürleri ve diğer olası sorunları ölçmek amacıyla Perspective API'yi (0, 8 eşiği) de kullanıyoruz. Algılanan cinsiyet, etnik köken ve yaş özelliklerinin her biri için alt gruplarda gözlemlenen maksimum ve medyan değerleri raporlarız.
Metrik Algılanan cinsiyet Etnik köken Yaş grubu
Maksimum Medyan Maksimum Medyan Maksimum Medyan
Toksiklik %0,04 %0,03 %0,08 %0,00 %0,09 %0,00
Kimlik Saldırısı %0,00 %0,00 %0,00 %0,00 %0,00 %0,00
Hakaret %0,06 %0,04 %0,09 %0,07 %0,16 %0,00
Tehdit %0,06 %0,05 %0,14 %0,05 %0,17 %0,00
Küfür %0,00 %0,00 %0,00 %0,00 %0,00 %0,00

Kullanım ve sınırlamalar

Kullanım amacı

Açık Vision Dil Modelleri (VLM'ler), çeşitli sektörler ve alanlarda geniş bir uygulama yelpazesine sahiptir. Aşağıdaki olası kullanımlar listesi kapsamlı değildir. Bu listenin amacı, model yaratıcılarının model eğitimi ve geliştirme kapsamında değerlendirdiği olası kullanım alanları hakkında bağlamsal bilgiler sağlamaktır.

Görme diliyle ilgili belirli görevlerde ince ayar yapın:

  • Önceden eğitilmiş modeller; resim altyazısı, kısa video altyazısı, görsel soru yanıtlama, metin okuma, nesne algılama ve nesne segmentasyonu gibi çok çeşitli görme dili görevlerinde hassas ayarlar yapılabilir.
  • Önceden eğitilmiş modeller, uzaktan algılama soru yanıtlama, görme engelli kişilerin görsel soruları, bilimsel soruları yanıtlama, kullanıcı arayüzü öğelerinin işlevlerini açıklama gibi belirli alanlar için ince ayar yapılabilir.
  • Önceden eğitilmiş modeller, sınırlayıcı kutular veya segmentasyon maskeleri gibi metin harici çıktıları olan görevler için ince ayar yapabilir.

Vizyon dili araştırması:

  • Önceden eğitilmiş modeller ve ince ayar yapılmış modeller, araştırmacıların VLM teknikleriyle denemeler yapmaları, algoritmalar geliştirmeleri ve bu alandaki gelişmelere katkıda bulunmaları için bir temel oluşturabilir.

Etik değerlendirmeler ve riskler

Vizyon-dil modellerinin (VLM) geliştirilmesi, çeşitli etik kaygıları ortaya çıkarıyor. Açık bir model oluştururken aşağıdakileri dikkatle düşündük:

  • Yanlılık ve Adalet
    • Büyük ölçekli, gerçek dünyadaki resim metni verileri kullanılarak eğitilen VLM'ler, eğitim materyaline yerleştirilmiş sosyo-kültürel önyargıları yansıtabilir. Bu modeller dikkatli bir şekilde incelendi, verilerin ön işlemesi açıklandı ve bu kartta bildirilen arka değerlendirmeler yapıldı.
  • Yanlış Bilgilendirme ve Kötüye Kullanım
    • VLM'ler yanlış, yanıltıcı veya zararlı metinler oluşturmak için hatalı şekilde kullanılabilir.
    • Modelle sorumlu bir şekilde kullanılması için yönergeler sağlanmıştır. Sorumlu Üretken Yapay Zeka Araç Seti'ne bakın.
  • Şeffaflık ve Hesap Verebilirlik
    • Bu model kartı; modellerin mimarisi, özellikleri, sınırlamaları ve değerlendirme süreçleri ile ilgili ayrıntıları özetler.
    • Sorumlu bir şekilde geliştirilen açık model, VLM teknolojisini AI ekosistemindeki geliştiriciler ve araştırmacılar için erişilebilir hale getirerek inovasyonu paylaşma fırsatı sunar.

Belirlenen riskler ve azaltmalar:

  • Ön yargıların sürdürülmesi: Model eğitimi, ince ayarlamalar ve diğer kullanım alanları sırasında sürekli izleme (değerlendirme metrikleri ile gerçek kişiler tarafından yapılan incelemelerin yardımıyla) ve önyargı giderme tekniklerinin araştırılması önerilir.
  • Zararlı içeriğin üretimi: İçerik güvenliğiyle ilgili mekanizmalar ve yönergeler önemlidir. Geliştiricilerin, dikkatli olması ve belirli ürün politikalarına ve uygulama kullanım alanlarına göre uygun içerik güvenliği önlemleri alması önerilir.
  • Kötü amaçlı amaçlarla hatalı kullanım: Teknik sınırlamalar, geliştirici ve son kullanıcı eğitimi, LLM'lerin kötü amaçlı uygulamalarını azaltmaya yardımcı olabilir. Kullanıcıların hatalı kullanımları işaretlemesi için eğitim kaynakları ve bildirim mekanizmaları sağlanmaktadır: Sorumlu Üretken Yapay Zeka Araç Seti'ne bakın. Gemma modellerinin yasaklanmış kullanımları, Gemma Yasaklanan Kullanım Politikası'nda açıklanmıştır.
  • Gizlilik ihlalleri: Modeller, belirli kişisel bilgileri ve hassas verileri kaldırmak üzere filtrelenmiş veriler konusunda eğitilmiştir. Geliştiricilerin, gizliliği korumaya yönelik tekniklerle gizlilik düzenlemelerine uymaları önerilir.

Sınırlamalar

  • Temel Gemma modelinden devralınan çoğu sınırlama hâlâ geçerlidir:
    • VLM'ler, açık istemler ve talimatlarla çerçeveye alınabilen görevlerde daha başarılıdır. Açık uçlu veya son derece karmaşık görevler zorlayıcı olabilir.
    • Doğal dil, yapısı gereği karmaşıktır. VLM'ler ince nüansları, iğnelemeleri veya sembolik ifadeleri kavramakta zorlanabilir.
    • VLM'ler, eğitim veri kümelerinden öğrendikleri bilgilere göre yanıtlar üretir, ancak bilgi tabanı değildir. Yanlış veya güncelliğini yitirmiş olgusal ifadeler üretebilirler.
    • VLM'ler, dil ve görüntülerdeki istatistiksel kalıplara dayanır. Belirli durumlarda sağduyulu akıl yürütme becerilerine sahip olmayabilirler.
  • PaliGemma, öncelikli olarak özel görevlere ince ayar yapmak için önceden eğitilmiş genel bir model olarak tasarlanmıştır. Bu nedenle, "kullanıma hazır" veya "sıfır çekim" performansı, bu amaç için özel olarak tasarlanmış modellerin gerisinde kalabilir.
  • PaliGemma, çok dönüşlü bir chatbot değildir. Tek tur resim ve metin girişi için tasarlanmıştır.