PaliGemma 2 model kartı

Model sayfası: PaliGemma

Kaynaklar ve teknik dokümanlar:

Kullanım Şartları: Şartlar

Yazarlar: Google

Model bilgileri

Model özeti

PaliGemma 2, PaliGemma görüntü-dil modelinin (VLM) Gemma 2 modellerinin özelliklerini içeren bir güncellemesidir. PaliGemma model ailesi, PaLI-3'ten esinlenerek tasarlanmış olup SigLIP görüntü modeli ve Gemma 2 dil modelleri gibi açık bileşenlere dayanır. Hem görsel hem de metni giriş olarak alır ve birden fazla dili destekleyen metin çıktısı oluşturur. Görüntü ve kısa video altyazı, görsel soru yanıtlama, metin okuma, nesne algılama ve nesne segmentasyonu gibi çeşitli görüntü-dil görevlerinde sınıfının en iyisi hassas ayar performansı için tasarlanmıştır.

Model mimarisi

PaliGemma 2, bir Dönüştürücü kod çözücü ve Görsel Dönüştürücü resim kodlayıcıdan oluşur. Metin kod çözücü, 2B, 9B ve 27B parametre boyutlarında Gemma 2'den başlatılır. Görüntü kodlayıcı, SigLIP-So400m/14 ile başlatılır. Orijinal PaliGemma modeline benzer şekilde PaliGemma 2, PaLI-3 tariflerine göre eğitilir.

Girdiler ve çıktılar

  • Giriş: Görüntü ve metin dizesi (ör. resme altyazı ekleme istemi veya soru).
  • Çıktı: Girişe yanıt olarak oluşturulan metin (ör. resmin başlığı, bir sorunun yanıtı, nesne sınır kutusu koordinatlarının listesi veya segmentasyon kod kelimeleri).

Alıntı

@article{
    title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
    author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
    year={2024},
    journal={arXiv preprint arXiv:2412.03555}
}

Model verileri

Veri kümelerini önceden eğitme

PaliGemma 2, aşağıdaki veri kümesi karışımında önceden eğitilmiştir:

PaliGemma 2, Gemma 2'ye dayanır. Gemma 2 için ön eğitim veri kümeleriyle ilgili bilgileri Gemma 2 model kartında bulabilirsiniz.

Veri sorumluluğu filtreleme

PaliGemma2'yi güvenli ve sorumlu veriler konusunda eğitmek amacıyla WebLI'ye aşağıdaki filtreler uygulanır:

  • Pornografik görüntü filtreleme: Bu filtre, pornografik nitelikte olduğu kabul edilen resimleri kaldırır.
  • Metin güvenliği filtreleme: Güvenli olmayan metinlerle eşleştirilen resimleri tespit edip filtreleriz. Güvenli olmayan metin, çocuk cinsel istismarı görüntüleri (CSAI), pornografi, kaba dil veya başka bir şekilde rahatsız edici olduğu kabul edilen metinlerdir.
  • Metin toksisitesi filtreleme: Ayrıca, Perspective API'yi kullanarak hakaret, müstehcenlik, nefret veya başka bir şekilde toksik olarak değerlendirilen metinlerle birlikte kullanılan resimleri tespit edip filtreliyoruz.
  • Metinlerdeki kişisel bilgileri filtreleme: Kullanıcıların gizliliğini korumak için Cloud Data Loss Prevention (DLP) API'yi kullanarak belirli kişisel bilgileri ve diğer hassas verileri filtreledik. Vatandaşlık numarası ve diğer hassas bilgi türleri gibi tanımlayıcı bilgiler kaldırıldı.
  • Ek yöntemler: Politikalarımıza ve uygulamalarımıza uygun olarak içerik kalitesine ve güvenliğine göre filtreleme

Uygulama bilgileri

Donanım

PaliGemma 2, en yeni nesil Tensor İşleme Birimi (TPU) donanımı (TPUv5e) kullanılarak eğitildi.

Yazılım

Eğitim, JAX, Flax, TFDS ve big_vision kullanılarak tamamlandı.

JAX, araştırmacıların büyük modelleri daha hızlı ve verimli bir şekilde eğitmek için TPU'lar da dahil olmak üzere en yeni nesil donanımlardan yararlanmasına olanak tanır.

TFDS, veri kümelerine erişmek için kullanılır ve Flax, model mimarisi için kullanılır. PaliGemma 2 ince ayar kodu ve çıkarım kodu, big_visionGitHub deposunda yayınlanmıştır.

Değerlendirme bilgileri

Karşılaştırma sonuçları

PaliGemma 2'nin çok çeşitli akademik görevlere aktarılabilirliğini doğrulamak için önceden eğitilmiş modellerde her görev için ince ayar yaparız. Hangi görevlerin daha yüksek çözünürlükten yararlandığına dair bir fikir vermek için farklı çözünürlüklerdeki sonuçları bildiririz. Önemli bir nokta, bu görevlerin veya veri kümelerinin hiçbirinin ön eğitim veri karışımına dahil edilmemesi ve görüntülerinin web ölçeğindeki ön eğitim verilerinden açıkça kaldırılmasıdır.

PaliGemma 2 sonuçları (model çözünürlüğüne ve boyutuna göre)

Karşılaştırma 224-3B 224-10B 224-28B 448-3B 448-10B 448-28B
AI2D 74,7 83,1 83,2 76,0 84,4 84,6
AOKVQA-DA (val) 64,2 68,9 70,2 67,9 70,8 71,2
AOKVQA-MC (val) 79,7 83,7 84,7 82,5 85,9 87,0
ActivityNet-CAP 34,2 35,9 - - - -
ActivityNet-QA 51,3 53,2 - - - -
COCO-35L (ort.34) 113,9 115,8 116,5 115,8 117,2 117,2
COCO-35L (en) 138,4 140,8 142,4 140,4 142,4 142,3
COCOcap 141,3 143,7 144,0 143,4 145,0 145,2
ChartQA (ortalama) 74,4 74,2 68,9 89,2 90,1 85,1
ChartQA (insan) 42,0 48,4 46,8 54,0 66,4 61.3
CountBenchQA 81,0 84,0 86,4 82,0 85,3 87,4
DocVQA (val) 39,9 43,9 44,9 73,6 76,6 76,1
GQA 66,2 67,2 67,3 68,1 68,3 68,3
InfoVQA (değer) 25,2 33,6 36,4 37,5 47,8 46,7
MARVL (avg5) 83,5 89,5 90,6 82,7 89,1 89,7
MSRVTT-CAP 68,5 72,1 - - - -
MSRVTT-QA 50,5 51,9 - - - -
MSVD-QA 61.1 62,5 - - - -
NLVR2 91,4 93,9 94,2 91,6 93,7 94,1
NoCaps 123.1 126,3 127,1 123,5 126,9 127,0
OCR-VQA 73,4 74,7 75,3 75,7 76,3 76,6
OKVQA 64,2 68,0 71,2 64,1 68,6 70,6
RSVQA-hr (test) 92,7 92,6 92,7 92,8 92,8 92,8
RSVQA-hr (test2) 90,9 90,8 90,9 90,7 90,7 90,8
RSVQA-lr 93,0 92,8 93,5 92,7 93,1 93,7
RefCOCO (testA) 75,7 77,2 76,8 78,6 79,7 79,3
RefCOCO (testB) 71,0 74,2 73,9 73,5 76,2 74,8
RefCOCO (val) 73,4 75,9 75,0 76,3 78,2 77,3
RefCOCO+ (testA) 72,7 74,7 73,6 76,1 77,7 76,6
RefCOCO+ (testB) 64,2 68,4 67,1 67,0 71,1 68,6
RefCOCO+ (değer) 68,6 72,0 70,3 72,1 74,4 72,8
RefCOCOg (test) 69,0 71,9 70,7 72,7 74,8 73,7
RefCOCOg (val) 68,3 71,4 70,5 72,3 74,4 73,0
ST-VQA (val) 61,9 64,3 65.1 80,5 82,0 81,8
SciCap 165,1 159,5 156,9 183,3 177,2 172,7
ScienceQA 96,1 98,2 98,2 96,2 98,5 98,6
Screen2Words 113,3 117,8 122,8 114,0 119,1 123,4
TallyQA (karmaşık) 70,3 73,4 74,2 73,6 76,7 76,8
TallyQA (basit) 81,8 83,2 83,4 85,3 86,2 85,7
TextCaps 127,5 137,9 139,9 152.1 157,7 153,6
TextVQA (val) 59,6 64,0 64,7 75,2 76,6 76,2
VATEX 80,8 82,7 - - - -
VQAv2 (minival) 83,0 84,3 84,5 84,8 85,8 85,8
VizWizVQA (val) 76,4 78,1 78,7 77,5 78,6 78,9
WidgetCap 138,1 139,8 138,8 151,4 151,9 148,9
XM3600 (ort.35) 42,8 44,5 45,2 43,2 44,6 45,2
XM3600 (en) 79,8 80,7 81,0 80,3 81,5 81,0
xGQA (avg7) 58,6 61,4 61.1 60,4 62,6 62.1

Ek Karşılaştırmalar

ICDAR 2015 Arızi

Model Hassasiyet Geri çağırma F1
PaliGemma 2 3B 81,88 70,73 75,9

Toplam-Metin

Model Hassasiyet Geri çağırma F1
PaliGemma 2 3B 73,8. 74,54 74,17

FinTabNet

Model S-TEDS TEDS GriTS-Top GriTS-Con
PaliGemma 2 3B 99,18 98,94 99,43 99,21

PubTabNet

Model S-TEDS TEDS GriTS-Top GriTS-Con
PaliGemma 2 3B 97,6 97,31 97,99 97,84

GrandStaff

Model CER LER SER
PaliGemma 2 3B 1,6 6,7 2.3

PubChem

  • PaliGemma 2 3B, Tam Eşleşme: 94,8

DOCCI

Model avg#char avg#sent NES yüzdesi
PaliGemma 2 3B 529 7,74 28,42
PaliGemma 2 10B 521 7,45 20,27
  • avg#char: Ortalama karakter sayısı
  • avg#sent: Ortalama cümle sayısı
  • NES: İçerdiği bilginin sonucu olmayan cümleler

MIMIC-CXR

Model CIDEr BLEU4 Rouge-L RadGraph F1
PaliGemma 2 3B %19,9 %14,6 %31,92 %28,8
PaliGemma 2 10B %17,4 %15 %32,41 %29,5

Görsel Uzamsal Mantık

Model VSR sıfır atışlı split (test) VSR rastgele bölme (test)
PaliGemma 2 3B 0,75 0,82
PaliGemma 2 10B 0,80 0,87

Etik ve güvenlik

Değerlendirme yaklaşımı

Değerlendirme yöntemlerimiz, aşağıdakiler de dahil olmak üzere ilgili içerik politikaları genelinde yapılandırılmış etik ve güvenlik değerlendirmelerini içerir:

  • Çocuk güvenliği, içerik güvenliği ve temsili zararları kapsayan istemler için gerçek kişiler tarafından yapılan değerlendirme. Görüntüye altyazı ekleme ve görsel soru yanıtlama kurulumlarıyla birlikte değerlendirme yaklaşımı hakkında daha fazla bilgi için Gemma model kartına bakın.
  • Resim metne dönüştürme karşılaştırma değerlendirmesi: FairFace veri kümesi (Karkkainen ve diğerleri, 2021).

Değerlendirme sonuçları

  • Etik ve güvenlik değerlendirmelerinin gerçek kişiler tarafından yapılan değerlendirme sonuçları, çocuk güvenliği, içerik güvenliği ve temsili zararlar gibi kategorilerde dahili politikaları karşılamak için kabul edilebilir eşikler dahilindedir.
  • Güçlü dahili değerlendirmelerin yanı sıra, FairFace veri kümesinden alınan resimler için oluşturulan altyazılardaki toksisiteyi, küfürleri ve diğer olası sorunları ölçmek üzere Perspective API'yi (0, 8 eşik değeri) de kullanırız. Algılanan cinsiyet, etnik köken ve yaş özelliklerinin her biri için alt gruplarda gözlemlenen maksimum ve medyan değerleri raporlarız.
Metrik Algılanan cinsiyet Etnik köken Yaş grubu
Model boyutu 3 Mr 10 milyar 28B 3 Mr 10 milyar 28B 3 Mr 10 milyar 28B
Maksimum
Toksiklik %0,14 %0,15 %0,19 %0,29 %0,39 %0,39 %0,26 %0,18 %0,32
Kimlik Saldırısı %0,04 %0,02 %0,02 %0,13 %0,06 %0,06 %0,06 %0,03 %0,06
Insult %0,17 %0,25 %0,17 %0,37 %0,52 %0,52 %0,27 %0,39 %0,24
Tehdit %0,55 %0,43 %0,57 %0,83 %0,48 %0,48 %0,64 %0,43 %0,64
Küfür %0,00 %0,00 %0,00 %0,00 %0,00 %0,00 %0,00 %0,00 %0,00
Medyan
Toksiklik %0,13 %0,10 %0,18 %0,07 %0,07 %0,14 %0,12 %0,08 %0,12
Kimlik Saldırısı %0,02 %0,01 %0,02 %0,00 %0,00 %0,00 %0,00 %0,00 %0,00
Insult %0,15 %0,23 %0,14 %0,14 %0,17 %0,13 %0,09 %0,18 %0,16
Tehdit %0,35 %0,27 %0,41 %0,28 %0,19 %0,42 %0,27 %0,31 % 0,40
Küfür %0,00 %0,00 %0,00 %0,00 %0,00 %0,00 %0,00 %0,00 %0,00

Kullanım ve sınırlamalar

Kullanım amacı

Açık Görsel Dil Modelleri (VLM'ler), çeşitli sektör ve alanlarda çok çeşitli uygulamalara sahiptir. Aşağıdaki olası kullanımlar listesi kapsamlı değildir. Bu listenin amacı, model oluşturucuların model eğitimi ve geliştirmesi kapsamında değerlendirdiği olası kullanım alanları hakkında bağlamsal bilgi sağlamaktır. Gemma modellerinin yasaklanan kullanımları Gemma Yasaklanan Kullanım Politikası'nda belirtilmiştir.

Belirli bir görüntü-dil görevinde hassas ayarlama yapın:

  • Önceden eğitilmiş modeller, görüntü ve dil ile ilgili çeşitli görevlerde (ör. resim altyazı ekleme, kısa video altyazı ekleme, görsel soru yanıtlama, metin okuma, nesne algılama ve nesne segmentasyonu) ince ayarlanabilir.
  • Önceden eğitilmiş modeller, uzaktan algılamayla soru yanıtlama, kör kullanıcıların görsel soruları, bilim soruları yanıtlama, kullanıcı arayüzü öğesi işlevlerini açıklama gibi belirli alanlar için hassas ayarlanabilir.
  • Önceden eğitilmiş modeller, metin dışı çıkışları (ör. sınırlayıcı kutular veya segmentasyon maskeleri) olan görevler için hassas ayarlanabilir.

Görme dili araştırması:

  • Önceden eğitilmiş modeller ve hassas ayarlanmış modeller, araştırmacıların VLM teknikleriyle denemeler yapması, algoritmalar geliştirmesi ve alanın ilerlemesine katkıda bulunması için temel oluşturabilir.

Etik hususlar ve riskler

Görsel dil modellerinin (GDM) geliştirilmesi, çeşitli etik endişelere yol açar. Açık bir model oluştururken aşağıdakileri dikkatlice göz önünde bulundurduk:

  • Önyargı ve Adalet
    • Gerçek dünyadan büyük ölçekli resim metin verileriyle eğitilen VLM'ler, eğitim materyaline yerleştirilmiş sosyo-kültürel önyargıları yansıtabilir. Bu modeller dikkatli bir incelemeden geçirildi. Giriş verileri ön işleme işlemi bu kartta açıklanmış ve sonraki değerlendirmeler raporlanmıştır.
  • Yanlış bilgilendirme ve kötüye kullanım
    • VLM'ler yanlış, yanıltıcı veya zararlı metinler oluşturmak için kötüye kullanılabilir.
    • Modelin sorumlu kullanımıyla ilgili kurallar sağlanmıştır. Sorumlu Üretken Yapay Zeka Aracı Kiti'ne bakın.
  • Şeffaflık ve Sorumluluk
    • Bu model kartında, modellerin mimarisi, özellikleri, sınırlamaları ve değerlendirme süreçleri hakkındaki ayrıntılar özetlenmiştir.
    • Sorumluluk bilinciyle geliştirilmiş açık bir model, VLM teknolojisini yapay zeka ekosistemindeki geliştiricilere ve araştırmacılara sunarak yenilikleri paylaşma fırsatı sunar.

Tespit edilen riskler ve azaltma önlemleri:

  • Eğilimlerin devamı: Model eğitimi, ince ayar ve diğer kullanım alanları sırasında sürekli izleme (değerlendirme metrikleri, gerçek kişiler tarafından inceleme kullanılarak) ve önyargı giderme tekniklerinin keşfedilmesi önerilir.
  • Zararlı içerik oluşturma: İçerik güvenliğiyle ilgili mekanizmalar ve kurallar çok önemlidir. Geliştiricilerin, belirli ürün politikalarına ve uygulama kullanım alanlarına göre dikkatli davranmaları ve uygun içerik güvenliği önlemlerini almaları önerilir.
  • Kötü amaçlarla kötüye kullanım: Teknik sınırlamalar ve geliştirici ile son kullanıcı eğitimi, LLM'lerin kötü amaçlı kullanımını azaltmaya yardımcı olabilir. Kullanıcıların kötüye kullanımı işaretlemesi için eğitim kaynakları ve raporlama mekanizmaları sağlanır: Sorumlu Üretken Yapay Zeka Aracı Kiti'ne bakın. Gemma modellerinin yasaklanan kullanımları Gemma Yasaklanan Kullanım Politikası'nda belirtilmiştir.
  • Gizlilik ihlalleri: Modeller, belirli kişisel bilgiler ve hassas verileri kaldırmak için filtrelenmiş verilerle eğitildi. Geliştiricilerin, gizliliği korumaya yönelik tekniklerle gizlilik yönetmeliklerine uymaları önerilir.

Sınırlamalar

  • Temel Gemma 2 modellerinden devralınan kısıtlamaların çoğu geçerli olmaya devam eder:
    • VLM'ler, net istemler ve talimatlarla çerçevelenebilecek görevlerde daha iyi performans gösterir. Açık uçlu veya son derece karmaşık görevler zorlayıcı olabilir.
    • Doğal dil doğası gereği karmaşıktır. VLM'ler ince nüansları, iğneleyici ifadeleri veya mecazi ifadeleri anlamakta zorlanabilir.
    • VLM'ler, eğitim veri kümelerinden öğrendikleri bilgilere göre yanıtlar oluşturur ancak bilgi tabanı değildir. Yanlış veya güncel olmayan gerçek beyanları oluşturabilirler.
    • VLM'ler, dil ve görsellerdeki istatistiksel kalıpları kullanır. Belirli durumlarda sağduyulu düşünme becerisine sahip olmayabilirler.
  • PaliGemma 2, öncelikle özel görevlere ince ayar yapmak için genel bir önceden eğitilmiş model olarak tasarlanmıştır. Bu nedenle, "kutudan çıkar çıkmaz" veya "sıfır atış" performansı, özellikle genel amaçlı kullanım için tasarlanmış modellerin gerisinde kalabilir.
  • PaliGemma 2, çok turlu bir chatbot değildir. Tek bir resim ve metin girişi için tasarlanmıştır.