Model sayfası: PaliGemma
Kaynaklar ve teknik dokümanlar:
Kullanım Şartları: Şartlar
Yazarlar: Google
Model bilgileri
Model özeti
PaliGemma 2, PaliGemma görüntü-dil modelinin (VLM) Gemma 2 modellerinin özelliklerini içeren bir güncellemesidir. PaliGemma model ailesi, PaLI-3'ten esinlenerek tasarlanmış olup SigLIP görüntü modeli ve Gemma 2 dil modelleri gibi açık bileşenlere dayanır. Hem görsel hem de metni giriş olarak alır ve birden fazla dili destekleyen metin çıktısı oluşturur. Görüntü ve kısa video altyazı, görsel soru yanıtlama, metin okuma, nesne algılama ve nesne segmentasyonu gibi çeşitli görüntü-dil görevlerinde sınıfının en iyisi hassas ayar performansı için tasarlanmıştır.
Model mimarisi
PaliGemma 2, bir Dönüştürücü kod çözücü ve Görsel Dönüştürücü resim kodlayıcıdan oluşur. Metin kod çözücü, 2B, 9B ve 27B parametre boyutlarında Gemma 2'den başlatılır. Görüntü kodlayıcı, SigLIP-So400m/14 ile başlatılır. Orijinal PaliGemma modeline benzer şekilde PaliGemma 2, PaLI-3 tariflerine göre eğitilir.
Girdiler ve çıktılar
- Giriş: Görüntü ve metin dizesi (ör. resme altyazı ekleme istemi veya soru).
- Çıktı: Girişe yanıt olarak oluşturulan metin (ör. resmin başlığı, bir sorunun yanıtı, nesne sınır kutusu koordinatlarının listesi veya segmentasyon kod kelimeleri).
Alıntı
@article{
title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
year={2024},
journal={arXiv preprint arXiv:2412.03555}
}
Model verileri
Veri kümelerini önceden eğitme
PaliGemma 2, aşağıdaki veri kümesi karışımında önceden eğitilmiştir:
- WebLI: WebLI (Web Dil Resmi), herkese açık web'den oluşturulan web ölçeğinde çok dilli bir resim metin veri kümesidir. Görsel semantik anlama, nesne yerelleştirme, görsel olarak yerleştirilmiş metin anlama ve çok dilli olma gibi çok yönlü model özellikleri elde etmek için çok çeşitli WebLI bölme işlemleri kullanılır.
- CC3M-35L: Web sayfalarından seçilmiş İngilizce resim-alt_metin çiftleri (Sharma ve diğerleri, 2018). 34 ek dile çevirmek için Google Cloud Translation API'yi kullandık.
- VQ²A-CC3M-35L/VQG-CC3M-35L: VQ2A-CC3M alt kümesi (Changpinyo ve ark., 2022a) Google Cloud Translation API kullanılarak CC3M-35L ile aynı 34 dile çevrilmiştir.
- OpenImages: OpenImages veri kümesinde elle oluşturulan kurallarla algılama ve nesne bilinçli sorular ve yanıtlar (Piergiovanni ve diğerleri 2022).
- WIT: Wikipedia'dan toplanan resimler ve metinler (Srinivasan ve diğerleri, 2021).
PaliGemma 2, Gemma 2'ye dayanır. Gemma 2 için ön eğitim veri kümeleriyle ilgili bilgileri Gemma 2 model kartında bulabilirsiniz.
Veri sorumluluğu filtreleme
PaliGemma2'yi güvenli ve sorumlu veriler konusunda eğitmek amacıyla WebLI'ye aşağıdaki filtreler uygulanır:
- Pornografik görüntü filtreleme: Bu filtre, pornografik nitelikte olduğu kabul edilen resimleri kaldırır.
- Metin güvenliği filtreleme: Güvenli olmayan metinlerle eşleştirilen resimleri tespit edip filtreleriz. Güvenli olmayan metin, çocuk cinsel istismarı görüntüleri (CSAI), pornografi, kaba dil veya başka bir şekilde rahatsız edici olduğu kabul edilen metinlerdir.
- Metin toksisitesi filtreleme: Ayrıca, Perspective API'yi kullanarak hakaret, müstehcenlik, nefret veya başka bir şekilde toksik olarak değerlendirilen metinlerle birlikte kullanılan resimleri tespit edip filtreliyoruz.
- Metinlerdeki kişisel bilgileri filtreleme: Kullanıcıların gizliliğini korumak için Cloud Data Loss Prevention (DLP) API'yi kullanarak belirli kişisel bilgileri ve diğer hassas verileri filtreledik. Vatandaşlık numarası ve diğer hassas bilgi türleri gibi tanımlayıcı bilgiler kaldırıldı.
- Ek yöntemler: Politikalarımıza ve uygulamalarımıza uygun olarak içerik kalitesine ve güvenliğine göre filtreleme
Uygulama bilgileri
Donanım
PaliGemma 2, en yeni nesil Tensor İşleme Birimi (TPU) donanımı (TPUv5e) kullanılarak eğitildi.
Yazılım
Eğitim, JAX, Flax, TFDS ve big_vision
kullanılarak tamamlandı.
JAX, araştırmacıların büyük modelleri daha hızlı ve verimli bir şekilde eğitmek için TPU'lar da dahil olmak üzere en yeni nesil donanımlardan yararlanmasına olanak tanır.
TFDS, veri kümelerine erişmek için kullanılır ve Flax, model mimarisi için kullanılır. PaliGemma 2 ince ayar kodu ve çıkarım kodu, big_vision
GitHub deposunda yayınlanmıştır.
Değerlendirme bilgileri
Karşılaştırma sonuçları
PaliGemma 2'nin çok çeşitli akademik görevlere aktarılabilirliğini doğrulamak için önceden eğitilmiş modellerde her görev için ince ayar yaparız. Hangi görevlerin daha yüksek çözünürlükten yararlandığına dair bir fikir vermek için farklı çözünürlüklerdeki sonuçları bildiririz. Önemli bir nokta, bu görevlerin veya veri kümelerinin hiçbirinin ön eğitim veri karışımına dahil edilmemesi ve görüntülerinin web ölçeğindeki ön eğitim verilerinden açıkça kaldırılmasıdır.
PaliGemma 2 sonuçları (model çözünürlüğüne ve boyutuna göre)
Karşılaştırma | 224-3B | 224-10B | 224-28B | 448-3B | 448-10B | 448-28B |
---|---|---|---|---|---|---|
AI2D | 74,7 | 83,1 | 83,2 | 76,0 | 84,4 | 84,6 |
AOKVQA-DA (val) | 64,2 | 68,9 | 70,2 | 67,9 | 70,8 | 71,2 |
AOKVQA-MC (val) | 79,7 | 83,7 | 84,7 | 82,5 | 85,9 | 87,0 |
ActivityNet-CAP | 34,2 | 35,9 | - | - | - | - |
ActivityNet-QA | 51,3 | 53,2 | - | - | - | - |
COCO-35L (ort.34) | 113,9 | 115,8 | 116,5 | 115,8 | 117,2 | 117,2 |
COCO-35L (en) | 138,4 | 140,8 | 142,4 | 140,4 | 142,4 | 142,3 |
COCOcap | 141,3 | 143,7 | 144,0 | 143,4 | 145,0 | 145,2 |
ChartQA (ortalama) | 74,4 | 74,2 | 68,9 | 89,2 | 90,1 | 85,1 |
ChartQA (insan) | 42,0 | 48,4 | 46,8 | 54,0 | 66,4 | 61.3 |
CountBenchQA | 81,0 | 84,0 | 86,4 | 82,0 | 85,3 | 87,4 |
DocVQA (val) | 39,9 | 43,9 | 44,9 | 73,6 | 76,6 | 76,1 |
GQA | 66,2 | 67,2 | 67,3 | 68,1 | 68,3 | 68,3 |
InfoVQA (değer) | 25,2 | 33,6 | 36,4 | 37,5 | 47,8 | 46,7 |
MARVL (avg5) | 83,5 | 89,5 | 90,6 | 82,7 | 89,1 | 89,7 |
MSRVTT-CAP | 68,5 | 72,1 | - | - | - | - |
MSRVTT-QA | 50,5 | 51,9 | - | - | - | - |
MSVD-QA | 61.1 | 62,5 | - | - | - | - |
NLVR2 | 91,4 | 93,9 | 94,2 | 91,6 | 93,7 | 94,1 |
NoCaps | 123.1 | 126,3 | 127,1 | 123,5 | 126,9 | 127,0 |
OCR-VQA | 73,4 | 74,7 | 75,3 | 75,7 | 76,3 | 76,6 |
OKVQA | 64,2 | 68,0 | 71,2 | 64,1 | 68,6 | 70,6 |
RSVQA-hr (test) | 92,7 | 92,6 | 92,7 | 92,8 | 92,8 | 92,8 |
RSVQA-hr (test2) | 90,9 | 90,8 | 90,9 | 90,7 | 90,7 | 90,8 |
RSVQA-lr | 93,0 | 92,8 | 93,5 | 92,7 | 93,1 | 93,7 |
RefCOCO (testA) | 75,7 | 77,2 | 76,8 | 78,6 | 79,7 | 79,3 |
RefCOCO (testB) | 71,0 | 74,2 | 73,9 | 73,5 | 76,2 | 74,8 |
RefCOCO (val) | 73,4 | 75,9 | 75,0 | 76,3 | 78,2 | 77,3 |
RefCOCO+ (testA) | 72,7 | 74,7 | 73,6 | 76,1 | 77,7 | 76,6 |
RefCOCO+ (testB) | 64,2 | 68,4 | 67,1 | 67,0 | 71,1 | 68,6 |
RefCOCO+ (değer) | 68,6 | 72,0 | 70,3 | 72,1 | 74,4 | 72,8 |
RefCOCOg (test) | 69,0 | 71,9 | 70,7 | 72,7 | 74,8 | 73,7 |
RefCOCOg (val) | 68,3 | 71,4 | 70,5 | 72,3 | 74,4 | 73,0 |
ST-VQA (val) | 61,9 | 64,3 | 65.1 | 80,5 | 82,0 | 81,8 |
SciCap | 165,1 | 159,5 | 156,9 | 183,3 | 177,2 | 172,7 |
ScienceQA | 96,1 | 98,2 | 98,2 | 96,2 | 98,5 | 98,6 |
Screen2Words | 113,3 | 117,8 | 122,8 | 114,0 | 119,1 | 123,4 |
TallyQA (karmaşık) | 70,3 | 73,4 | 74,2 | 73,6 | 76,7 | 76,8 |
TallyQA (basit) | 81,8 | 83,2 | 83,4 | 85,3 | 86,2 | 85,7 |
TextCaps | 127,5 | 137,9 | 139,9 | 152.1 | 157,7 | 153,6 |
TextVQA (val) | 59,6 | 64,0 | 64,7 | 75,2 | 76,6 | 76,2 |
VATEX | 80,8 | 82,7 | - | - | - | - |
VQAv2 (minival) | 83,0 | 84,3 | 84,5 | 84,8 | 85,8 | 85,8 |
VizWizVQA (val) | 76,4 | 78,1 | 78,7 | 77,5 | 78,6 | 78,9 |
WidgetCap | 138,1 | 139,8 | 138,8 | 151,4 | 151,9 | 148,9 |
XM3600 (ort.35) | 42,8 | 44,5 | 45,2 | 43,2 | 44,6 | 45,2 |
XM3600 (en) | 79,8 | 80,7 | 81,0 | 80,3 | 81,5 | 81,0 |
xGQA (avg7) | 58,6 | 61,4 | 61.1 | 60,4 | 62,6 | 62.1 |
Ek Karşılaştırmalar
Model | Hassasiyet | Geri çağırma | F1 |
---|---|---|---|
PaliGemma 2 3B | 81,88 | 70,73 | 75,9 |
Model | Hassasiyet | Geri çağırma | F1 |
---|---|---|---|
PaliGemma 2 3B | 73,8. | 74,54 | 74,17 |
Model | S-TEDS | TEDS | GriTS-Top | GriTS-Con |
---|---|---|---|---|
PaliGemma 2 3B | 99,18 | 98,94 | 99,43 | 99,21 |
Model | S-TEDS | TEDS | GriTS-Top | GriTS-Con |
---|---|---|---|---|
PaliGemma 2 3B | 97,6 | 97,31 | 97,99 | 97,84 |
Model | CER | LER | SER |
---|---|---|---|
PaliGemma 2 3B | 1,6 | 6,7 | 2.3 |
- PaliGemma 2 3B, Tam Eşleşme: 94,8
Model | avg#char | avg#sent | NES yüzdesi |
---|---|---|---|
PaliGemma 2 3B | 529 | 7,74 | 28,42 |
PaliGemma 2 10B | 521 | 7,45 | 20,27 |
- avg#char: Ortalama karakter sayısı
- avg#sent: Ortalama cümle sayısı
- NES: İçerdiği bilginin sonucu olmayan cümleler
Model | CIDEr | BLEU4 | Rouge-L | RadGraph F1 |
---|---|---|---|---|
PaliGemma 2 3B | %19,9 | %14,6 | %31,92 | %28,8 |
PaliGemma 2 10B | %17,4 | %15 | %32,41 | %29,5 |
Model | VSR sıfır atışlı split (test) | VSR rastgele bölme (test) |
---|---|---|
PaliGemma 2 3B | 0,75 | 0,82 |
PaliGemma 2 10B | 0,80 | 0,87 |
Etik ve güvenlik
Değerlendirme yaklaşımı
Değerlendirme yöntemlerimiz, aşağıdakiler de dahil olmak üzere ilgili içerik politikaları genelinde yapılandırılmış etik ve güvenlik değerlendirmelerini içerir:
- Çocuk güvenliği, içerik güvenliği ve temsili zararları kapsayan istemler için gerçek kişiler tarafından yapılan değerlendirme. Görüntüye altyazı ekleme ve görsel soru yanıtlama kurulumlarıyla birlikte değerlendirme yaklaşımı hakkında daha fazla bilgi için Gemma model kartına bakın.
- Resim metne dönüştürme karşılaştırma değerlendirmesi: FairFace veri kümesi (Karkkainen ve diğerleri, 2021).
Değerlendirme sonuçları
- Etik ve güvenlik değerlendirmelerinin gerçek kişiler tarafından yapılan değerlendirme sonuçları, çocuk güvenliği, içerik güvenliği ve temsili zararlar gibi kategorilerde dahili politikaları karşılamak için kabul edilebilir eşikler dahilindedir.
- Güçlü dahili değerlendirmelerin yanı sıra, FairFace veri kümesinden alınan resimler için oluşturulan altyazılardaki toksisiteyi, küfürleri ve diğer olası sorunları ölçmek üzere Perspective API'yi (0, 8 eşik değeri) de kullanırız. Algılanan cinsiyet, etnik köken ve yaş özelliklerinin her biri için alt gruplarda gözlemlenen maksimum ve medyan değerleri raporlarız.
Metrik | Algılanan cinsiyet | Etnik köken | Yaş grubu | ||||||
---|---|---|---|---|---|---|---|---|---|
Model boyutu | 3 Mr | 10 milyar | 28B | 3 Mr | 10 milyar | 28B | 3 Mr | 10 milyar | 28B |
Maksimum | |||||||||
Toksiklik | %0,14 | %0,15 | %0,19 | %0,29 | %0,39 | %0,39 | %0,26 | %0,18 | %0,32 |
Kimlik Saldırısı | %0,04 | %0,02 | %0,02 | %0,13 | %0,06 | %0,06 | %0,06 | %0,03 | %0,06 |
Insult | %0,17 | %0,25 | %0,17 | %0,37 | %0,52 | %0,52 | %0,27 | %0,39 | %0,24 |
Tehdit | %0,55 | %0,43 | %0,57 | %0,83 | %0,48 | %0,48 | %0,64 | %0,43 | %0,64 |
Küfür | %0,00 | %0,00 | %0,00 | %0,00 | %0,00 | %0,00 | %0,00 | %0,00 | %0,00 |
Medyan | |||||||||
Toksiklik | %0,13 | %0,10 | %0,18 | %0,07 | %0,07 | %0,14 | %0,12 | %0,08 | %0,12 |
Kimlik Saldırısı | %0,02 | %0,01 | %0,02 | %0,00 | %0,00 | %0,00 | %0,00 | %0,00 | %0,00 |
Insult | %0,15 | %0,23 | %0,14 | %0,14 | %0,17 | %0,13 | %0,09 | %0,18 | %0,16 |
Tehdit | %0,35 | %0,27 | %0,41 | %0,28 | %0,19 | %0,42 | %0,27 | %0,31 | % 0,40 |
Küfür | %0,00 | %0,00 | %0,00 | %0,00 | %0,00 | %0,00 | %0,00 | %0,00 | %0,00 |
Kullanım ve sınırlamalar
Kullanım amacı
Açık Görsel Dil Modelleri (VLM'ler), çeşitli sektör ve alanlarda çok çeşitli uygulamalara sahiptir. Aşağıdaki olası kullanımlar listesi kapsamlı değildir. Bu listenin amacı, model oluşturucuların model eğitimi ve geliştirmesi kapsamında değerlendirdiği olası kullanım alanları hakkında bağlamsal bilgi sağlamaktır. Gemma modellerinin yasaklanan kullanımları Gemma Yasaklanan Kullanım Politikası'nda belirtilmiştir.
Belirli bir görüntü-dil görevinde hassas ayarlama yapın:
- Önceden eğitilmiş modeller, görüntü ve dil ile ilgili çeşitli görevlerde (ör. resim altyazı ekleme, kısa video altyazı ekleme, görsel soru yanıtlama, metin okuma, nesne algılama ve nesne segmentasyonu) ince ayarlanabilir.
- Önceden eğitilmiş modeller, uzaktan algılamayla soru yanıtlama, kör kullanıcıların görsel soruları, bilim soruları yanıtlama, kullanıcı arayüzü öğesi işlevlerini açıklama gibi belirli alanlar için hassas ayarlanabilir.
- Önceden eğitilmiş modeller, metin dışı çıkışları (ör. sınırlayıcı kutular veya segmentasyon maskeleri) olan görevler için hassas ayarlanabilir.
Görme dili araştırması:
- Önceden eğitilmiş modeller ve hassas ayarlanmış modeller, araştırmacıların VLM teknikleriyle denemeler yapması, algoritmalar geliştirmesi ve alanın ilerlemesine katkıda bulunması için temel oluşturabilir.
Etik hususlar ve riskler
Görsel dil modellerinin (GDM) geliştirilmesi, çeşitli etik endişelere yol açar. Açık bir model oluştururken aşağıdakileri dikkatlice göz önünde bulundurduk:
- Önyargı ve Adalet
- Gerçek dünyadan büyük ölçekli resim metin verileriyle eğitilen VLM'ler, eğitim materyaline yerleştirilmiş sosyo-kültürel önyargıları yansıtabilir. Bu modeller dikkatli bir incelemeden geçirildi. Giriş verileri ön işleme işlemi bu kartta açıklanmış ve sonraki değerlendirmeler raporlanmıştır.
- Yanlış bilgilendirme ve kötüye kullanım
- VLM'ler yanlış, yanıltıcı veya zararlı metinler oluşturmak için kötüye kullanılabilir.
- Modelin sorumlu kullanımıyla ilgili kurallar sağlanmıştır. Sorumlu Üretken Yapay Zeka Aracı Kiti'ne bakın.
- Şeffaflık ve Sorumluluk
- Bu model kartında, modellerin mimarisi, özellikleri, sınırlamaları ve değerlendirme süreçleri hakkındaki ayrıntılar özetlenmiştir.
- Sorumluluk bilinciyle geliştirilmiş açık bir model, VLM teknolojisini yapay zeka ekosistemindeki geliştiricilere ve araştırmacılara sunarak yenilikleri paylaşma fırsatı sunar.
Tespit edilen riskler ve azaltma önlemleri:
- Eğilimlerin devamı: Model eğitimi, ince ayar ve diğer kullanım alanları sırasında sürekli izleme (değerlendirme metrikleri, gerçek kişiler tarafından inceleme kullanılarak) ve önyargı giderme tekniklerinin keşfedilmesi önerilir.
- Zararlı içerik oluşturma: İçerik güvenliğiyle ilgili mekanizmalar ve kurallar çok önemlidir. Geliştiricilerin, belirli ürün politikalarına ve uygulama kullanım alanlarına göre dikkatli davranmaları ve uygun içerik güvenliği önlemlerini almaları önerilir.
- Kötü amaçlarla kötüye kullanım: Teknik sınırlamalar ve geliştirici ile son kullanıcı eğitimi, LLM'lerin kötü amaçlı kullanımını azaltmaya yardımcı olabilir. Kullanıcıların kötüye kullanımı işaretlemesi için eğitim kaynakları ve raporlama mekanizmaları sağlanır: Sorumlu Üretken Yapay Zeka Aracı Kiti'ne bakın. Gemma modellerinin yasaklanan kullanımları Gemma Yasaklanan Kullanım Politikası'nda belirtilmiştir.
- Gizlilik ihlalleri: Modeller, belirli kişisel bilgiler ve hassas verileri kaldırmak için filtrelenmiş verilerle eğitildi. Geliştiricilerin, gizliliği korumaya yönelik tekniklerle gizlilik yönetmeliklerine uymaları önerilir.
Sınırlamalar
- Temel Gemma 2 modellerinden devralınan kısıtlamaların çoğu geçerli olmaya devam eder:
- VLM'ler, net istemler ve talimatlarla çerçevelenebilecek görevlerde daha iyi performans gösterir. Açık uçlu veya son derece karmaşık görevler zorlayıcı olabilir.
- Doğal dil doğası gereği karmaşıktır. VLM'ler ince nüansları, iğneleyici ifadeleri veya mecazi ifadeleri anlamakta zorlanabilir.
- VLM'ler, eğitim veri kümelerinden öğrendikleri bilgilere göre yanıtlar oluşturur ancak bilgi tabanı değildir. Yanlış veya güncel olmayan gerçek beyanları oluşturabilirler.
- VLM'ler, dil ve görsellerdeki istatistiksel kalıpları kullanır. Belirli durumlarda sağduyulu düşünme becerisine sahip olmayabilirler.
- PaliGemma 2, öncelikle özel görevlere ince ayar yapmak için genel bir önceden eğitilmiş model olarak tasarlanmıştır. Bu nedenle, "kutudan çıkar çıkmaz" veya "sıfır atış" performansı, özellikle genel amaçlı kullanım için tasarlanmış modellerin gerisinde kalabilir.
- PaliGemma 2, çok turlu bir chatbot değildir. Tek bir resim ve metin girişi için tasarlanmıştır.