Model sayfası: PaliGemma
Kaynaklar ve teknik dokümanlar:
Kullanım Şartları: Şartlar
Yazarlar: Google
Model bilgileri
Model özeti
Açıklama
PaliGemma, PaLI-3'ten esinlenen ve SigLIP görüntü modeli ile Gemma dil modeli gibi açık bileşenlere dayalı, çok yönlü ve hafif bir görüntü-dil modelidir (VLM). Hem resim hem de metni giriş olarak alır ve birden fazla dili destekleyen metin çıkışı oluşturur. Görüntü ve kısa video altyazı, görsel soru yanıtlama, metin okuma, nesne algılama ve nesne segmentasyonu gibi çok çeşitli görüntü-dil görevlerinde sınıfının en iyisi hassas ayar performansı için tasarlanmıştır.
Model mimarisi
PaliGemma, toplam 3 milyar parametreye sahip bir Dönüştürücü kod çözücü ve Görsel Dönüştürücü görüntü kodlayıcıdan oluşur. Metin kod çözücü, Gemma-2B'den başlatılır. Resim kodlayıcı, SigLIP-So400m/14'ten başlatılır. PaliGemma, PaLI-3 tariflerine göre eğitilmiştir.
Girdiler ve çıktılar
- Giriş: Görüntü ve metin dizesi (ör. resme altyazı ekleme istemi veya soru).
- Çıktı: Girişe yanıt olarak oluşturulan metin (ör. resmin başlığı, bir soruya verilen yanıt, nesne sınır kutusu koordinatlarının listesi veya segmentasyon kod kelimeleri).
Alıntı
@article{
title={PaliGemma: A versatile 3B VLM for transfer},
author={Lucas Beyer and Andreas Steiner and André Susano Pinto and Alexander Kolesnikov and Xiao Wang* and Daniel Salz and Maxim Neumann and Ibrahim Alabdulmohsin and Michael Tschannen and Emanuele Bugliarello and Thomas Unterthiner and Daniel Keysers and Skanda Koppula and Fangyu Liu and Adam Grycner and Alexey Gritsenko and Neil Houlsby and Manoj Kumar and Keran Rong and Julian Eisenschlos and Rishabh Kabra and Matthias Bauer and Matko Bošnjak and Xi Chen and Matthias Minderer and Paul Voigtlaender and Ioana Bica and Ivana Balazevic and Joan Puigcerver and Pinelopi Papalampidi and Olivier Henaff and Xi Xiong and Radu Soricut and Jeremiah Harmsen and Xiaohua Zhai},
year={2024},
journal={arXiv preprint arXiv:2407.07726}
}
Model verileri
Veri kümelerini önceden eğitme
PaliGemma, aşağıdaki veri kümesi karışımında önceden eğitilmiştir:
- WebLI: WebLI (Web Dil Resmi), herkese açık web'den oluşturulan web ölçeğinde çok dilli bir resim metin veri kümesidir. Görsel semantik anlama, nesne yerelleştirme, görsel olarak yerleştirilmiş metin anlama, çok dilli olma gibi çok yönlü model özellikleri elde etmek için çok çeşitli WebLI bölme işlemleri kullanılır.
- CC3M-35L: Web sayfalarından seçilmiş İngilizce resim-alt_metin çiftleri (Sharma et al., 2018). 34 ek dile çevirmek için Google Cloud Translation API'yi kullandık.
- VQ²A-CC3M-35L/VQG-CC3M-35L: VQ2A-CC3M'nin alt kümesi (Changpinyo ve ark., 2022a) Google Cloud Translation API kullanılarak CC3M-35L ile aynı 34 dile çevrilmiştir.
- OpenImages: OpenImages veri kümesinde elle oluşturulan kurallarla algılama ve nesne bilinçli sorular ve yanıtlar (Piergiovanni ve diğerleri 2022).
- WIT: Wikipedia'dan toplanan görseller ve metinler (Srinivasan ve ark., 2021).
Veri sorumluluğu filtreleme
PaliGemma'yı temiz verilerle eğitmek amacıyla WebLI'ye aşağıdaki filtreler uygulanır:
- Pornografik resim filtreleme: Bu filtre, pornografik nitelikte olduğu kabul edilen resimleri kaldırır.
- Metin güvenliği filtreleme: Güvenli olmayan metinlerle eşleştirilen resimleri tespit edip filtreleriz. Güvenli olmayan metin, çocuk cinsel istismarı görüntüleri (CSAI), pornografi, kaba dil veya başka bir şekilde rahatsız edici olduğu kabul edilen metinlerdir.
- Metin toksisitesi filtreleme: Ayrıca, hakaret, müstehcenlik, nefret veya başka bir şekilde toksik olarak değerlendirilen metinlerle birlikte kullanılan resimleri tespit etmek ve filtrelemek için Perspective API'yi kullanırız.
- Metinlerdeki kişisel bilgileri filtreleme: Kullanıcıların gizliliğini korumak için Cloud Data Loss Prevention (DLP) API'yi kullanarak belirli kişisel bilgileri ve diğer hassas verileri filtreledik. Vatandaşlık numarası ve diğer hassas bilgi türleri gibi tanımlayıcı bilgiler kaldırıldı.
- Ek yöntemler: Politikalarımıza ve uygulamalarımıza uygun olarak içerik kalitesine ve güvenliğine göre filtreleme
Uygulama bilgileri
Donanım
PaliGemma, en yeni nesil Tensor İşleme Birimi (TPU) donanımı (TPUv5e) kullanılarak eğitildi.
Yazılım
Eğitim, JAX, Flax, TFDS ve big_vision
kullanılarak tamamlandı.
JAX, araştırmacıların büyük modelleri daha hızlı ve verimli bir şekilde eğitmek için TPU'lar da dahil olmak üzere en yeni nesil donanımlardan yararlanmasına olanak tanır.
TFDS, veri kümelerine erişmek için kullanılır ve Flax, model mimarisi için kullanılır. PaliGemma hassas ayar kodu ve çıkarım kodu, big_vision
GitHub deposunda yayınlanır.
Değerlendirme bilgileri
Karşılaştırma sonuçları
PaliGemma'nın çeşitli akademik görevlere aktarılabilirliğini doğrulamak için önceden eğitilmiş modellerde her görev için ince ayar yaparız. Ayrıca, karma modeli aktarım görevlerinin bir karışımıyla eğitiriz. Hangi görevlerin daha yüksek çözünürlükten yararlandığına dair bir fikir vermek için farklı çözünürlüklerdeki sonuçları bildiririz. Önemli bir nokta, bu görevlerin veya veri kümelerinin hiçbirinin ön eğitim veri karışımına dahil edilmemesi ve resimlerinin web ölçeğindeki ön eğitim verilerinden açıkça kaldırılmasıdır.
Tek görev (tek görevde hassas ayarlama)
Karşılaştırma (eğitim verisi dağılımı) | Metrik (bölüm) | pt-224 | pt-448 | pt-896 |
---|---|---|---|---|
Altyazı ekleme | ||||
COCO altyazılar (train+restval) | CIDEr (val) | 141,92 | 144,60 | |
NoCaps (COCO altyazı aktarımının değerlendirilmesi) | CIDEr (val) | 121,72 | 123,58 | |
COCO-35L (tren) | CIDEr dev (en/avg-34/avg) |
|
|
|
XM3600 (COCO-35L aktarımının değerlendirilmesi) | CIDEr dev (en/avg-34/avg) |
|
|
|
TextCaps (eğitim) | CIDEr (değer) | 127,48 | 153,94 | |
SciCap (ilk cümle, alt resim yok) (eğitim+değerlendirme) | CIDEr/BLEU-4 (test) |
|
|
|
Screen2words (eğitim+geliştirme) | CIDEr (test) | 117,57 | 119,59 | |
Widget Altyazı Ekleme (eğitim+geliştirme) | CIDEr (test) | 136,07 | 148,36 | |
Soru yanıtlama | ||||
VQAv2 (eğitim+doğrulama) | Doğruluk (Test sunucusu - std) | 83,19 | 85,64 | |
MMVP (VQAv2 aktarımının değerlendirilmesi) | Eşleme Doğruluğu | 47,33 | 45,33 | |
POPE (VQAv2 aktarımının değerlendirilmesi) | Doğruluk (rastgele/popüler/düşmanca) |
|
|
|
OKVQA (tren) | Doğruluk (değer) | 63,54 | 63,15 | |
A-OKVQA (MC) (train+val) | Doğruluk (Test sunucusu) | 76,37 | 76,90 | |
A-OKVQA (DA) (train+val) | Doğruluk (Test sunucusu) | 61,85 | 63,22 | |
GQA (train_balanced+val_balanced) | Doğruluk (testdev dengeli) | 65,61 | 67,03 | |
xGQA (Güvenilir Kalite Güvencesi aktarımı değerlendirmesi) | Ortalama Doğruluk (bn, de, en, id, ko, pt, ru, zh) | 58,37 | 59,07 | |
NLVR2 (train+dev) | Doğruluk (test) | 90,02 | 88,93 | |
MaRVL (NLVR2 aktarımının değerlendirilmesi) | Ortalama Doğruluk (test) (id, sw, ta, tr, zh) | 80,57 | 76,78 | |
AI2D (eğit) | Doğruluk (test) | 72,12 | 73,28 | |
ScienceQA (Img alt kümesi, CoT yok) (eğitim+değerlendirme) | Doğruluk (test) | 95,39 | 95,93 | |
RSVQA-LR (Sayısal olmayan) (eğitim+değerlendirme) | Ortalama Doğruluk (test) | 92,65 | 93,11 | |
RSVQA-HR (Sayısal olmayan) (eğitim+değerlendirme) | Ortalama Doğruluk (test/test2) |
|
|
|
ChartQA (insan+artırma)x(eğitim+değerlendirme) | Ortalama Gevşek Doğruluk (test_human, test_aug) | 57,08 | 71,36 | |
VizWiz VQA (eğitim+değerlendirme) | Doğruluk (Test sunucusu - std) | 73,7 | 75,52 | |
TallyQA (eğitim) | Doğruluk (test_simple/test_complex) |
|
|
|
OCR-VQA (eğitim+değerlendirme) | Doğruluk (test) | 72,32 | 74,61 | 74,93 |
TextVQA (train+val) | Doğruluk (Test sunucusu - std) | 55,47 | 73,15 | 76,48 |
DocVQA (eğitim+değerlendirme) | ANLS (Test sunucusu) | 43,74 | 78,02 | 84,77 |
İnfografik VQA (eğitim+değerlendirme) | ANLS (Test sunucusu) | 28,46 | 40,47 | 47,75 |
SceneText VQA (train+val) | ANLS (Test sunucusu) | 63,29 | 81,82 | 84,40 |
Segmentasyon | ||||
RefCOCO (val ve test resimleri hariç birleştirilmiş refcoco, refcoco+, refcocog) | MIoU (doğrulama) refcoco/refcoco+/refcocog |
|
|
|
Video görevleri (Altyazı/Kalite Güvencesi) | ||||
MSR-VTT (Altyazı) | CIDEr (test) | 70,54 | ||
MSR-VTT (QA) | Doğruluk (test) | 50,09 | ||
ActivityNet (Altyazı) | CIDEr (test) | 34,62 | ||
ActivityNet (QA) | Doğruluk (test) | 50,78 | ||
VATEX (Altyazı) | CIDEr (test) | 79,73 | ||
MSVD (QA) | Doğruluk (test) | 60,22 |
Karışım modeli (aktarılacak görevlerin karışımında ince ayar yapma)
Karşılaştırma | Metrik (bölüm) | mix-224 | mix-448 |
---|---|---|---|
MMVP | Eşleme Doğruluğu | 46,00 | 45,33 |
POPE | Doğruluk (rastgele/popüler/düşmanca) |
|
|
Etik ve güvenlik
Değerlendirme yaklaşımı
Değerlendirme yöntemlerimiz arasında yapılandırılmış değerlendirmeler ve ilgili içerik politikalarının şirket içinde yapılan testleri yer alır. Kırmızı takım çalışması, her biri farklı hedeflere ve insan değerlendirme metriklerini kullanan çeşitli ekipler tarafından yürütüldü. Bu modeller, etik ve güvenlikle ilgili çeşitli kategoriler açısından değerlendirildi. Örneğin:
- Çocuk güvenliği, içerik güvenliği ve temsili zararları kapsayan istemler için gerçek kişiler tarafından yapılan değerlendirme. Görüntüye altyazı ekleme ve görsel soru yanıtlama kurulumlarıyla birlikte değerlendirme yaklaşımı hakkında daha fazla bilgi için Gemma model kartına bakın.
- Resim metne dönüştürme karşılaştırma değerlendirmesi: FairFace veri kümesi (Karkkainen ve diğerleri, 2021).
Değerlendirme sonuçları
- Etik ve güvenlik değerlendirmelerinin gerçek kişiler tarafından yapılan değerlendirme sonuçları, çocuk güvenliği, içerik güvenliği ve temsili zararlar gibi kategorilerde dahili politikaları karşılamak için kabul edilebilir eşikler dahilindedir.
- Güçlü dahili değerlendirmelerin yanı sıra, FairFace veri kümesinden alınan resimler için oluşturulan altyazılardaki toksisiteyi, küfürleri ve diğer olası sorunları ölçmek üzere Perspective API'yi (0, 8 eşik değeri) de kullanırız. Algılanan cinsiyet, etnik köken ve yaş özelliklerinin her biri için alt gruplarda gözlemlenen maksimum ve medyan değerleri raporlarız.
Metrik | Algılanan cinsiyet | Etnik köken | Yaş grubu | |||
---|---|---|---|---|---|---|
Maksimum | Medyan | Maksimum | Medyan | Maksimum | Medyan | |
Toksiklik | %0,04 | %0,03 | %0,08 | %0,00 | %0,09 | %0,00 |
Kimlik saldırısı | %0,00 | %0,00 | %0,00 | %0,00 | %0,00 | %0,00 |
Insult | %0,06 | %0,04 | %0,09 | %0,07 | %0,16 | %0,00 |
Tehdit | %0,06 | %0,05 | %0,14 | %0,05 | %0,17 | %0,00 |
Küfür | %0,00 | %0,00 | %0,00 | %0,00 | %0,00 | %0,00 |
Kullanım ve sınırlamalar
Kullanım amacı
Açık Görsel Dil Modelleri (VLM'ler), çeşitli sektör ve alanlarda çok çeşitli uygulamalara sahiptir. Aşağıdaki olası kullanımlar listesi kapsamlı değildir. Bu listenin amacı, model oluşturucuların model eğitimi ve geliştirmesi kapsamında değerlendirdiği olası kullanım alanları hakkında bağlamsal bilgi sağlamaktır. Gemma modellerinin yasaklanmış kullanımları Gemma Yasaklanan Kullanım Politikası'nda belirtilmiştir.
Belirli bir görüntü-dil görevinde ince ayar yapma:
- Önceden eğitilmiş modeller, görüntü ve dil ile ilgili çeşitli görevlerde (ör. resim altyazı ekleme, kısa video altyazı ekleme, görsel soru yanıtlama, metin okuma, nesne algılama ve nesne segmentasyonu) ince ayarlanabilir.
- Önceden eğitilmiş modeller, uzaktan algılamayla soru yanıtlama, görme engelli kullanıcıların görsel soruları, bilim soruları yanıtlama, kullanıcı arayüzü öğesi işlevlerini açıklama gibi belirli alanlar için hassas ayarlanabilir.
- Önceden eğitilmiş modeller, metin dışı çıkışları (ör. sınırlayıcı kutular veya segmentasyon maskeleri) olan görevler için hassas ayarlanabilir.
Görme dili araştırması:
- Önceden eğitilmiş modeller ve hassas ayarlanmış modeller, araştırmacıların VLM teknikleriyle denemeler yapması, algoritmalar geliştirmesi ve alanın ilerlemesine katkıda bulunması için temel oluşturabilir.
Etik hususlar ve riskler
Görsel dil modellerinin (GDM) geliştirilmesi, çeşitli etik endişelere yol açar. Açık bir model oluştururken aşağıdakileri dikkatlice göz önünde bulundurduk:
- Önyargı ve Adalet
- Gerçek dünyadan büyük ölçekli resim metin verileriyle eğitilen VLM'ler, eğitim materyaline yerleştirilmiş sosyo-kültürel önyargıları yansıtabilir. Bu modeller dikkatli bir incelemeden geçirildi. Giriş verileri ön işleme süreci bu kartta açıklanmış ve sonraki değerlendirmeler raporlanmıştır.
- Yanlış bilgilendirme ve kötüye kullanım
- VLM'ler, yanlış, yanıltıcı veya zararlı metinler oluşturmak için kötüye kullanılabilir.
- Modelin sorumlu kullanımıyla ilgili kurallar sağlanmıştır. Sorumlu Üretken Yapay Zeka Aracı Kiti'ne bakın.
- Şeffaflık ve Sorumluluk
- Bu model kartında, modellerin mimarisi, özellikleri, sınırlamaları ve değerlendirme süreçleri hakkındaki ayrıntılar özetlenmiştir.
- Sorumluluk bilinciyle geliştirilmiş açık bir model, VLM teknolojisini yapay zeka ekosistemindeki geliştiricilere ve araştırmacılara sunarak yenilikleri paylaşma fırsatı sunar.
Tespit edilen riskler ve azaltma önlemleri:
- Eğilimlerin devamı: Model eğitimi, ince ayar ve diğer kullanım alanları sırasında sürekli izleme (değerlendirme metrikleri, gerçek kişiler tarafından inceleme kullanılarak) ve önyargı giderme tekniklerinin keşfedilmesi önerilir.
- Zararlı içerik oluşturma: İçerik güvenliğiyle ilgili mekanizmalar ve kurallar çok önemlidir. Geliştiricilerin, belirli ürün politikalarına ve uygulama kullanım alanlarına göre dikkatli davranmaları ve uygun içerik güvenliği önlemlerini uygulamaları önerilir.
- Kötü amaçlarla kötüye kullanım: Teknik sınırlamalar ve geliştirici ile son kullanıcı eğitimi, LLM'lerin kötü amaçlı kullanımını azaltmaya yardımcı olabilir. Kullanıcıların kötüye kullanımı işaretlemesi için eğitim kaynakları ve raporlama mekanizmaları sağlanır: Sorumlu Üretken Yapay Zeka Aracı Kiti'ne bakın. Gemma modellerinin yasaklanmış kullanımları Gemma Yasaklanan Kullanım Politikası'nda belirtilmiştir.
- Gizlilik ihlalleri: Modeller, belirli kişisel bilgiler ve hassas verileri kaldırmak için filtrelenen verilerle eğitildi. Geliştiricilerin, gizliliği korumaya yönelik tekniklerle gizlilik yönetmeliklerine uymaları önerilir.
Sınırlamalar
- Temel Gemma modelinden devralınan sınırlamaların çoğu geçerli olmaya devam eder:
- VLM'ler, net istemler ve talimatlarla çerçevelenebilecek görevlerde daha iyi performans gösterir. Açık uçlu veya son derece karmaşık görevler zorlayıcı olabilir.
- Doğal dil doğası gereği karmaşıktır. VLM'ler ince nüansları, iğneleyici ifadeleri veya mecazi ifadeleri anlamakta zorlanabilir.
- VLM'ler, eğitim veri kümelerinden öğrendikleri bilgilere göre yanıtlar oluşturur ancak bilgi tabanı değildir. Yanlış veya güncel olmayan gerçek beyanları oluşturabilirler.
- VLM'ler, dil ve görsellerdeki istatistiksel kalıplara dayanır. Belirli durumlarda sağduyulu düşünme yeteneğine sahip olmayabilirler.
- PaliGemma, öncelikle özel görevlere ince ayar yapmak için genel bir önceden eğitilmiş model olarak tasarlanmıştır. Bu nedenle, "kutudan çıkar çıkmaz" veya "sıfır atış" performansı, genel amaçlı kullanım için özel olarak tasarlanmış modellerin gerisinde kalabilir.
- PaliGemma çok turlu bir chatbot değildir. Tek bir resim ve metin girişi için tasarlanmıştır.