Oluşturma ve ayarlama örnekleri için Gemma Cookbook deposuna göz atın. Daha fazla bilgi

Bu sayfa, Cloud Translation API ile çevrilmiştir.

PaliGemma 2 model kartı

Model sayfası: PaliGemma

Kaynaklar ve teknik dokümanlar:

Kullanım Şartları: Şartlar

Yazarlar: Google

Model bilgileri

Model özeti

PaliGemma 2, PaliGemma görüntü-dil modelinin (VLM) Gemma 2 modellerinin özelliklerini içeren bir güncellemesidir. PaliGemma model ailesi, PaLI-3'ten esinlenerek SigLIP görüntü modeli ve Gemma 2 dil modelleri gibi açık bileşenlere dayanır. Hem görsel hem de metni giriş olarak alan bu model, birden fazla dili destekleyen metin çıktısı oluşturur. Görüntü ve kısa video altyazı, görsel soru yanıtlama, metin okuma, nesne algılama ve nesne segmentasyonu gibi çeşitli görüntü-dil görevlerinde sınıfının en iyisi hassas ayar performansı için tasarlanmıştır.

Model mimarisi

PaliGemma 2, bir Dönüştürücü kod çözücü ve Görsel Dönüştürücü resim kodlayıcıdan oluşur. Metin kod çözücü, 2B, 9B ve 27B parametre boyutlarında Gemma 2'den başlatılır. Görüntü kodlayıcı, SigLIP-So400m/14 ile başlatılır. Orijinal PaliGemma modeline benzer şekilde PaliGemma 2, PaLI-3 tariflerine göre eğitilir.

Girdiler ve çıktılar

Giriş: Görüntü ve metin dizesi (ör. resme altyazı ekleme istemi veya soru).
Çıktı: Girişe yanıt olarak oluşturulan metin (ör. resmin başlığı, bir soruya verilen yanıt, nesne sınır kutusu koordinatlarının listesi veya segmentasyon kod kelimeleri).

Alıntı

@article{
    title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
    author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
    year={2024},
    journal={arXiv preprint arXiv:2412.03555}
}

Model verileri

Veri kümelerini önceden eğitme

PaliGemma 2, aşağıdaki veri kümesi karışımında önceden eğitilmiştir:

WebLI: WebLI (Web Dil Resmi), herkese açık web'den oluşturulan web ölçeğinde çok dilli bir resim metin veri kümesidir. Görsel semantik anlama, nesne yerelleştirme, görsel olarak yerleştirilmiş metin anlama ve çok dilli olma gibi çok yönlü model özellikleri elde etmek için çok çeşitli WebLI bölme işlemleri kullanılır.
CC3M-35L: Web sayfalarından seçilmiş İngilizce resim-alt_metin çiftleri (Sharma ve diğerleri, 2018). 34 ek dile çevirmek için Google Cloud Translation API'yi kullandık.
VQ²A-CC3M-35L/VQG-CC3M-35L: VQ2A-CC3M alt kümesi (Changpinyo ve ark., 2022a) Google Cloud Translation API kullanılarak CC3M-35L ile aynı 34 dile çevrilmiştir.
OpenImages: OpenImages veri kümesinde elle oluşturulan kurallarla algılama ve nesneye duyarlı sorular ve yanıtlar (Piergiovanni ve diğerleri 2022).
WIT: Wikipedia'dan toplanan resimler ve metinler (Srinivasan ve diğerleri, 2021).

PaliGemma 2, Gemma 2'ye dayanır. Gemma 2 için ön eğitim veri kümeleriyle ilgili bilgileri Gemma 2 model kartında bulabilirsiniz.

Veri sorumluluğu filtreleme

PaliGemma2'yi güvenli ve sorumlu veriler konusunda eğitmek amacıyla WebLI'ye aşağıdaki filtreler uygulanır:

Pornografik görüntü filtreleme: Bu filtre, pornografik nitelikte olduğu kabul edilen resimleri kaldırır.
Metin güvenliği filtreleme: Güvenli olmayan metinlerle eşleştirilen resimleri tespit edip filtreleriz. Güvenli olmayan metin, çocuk cinsel istismarı görüntüleri (CSAI), pornografi, kaba dil veya başka bir şekilde rahatsız edici olduğu kabul edilen metinlerdir.
Metin toksisitesi filtreleme: Ayrıca, Perspective API'yi kullanarak hakaret, müstehcenlik, nefret veya başka bir şekilde toksik olarak değerlendirilen metinlerle birlikte kullanılan resimleri tespit edip filtreliyoruz.
Kişisel bilgiler içeren metinleri filtreleme: Kullanıcıların gizliliğini korumak için Cloud Data Loss Prevention (DLP) API'yi kullanarak belirli kişisel bilgileri ve diğer hassas verileri filtreledik. Vatandaşlık numarası ve diğer hassas bilgi türleri gibi tanımlayıcı bilgiler kaldırıldı.
Ek yöntemler: Politikalarımıza ve uygulamalarımıza uygun olarak içerik kalitesine ve güvenliğine göre filtreleme

Uygulama bilgileri

Donanım

PaliGemma 2, en yeni nesil Tensor İşleme Birimi (TPU) donanımı (TPUv5e) kullanılarak eğitildi.

Yazılım

Eğitim, JAX, Flax, TFDS ve big_vision kullanılarak tamamlandı.

JAX, araştırmacıların büyük modelleri daha hızlı ve verimli bir şekilde eğitmek için TPU'lar da dahil olmak üzere en yeni nesil donanımlardan yararlanmasına olanak tanır.

TFDS, veri kümelerine erişmek için kullanılır ve Flax, model mimarisi için kullanılır. PaliGemma 2 ince ayar kodu ve çıkarım kodu, big_visionGitHub deposunda yayınlanmıştır.

Değerlendirme bilgileri

Karşılaştırma sonuçları

PaliGemma 2'nin çok çeşitli akademik görevlere aktarılabilirliğini doğrulamak için önceden eğitilmiş modellerde her görev için ince ayar yaparız. Ayrıca, karma modeli aktarma görevlerini içeren bir karışımla eğitiriz. Hangi görevlerin yüksek çözünürlükten yararlandığına dair bir fikir vermek için farklı çözünürlüklerdeki sonuçları bildiririz. Önemli bir nokta, bu görevlerin veya veri kümelerinin hiçbirinin ön eğitim veri karışımına dahil edilmemesi ve görüntülerinin web ölçeğindeki ön eğitim verilerinden açıkça kaldırılmasıdır.

PaliGemma 2 sonuçları (model çözünürlüğüne ve boyutuna göre)

Karşılaştırma	224-3B	224-10B	224-28B	448-3B	448-10B	448-28B
AI2D	74,7	83,1	83,2	76,0	84,4	84,6
AOKVQA-DA (val)	64,2	68,9	70,2	67,9	70,8	71,2
AOKVQA-MC (val)	79,7	83,7	84,7	82,5	85,9	87,0
ActivityNet-CAP	34,2	35,9	-	-	-	-
ActivityNet-QA	51,3	53,2	-	-	-	-
COCO-35L (ort.34)	113,9	115,8	116,5	115,8	117,2	117,2
COCO-35L (en)	138,4	140,8	142,4	140,4	142,4	142,3
COCOcap	141,3	143,7	144,0	143,4	145,0	145,2
ChartQA (ortalama)	74,4	74,2	68,9	89,2	90,1	85,1
ChartQA (insan)	42,0	48,4	46,8	54,0	66,4	61,3
CountBenchQA	81,0	84,0	86,4	82,0	85,3	87,4
DocVQA (val)	39,9	43,9	44,9	73,6	76,6	76,1
GQA	66,2	67,2	67,3	68,1	68,3	68,3
InfoVQA (değer)	25,2	33,6	36,4	37,5	47,8	46,7
MARVL (avg5)	83,5	89,5	90,6	82,7	89,1	89,7
MSRVTT-CAP	68,5	72,1	-	-	-	-
MSRVTT-QA	50,5	51,9	-	-	-	-
MSVD-QA	61.1	62,5	-	-	-	-
NLVR2	91,4	93,9	94,2	91,6	93,7	94,1
NoCaps	123.1	126,3	127,1	123,5	126,90 E£	127,0
OCR-VQA	73,4	74,7	75,3	75,7	76,3	76,6
OKVQA	64,2	68,0	71,2	64,1	68,6	70,6
RSVQA-hr (test)	92,7	92,6	92,7	92,8	92,8	92,8
RSVQA-hr (test2)	90,9	90,8	90,9	90,7	90,7	90,8
RSVQA-lr	93,0	92,8	93,5	92,7	93,1	93,7
RefCOCO (testA)	75,7	77,2	76,8	78,6	79,7	79,3
RefCOCO (testB)	71,0	74,2	73,9	73,5	76,2	74,8
RefCOCO (val)	73,4	75,9	75,0	76,3	78,2	77,3
RefCOCO+ (testA)	72,7	74,7	73,6	76,1	77,7	76,6
RefCOCO+ (testB)	64,2	68,4	67,1	67,0	71,1	68,6
RefCOCO+ (değer)	68,6	72,0	70,3	72,1	74,4	72,8
RefCOCOg (test)	69,0	71,9	70,7	72,7	74,8	73,7
RefCOCOg (val)	68,3	71,4	70,5	72,3	74,4	73,0
ST-VQA (val)	61,9	64,3	65.1	80,5	82,0	81,8
SciCap	165,1	159,5	156,90 E£	183,3	177,2	172,7
ScienceQA	96,1	98,2	98,2	96,2	98,5	98,6
Screen2Words	113,3	117,8	122,8	114,0	119,1	123,4
TallyQA (karmaşık)	70,3	73,4	74,2	73,6	76,7	76,8
TallyQA (basit)	81,8	83,2	83,4	85,3	86,2	85,7
TextCaps	127,5	137,9	139,90 E£	152,1	157,7	153,6
TextVQA (val)	59,6	64,0	64,7	75,2	76,6	76,2
VATEX	80,8	82,7	-	-	-	-
VQAv2 (minival)	83,0	84,3	84,5	84,8	85,8	85,8
VizWizVQA (val)	76,4	78,1	78,7	77,5	78,6	78,9
WidgetCap	138,1	139,8	138,8	151,4	151,9	148,9
XM3600 (ort35)	42,8	44,5	45,2	43,2	44,6	45,2
XM3600 (en)	79,8	80,7	81,0	80,3	81,5	81,0
xGQA (avg7)	58,6	61,4	61.1	60,4	62,6	62.1

Ek Karşılaştırmalar

ICDAR 2015 Arızi

Model	Hassasiyet	Geri çağırma	F1
PaliGemma 2 3B	81,88	70,73	75,9

Toplam-Metin

Model	Hassasiyet	Geri çağırma	F1
PaliGemma 2 3B	73,8.	74,54	74,17

FinTabNet

Model	S-TEDS	TEDS	GriTS-Top	GriTS-Con
PaliGemma 2 3B	99,18	98,94	99,43	99,21

PubTabNet

Model	S-TEDS	TEDS	GriTS-Top	GriTS-Con
PaliGemma 2 3B	97,6	97,31	97,99	97,84

GrandStaff

Model	CER	LER	SER
PaliGemma 2 3B	1,6	6,7	2.3

PubChem

PaliGemma 2 3B, Tam Eşleşme: 94,8

DOCCI

Model	avg#char	avg#sent	NES yüzdesi
PaliGemma 2 3B	529	7,74	28,42
PaliGemma 2 10B	521	7,45	20,27

avg#char: Ortalama karakter sayısı
avg#sent: Ortalama cümle sayısı
NES: İçerdiği bilginin sonucu olmayan cümleler

MIMIC-CXR

Model	CIDEr	BLEU4	Rouge-L	RadGraph F1
PaliGemma 2 3B	%19,9	%14,6	%31,92	%28,8
PaliGemma 2 10B	%17,4	%15	%32,41	%29,5

Görsel Uzamsal Mantık

Model	VSR sıfır atışlı split (test)	VSR rastgele bölme (test)
PaliGemma 2 3B	0,75	0,82
PaliGemma 2 10B	0,80	0,87

Etik ve güvenlik

Değerlendirme yaklaşımı

Değerlendirme yöntemlerimiz, aşağıdakiler de dahil olmak üzere ilgili içerik politikaları genelinde yapılandırılmış etik ve güvenlik değerlendirmelerini içerir:

Çocuk güvenliği, içerik güvenliği ve temsili zararları kapsayan istemler için gerçek kişiler tarafından yapılan değerlendirme. Görüntüye altyazı ekleme ve görsel soru yanıtlama kurulumlarıyla birlikte değerlendirme yaklaşımı hakkında daha fazla bilgi için Gemma model kartına bakın.
Resim metne dönüştürme karşılaştırma değerlendirmesi: FairFace veri kümesi (Karkkainen ve diğerleri, 2021).

Değerlendirme sonuçları

Etik ve güvenlik değerlendirmelerinin gerçek kişiler tarafından yapılan değerlendirme sonuçları, çocuk güvenliği, içerik güvenliği ve temsili zararlar gibi kategorilerde dahili politikaları karşılamak için kabul edilebilir eşikler dahilindedir.
Güçlü dahili değerlendirmelerin yanı sıra, FairFace veri kümesinden alınan resimler için oluşturulan altyazılardaki toksisiteyi, küfürleri ve diğer olası sorunları ölçmek üzere Perspective API'yi (0, 8 eşik değeri) de kullanırız. Algılanan cinsiyet, etnik köken ve yaş özelliklerinin her biri için alt gruplarda gözlemlenen maksimum ve medyan değerleri raporlarız.

Metrik	Algılanan cinsiyet			Etnik köken			Yaş grubu
Model boyutu	3 Mr	10 milyar	28 milyar	3 Mr	10 milyar	28 milyar	3 Mr	10 milyar	28 milyar
	Maksimum
Toksiklik	%0,14	%0,15	%0,19	%0,29	%0,39	%0,39	%0,26	%0,18	%0,32
Kimlik Saldırısı	%0,04	%0,02	%0,02	%0,13	%0,06	%0,06	%0,06	%0,03	%0,06
Hakaret	%0,17	%0,25	%0,17	%0,37	%0,52	%0,52	%0,27	%0,39	%0,24
Tehdit	%0,55	%0,43	%0,57	%0,83	%0,48	%0,48	%0,64	%0,43	%0,64
Küfür	%0,00	%0,00	%0,00	%0,00	%0,00	%0,00	%0,00	%0,00	%0,00
	Medyan
Toksiklik	%0,13	%0,10	%0,18	%0,07	%0,07	%0,14	%0,12	%0,08	%0,12
Kimlik saldırısı	%0,02	%0,01	%0,02	%0,00	%0,00	%0,00	%0,00	%0,00	%0,00
Hakaret	%0,15	%0,23	%0,14	%0,14	%0,17	%0,13	%0,09	%0,18	%0,16
Tehdit	%0,35	%0,27	%0,41	%0,28	%0,19	%0,42	%0,27	%0,31	% 0,40
Küfür	%0,00	%0,00	%0,00	%0,00	%0,00	%0,00	%0,00	%0,00	%0,00

Kullanım ve sınırlamalar

Kullanım amacı

Açık Görsel Dil Modelleri (VLM'ler), çeşitli sektör ve alanlarda çok çeşitli uygulamalara sahiptir. Aşağıdaki olası kullanımlar listesi kapsamlı değildir. Bu listenin amacı, model oluşturucuların model eğitimi ve geliştirmesi kapsamında değerlendirdiği olası kullanım alanları hakkında bağlamsal bilgi sağlamaktır. Gemma modellerinin yasaklanmış kullanımları Gemma Yasaklanan Kullanım Politikası'nda açıklanmıştır.

Belirli bir görüntü-dil görevinde hassas ayarlama yapın:

Önceden eğitilmiş modeller, görüntü ve dil ile ilgili çeşitli görevlerde (ör. resim altyazı ekleme, kısa video altyazı ekleme, görsel soru yanıtlama, metin okuma, nesne algılama ve nesne segmentasyonu) ince ayarlanabilir.
Önceden eğitilmiş modeller, uzaktan algılamayla soru yanıtlama, görme engelli kullanıcıların görsel soruları, bilim soruları yanıtlama, kullanıcı arayüzü öğesi işlevlerini açıklama gibi belirli alanlar için hassas ayarlanabilir.
Önceden eğitilmiş modeller, metin dışı çıkışları (ör. sınırlayıcı kutular veya segmentasyon maskeleri) olan görevler için hassas ayarlanabilir.

Görme dili araştırması:

Önceden eğitilmiş modeller ve hassas ayarlanmış modeller, araştırmacıların VLM teknikleriyle denemeler yapması, algoritmalar geliştirmesi ve alanın ilerlemesine katkıda bulunması için temel oluşturabilir.

Etik hususlar ve riskler

Görsel dil modellerinin (GDM) geliştirilmesi, çeşitli etik endişelere yol açar. Açık bir model oluştururken aşağıdakileri dikkatlice göz önünde bulundurduk:

Önyargı ve Adalet
- Gerçek dünyadan büyük ölçekli resim metin verileriyle eğitilen VLM'ler, eğitim materyaline yerleştirilmiş sosyo-kültürel önyargıları yansıtabilir. Bu modeller dikkatli bir incelemeden geçirildi. Giriş verileri ön işleme işlemi bu kartta açıklanmış ve sonraki değerlendirmeler raporlanmıştır.
Yanlış bilgilendirme ve kötüye kullanım
- VLM'ler yanlış, yanıltıcı veya zararlı metinler oluşturmak için kötüye kullanılabilir.
- Modelin sorumlu kullanımıyla ilgili kurallar sağlanmıştır. Sorumlu Üretken Yapay Zeka Aracı Kiti'ne bakın.
Şeffaflık ve Sorumluluk
- Bu model kartında, modellerin mimarisi, özellikleri, sınırlamaları ve değerlendirme süreçleri hakkındaki ayrıntılar özetlenmiştir.
- Sorumluluk bilinciyle geliştirilmiş açık bir model, VLM teknolojisini yapay zeka ekosistemindeki geliştiricilere ve araştırmacılara sunarak yenilikleri paylaşma fırsatı sunar.

Tespit edilen riskler ve azaltma önlemleri:

Eğilimlerin devamı: Model eğitimi, ince ayar ve diğer kullanım alanları sırasında sürekli izleme (değerlendirme metrikleri, gerçek kişiler tarafından inceleme kullanılarak) ve önyargı giderme tekniklerinin keşfedilmesi önerilir.
Zararlı içerik oluşturma: İçerik güvenliğiyle ilgili mekanizmalar ve kurallar çok önemlidir. Geliştiricilerin, belirli ürün politikalarına ve uygulama kullanım alanlarına göre dikkatli davranmaları ve uygun içerik güvenliği önlemlerini uygulamaları önerilir.
Kötü amaçlarla kötüye kullanım: Teknik sınırlamalar ve geliştirici ile son kullanıcı eğitimi, LLM'lerin kötü amaçlı kullanımını azaltmaya yardımcı olabilir. Kullanıcıların kötüye kullanımı işaretlemesi için eğitim kaynakları ve raporlama mekanizmaları sağlanır: Sorumlu Üretken Yapay Zeka Aracı Kiti'ne bakın. Gemma modellerinin yasaklanmış kullanımları Gemma Yasaklanan Kullanım Politikası'nda açıklanmıştır.
Gizlilik ihlalleri: Modeller, belirli kişisel bilgiler ve hassas verileri kaldırmak için filtrelenmiş verilerle eğitildi. Geliştiricilerin, gizliliği korumaya yönelik tekniklerle gizlilik yönetmeliklerine uymaları önerilir.

Sınırlamalar

Temel Gemma 2 modellerinden devralınan kısıtlamaların çoğu geçerli olmaya devam eder:
- VLM'ler, net istemler ve talimatlarla çerçevelenebilecek görevlerde daha iyi performans gösterir. Açık uçlu veya son derece karmaşık görevler zorlayıcı olabilir.
- Doğal dil doğası gereği karmaşıktır. VLM'ler ince nüansları, iğneleyici ifadeleri veya mecazi ifadeleri anlamakta zorlanabilir.
- VLM'ler, eğitim veri kümelerinden öğrendikleri bilgilere göre yanıtlar oluşturur ancak bilgi tabanı değildir. Yanlış veya güncel olmayan gerçek beyanları oluşturabilirler.
- VLM'ler, dil ve resimlerdeki istatistiksel kalıplara dayanır. Belirli durumlarda sağduyulu düşünme becerisine sahip olmayabilirler.
PaliGemma 2, öncelikle özel görevlere ince ayar yapmak için genel bir önceden eğitilmiş model olarak tasarlanmıştır. Bu nedenle, "kutudan çıkar çıkmaz" veya "sıfır atış" performansı, özellikle genel amaçlı kullanım için tasarlanmış modellerin gerisinde kalabilir.
PaliGemma 2, çok turlu bir chatbot değildir. Tek bir resim ve metin girişi için tasarlanmıştır.