PaliGemma model kartı

Model sayfası: PaliGemma

Kaynaklar ve teknik belgeler:

Kullanım Şartları: Şartlar

Yazarlar: Google

Model bilgileri

Model özeti

Açıklama

PaliGemma, Google'ın metodolojilerinden esinlenen çok yönlü ve hafif bir görüş dili (VLM) modelidir. PaLI-3 ve SigLIP vizyon modeli ve Gemma dil modeli. Hem resim hem metin alır ve birden çok dili destekleyerek çıktı olarak metin oluşturur. Evet çok çeşitli cihazlarda sınıfının lideri ince ayar performansı için tasarlanmıştır. resim ve kısa video altyazısı gibi görsel-dil görevleri, görsel soru yanıt verme, metin okuma, nesne algılama ve nesne segmentasyonu.

Model mimarisi

PaliGemma, bir Transformatörünbileşimidir. kod çözücü ve Vision Transformer görüntüsü kodlayıcıdan 3 milyar parametreye sahip olması gerekir. Metin kod çözücü şu satırdan başlatıldı: Gemma-2B. Resim kodlayıcı başlatıldı SigLIP-So400m/14. PaliGemma, PaLI-3 tariflerine göre eğitim almıştır.

Girişler ve çıkışlar

  • Giriş: Resim ve metin dizesi (ör. resme altyazı ekleme istemi) veya bir soru da sorabilirsiniz.
  • Çıkış: Girişe yanıt olarak oluşturulan metin (örneğin, resim, bir sorunun yanıtı, nesne sınırlayıcı kutusu listesi koordinatlar veya segmentasyon kod kelimeleri kullanılır.

Model verileri

Veri kümelerini önceden eğitin

PaliGemma aşağıdaki veri kümesi karışımları üzerinde önceden eğitilmiştir:

Veri sorumluluğu filtreleme

Aşağıdaki filtreler PaliGemma'yı eğitmek amacıyla WebLI'ya uygulanır temiz veri üzerinde:

  • Pornografik resim filtreleme:Bu filtre, pornografik niteliktedir.
  • Metin güvenliği filtreleme:Eşlenen resimleri belirler ve filtreleriz emin olun. Güvenli olmayan metin, içerdiği veya hakkında olduğu kabul edilen metinlerdir CSAI, pornografi, argo sözcükler veya başka şekilde rahatsız edici olan içerikler.
  • Metin toksisitesini filtreleme: Perspective API'nin sunduğu çeşitli özellikler sayesinde hakaret içeren, müstehcen, nefret uyandıran veya başka şekilde zehirli olarak kabul edilen metinlerle eşleştirilemez.
  • Metin kişisel bilgileri filtreleme: Belirli kişisel bilgileri filtreledik Cloud Veri Kaybını Önleme özelliğini kullanarak bilgi ve diğer hassas verileri (DLP) API'sini kullanarak bireylerin gizliliği. Vatandaşlık numarası ve sosyal güvenlik numarası gibi tanımlayıcılar diğer hassas bilgi türleri kaldırıldı.
  • Ek yöntemler: İçeriğin kalitesine ve güvenliğine göre filtreleme. politikalarımıza ve uygulamalarımıza uygun olduğunu unutmayın.

Uygulama bilgileri

Donanım

PaliGemma, yeni nesil Tensor İşleme Birimi kullanılarak eğitildi (TPU) donanımı (TPUv5e).

Yazılım

Eğitim, JAX, Flax TFDS ve big_vision.

JAX, araştırmacıların en yeni nesil donanım, daha hızlı ve daha verimli eğitim için TPU'ları kullanabilirsiniz.

Veri kümelerine erişmek için TFDS, model mimarisi için Flax kullanılır. İlgili içeriği oluşturmak için kullanılan PaliGemma ince ayar kodu ve çıkarım kodu big_vision GitHub deposu.

Değerlendirme bilgileri

Karşılaştırma sonuçları

PaliGemma'nın çok çeşitli cihazlara aktarılabilirliğini doğrulamak için her görevde önceden eğitilmiş modellerde ince ayar yaparız. Ayrıca, Bu karma modeli aktarım görevlerinin bir karışımıyla eğitmek için kullanır. Sonuçları şu konular hakkında raporlarız: hangi görevlerin işe yaradığıyla ilgili bir fikir vermek için farklı çözünürlükler daha yüksek çözünürlük. Daha da önemlisi, bu görevlerin veya veri kümelerinin hiçbiri karma hale getirilmiştir ve bunların resimleri web ölçeğindeki ön eğitim verileri bulunur.

Tek görev (tek bir görev üzerinde ince ayarlar yapın)

Karşılaştırma (tren dağılımı) Metrik (bölüm) pt-224 pt-448 pt-896
Altyazı ekleme
COCO altyazıları (tren+dinlenme) Müşteri Kimliği (Değer) 141,92 144,60
NoCaps (COCO altyazı aktarımının eşi) Müşteri Kimliği (Değer) 121,72 123,58
COCO-35L (tren) CIDEr dev (en/avg-34/avg)
139,2
115,8
116,4
141,2
118,0
118,6
XM3600 (COCO-35L aktarımının değeri) CIDEr dev (en/avg-34/avg)
78,1
41,3
42,4
80,0
41,9
42,9
TextCaps (tren) Müşteri Kimliği (Değer) 127,48 153,94
SciCap (ilk cümle, alt şekil yok) (tren+val) CIDEr/BLEU-4 (test)
162,25
0,192
181,49
0,211
Screen2words (eğitim+geliştir) Müşteri Kimliği (test) 117,57 119,59
Widget Altyazıları (eğitim+geliştirme) Müşteri Kimliği (test) 136,07 148,36
Soru cevaplama
VQAv2 (eğitim+doğrulama) Doğruluk (Test sunucusu - std) 83,19 85,64
MMVP (VQAv2 aktarımının eş değeri) Eşlenmiş Doğruluk 47,33 45,33
POPE (VQAv2 aktarımının eşi) Doğruluk (rastgele/popüler/zahmetli)
87,80
85,87
84,27
88,23
86,77
85,90
OKVQA (tren) Doğruluk (değer) 63,54 63,15
A-OKVQA (MC) (tren+değer) Doğruluk (Test sunucusu) 76,37 76,90
A-OKVQA (DA) (tren+değer) Doğruluk (Test sunucusu) 61,85 63,22
GQA (train_balanced+val_balanced) Doğruluk (test dev dengeli) 65,61 67,03
xGQA (GQA aktarımının eşi) Ortalama Doğruluk (bn, de, en, id, ko, pt, ru, zh) 58,37 59,07
NLVR2 (eğitim+geliştirme) Doğruluk (test) 90,02 88,93
MaRVL (NLVR2 aktarımının eşi) Ortalama Doğruluk (test) (id, sw, ta, tr, zh) 80,57 76,78
AI2D (tren) Doğruluk (test) 72,12 73,28
ScienceQA (Img alt kümesi, CoT yok) (tren+değer) Doğruluk (test) 95,39 95,93
RSVQA-LR (Sayısal olmayan) (tren+değer) Ortalama Doğruluk (test) 92,65 93,11
RSVQA-HR (Sayısal olmayan) (tren+değer) Ortalama Doğruluk (test/test2)
92,61
90,58
92,79
90,54
ChartQA (insan+aug)x(eğitim+değer) Ortalama Rahat Doğruluk (test_human, test_aug) 57,08 71,36
VizWiz VQA (tren+değer) Doğruluk (Test sunucusu - std) 73,7 75,52
TallyQA (tren) Doğruluk (test_simple/test_complex)
81,72
69,56
84,86
72,27
OCR-VQA (eğitim+değeri) Doğruluk (test) 72,32 74,61 74,93
TextVQA (eğitim+değer) Doğruluk (Test sunucusu - std) 55,47 73,15 76,48
DocVQA (tren+değer) ANLS (Test sunucusu) 43,74 78,02 84,77
Bilgi görseli VQA (tren+değer) ANLS (Test sunucusu) 28,46 40,47 47,75
SceneText VQA (tren+değer) ANLS (Test sunucusu) 63,29 81,82 84,40
Segmentasyon
RefCOCO (değer ve test resimleri hariç birleşik refcoco, refcoco+, refcog) MIoU (doğrulama) refcoco/refcoco+/refcocog
73,40
68,32
67,65
75,57
69,76
70,17
76,94
72,18
72,22
Video görevleri (Altyazı/KG)
MSR-VTT (Altyazı) Müşteri Kimliği (test) 70,54
MSR-VTT (KG) Doğruluk (test) 50,09
ActivityNet (Altyazı) Müşteri Kimliği (test) 34,62
ActivityNet (KG) Doğruluk (test) 50,78
VATEX (Altyazı) Müşteri Kimliği (test) 79,73
MSVD (KG) Doğruluk (test) 60,22

Karma model (aktarım görevlerinin karışımında ince ayar yapın)

Karşılaştırma Metrik (bölüm) mix-224 mix-448
MMVP Eşlenmiş Doğruluk 46,00 45,33
POPE Doğruluk (rastgele/popüler/zahmetli)
88,00
86,63
85,67
89,37
88,40
87,47

Etik ve güvenlik

Değerlendirme yaklaşımı

Değerlendirme yöntemlerimiz arasında, yapılandırılmış değerlendirmeler ve kurum içi değerlendirmeler yer alır. test edilmesine yardımcı olur. Kırmızı takım çalışması, her biri farklı hedeflere ve insanlar tarafından yapılan değerlendirme metriklerine sahip farklı ekipler. Bu modellerle alakalı bir dizi farklı kategoriye göre değerlendirildi. etik ve güvenlik şunları kapsar:

  • Çocuk güvenliği, içerik güvenliği ve güvenlik gibi konuları kapsayan istemler üzerinde gerçek kişiler tarafından yapılan değerlendirmeler temsili zararlar olabilir. Bkz. Gemma modeli kartı hakkında daha fazla detay içeren bir değerlendirme raporu, çok basit bir örneğidir.
  • Resimden metne karşılaştırma değerlendirmesi: Alakalı akademisyenlerle karşılaştırma FairFace Veri Kümesi (Karkkainen ve diğerleri, 2021).

Değerlendirme sonuçları

  • Etik ve güvenlik değerlendirmelerinin insanlar tarafından yapılan değerlendirme sonuçları kabul edilebilir eşikler dahili politikalar içerik güvenliği ve temsili gibi kategoriler için zararlar.
  • Güçlü dahili değerlendirmelerin yanı sıra Perspective API'yi de kullanıyoruz. (0, 8 eşiği) ile kirlilik, küfür ve diğer olası durumları ölçün FairFace'ten elde edilen resimler için oluşturulan altyazılarda yaşanan sorunlar veri kümesiyle eşleştirilir. Alt gruplarda gözlemlenen maksimum ve medyan değerleri raporlarız cinsiyet, etnik köken ve yaş özelliklerinin her biri için uygunluk ölçütleridir.
Metrik Algılanan cinsiyet Etnik köken Yaş grubu
Maksimum Medyan Maksimum Medyan Maksimum Medyan
Toksik %0,04 %0,03 %0,08 %0,00 %0,09 %0,00
Kimlik Saldırısı %0,00 %0,00 %0,00 %0,00 %0,00 %0,00
Hakaret %0,06 %0,04 %0,09 %0,07 %0,16 %0,00
Tehdit %0,06 %0,05 %0,14 %0,05 %0,17 %0,00
Küfür %0,00 %0,00 %0,00 %0,00 %0,00 %0,00

Kullanım ve sınırlamalar

Kullanım amacı

Open Vision Dil Modelleri (VLM'ler), dünyanın her yerinde farklı sektör ve alanlarda faaliyet gösterir. Aşağıdaki olası kullanımlar listesi size yönetmektir. Bu listenin amacı bağlamsal bilgiler sağlamaktır model oluşturanların modelin bir parçası olarak değerlendirdiği olası kullanım alanları hakkında ve geliştirmeyi öğreteceğim.

Belirli bir vizyonla ilgili görevde ince ayar yapın:

  • Önceden eğitilmiş modellerde çok çeşitli görme-dilleri üzerinde ince ayar yapılabilir Örneğin: resim altı yazısı, kısa video altyazısı, görsel soru yanıt verme, metin okuma, nesne algılama ve nesne segmentasyonu.
  • Önceden eğitilmiş modellere, uzaktan kumanda gibi belirli alanlar için ince ayar yapılabilir. veya görme engelli bireylerden gelen görsel sorular bilim sorusunu cevaplama, kullanıcı arayüzü öğesinin işlevlerini açıklama.
  • Önceden eğitilmiş modellerde, metin harici çıkışları olan görevler için ince ayar yapılabilir. Bunlar sınırlayıcı kutular veya segmentasyon maskeleri gibidir.

Vizyon dili araştırması:

  • Önceden eğitilmiş modeller ve ince ayar yapılmış modeller, hedef kitlenizi belirlemek için VLM teknikleriyle denemeler yapmaları, algoritmalar geliştirmeleri ve bu alanın ilerlemesine katkıda bulunuyor.

Etik olarak dikkat edilmesi gereken hususlar ve riskler

Vizyon-dil modellerinin (VLM'ler) geliştirilmesi, proje yönetiminde çeşitli emin olun. Açık bir model oluştururken aşağıdakileri dikkatlice inceledik:

  • Önyargı ve Adalet
    • Büyük ölçekli, gerçek dünyaya ait görüntü-metin verileriyle eğitilen VLM'ler eğitim materyallerindeki sosyo-kültürel ön yargılar. Bu modeller titizlikle gözden geçirildikten sonra, giriş verilerinin ön işlemesi açıklanır ve bu kartta bildirilen son değerlendirme sayısı.
  • Yanlış Bilgilendirme ve Kötüye Kullanım
    • VLM'ler yanlış, yanıltıcı veya yanlış metinler oluşturmak için kötüye kullanılabilir zararlıdır.
    • Modelin sorumlu kullanımına ilişkin yönergeler verilmiştir. Daha fazla bilgi için Sorumlu Üretken Yapay Zeka Araç Seti.
  • Şeffaflık ve Hesap Verebilirlik
    • Bu model kartında modellerle ilgili ayrıntıları mimari, üzerine konuşacağız.
    • Sorumlu bir şekilde geliştirilmiş açık bir model, dünyanın dört bir yanındaki VLM teknolojisini geliştiricilerin erişimine sunarak yenilikler çeşitli ortaklaşa çalışmalardan bahsetmiştik.

Belirlenen riskler ve azaltmalar:

  • Yargıların sürdürülmesi: Sürekli izleme yapılması önerilir (değerlendirme metrikleri, gerçek kişiler tarafından yapılan incelemeler) ve önyargısızlığın keşfi ince ayar yapma ve diğer kullanım alanlarında geliştirme yapmalarına yardımcı olur.
  • Zararlı içerik üretimi: İçerik mekanizmaları ve kuralları çok önemlidir. Geliştiricilerin dikkatli olması ve Bu güvenlik önlemlerinin kendine özgü özelliklerine göre kullanım alanları konusunda yardımcı olabilir.
  • Kötü amaçlarla kötüye kullanım: Teknik sınırlamalar ve geliştirici ve son kullanıcı eğitimi, LLM'lerin kötü amaçlı uygulamalarını azaltmaya yardımcı olabilir. Kullanıcıların kötüye kullanımı bildirmek için kullanabilecekleri eğitim kaynakları ve bildirim mekanizmaları sağlanan: Sorumlu Üretken Yapay Zeka Araç Seti'ni inceleyin. Gemma'nın yasaklanmış kullanımları modelleri Gemma Yasaklanan Kullanım Politikası'nda açıklanmaktadır.
  • Gizlilik ihlalleri: Modeller, verileri kaldırmak için filtrelenen veriler kullanılarak eğitildi. kişisel bilgiler ve hassas veriler. Geliştiricilerin bu reklamlar, gizliliği korumaya yönelik tekniklerle gizlilikle ilgili yönetmeliklere uymaya karar verdi.

Sınırlamalar

  • Temel Gemma modelinden devralınan sınırlamaların çoğu hâlâ geçerlidir:
    • VLM'ler, net istemler ve ifadelerle çerçevelenebilen görevlerde daha başarılıdır. bakın. Açık uçlu veya son derece karmaşık görevler zorlayıcı olabilir.
    • Doğal dil, yapısı gereği karmaşıktır. VLM'ler konunun anlaşılmasında incelikli nüanslar, alay veya mecazi dil.
    • VLM'ler, kendi deneyimlerinden öğrendikleri bilgilere dayalı olarak yanıtlar oluşturur. ancak bunlar bilgi tabanı değildir. Örneğin, ya da güncelliğini yitirmiş, gerçeğe dayalı ifadeler.
    • VLM'ler, dil ve görüntülerdeki istatistiksel kalıplara dayanır. Örneğin belirli durumlarda sağduyulu akıl yürütmeyi kullanamayabilirler.
  • PaliGemma, her şeyden önce, genel olarak önceden eğitilmiş Bu model, özel görevlere ince ayar yapmak için kullanılır. Bu nedenle, "kullanıma hazır" veya "sıfır atış" performans, birinci taraf verileri için özel olarak tasarlanmış gerekir.
  • PaliGemma çok dönüşlü bir chatbot değildir. Tek bir tur için tasarlanmış Resim ve metin girişi.