Kartu model PaliGemma

Halaman model: PaliGemma

Referensi dan dokumentasi teknis:

Persyaratan Penggunaan: Persyaratan

Penulis: Google

Informasi model

Ringkasan model

Deskripsi

PaliGemma adalah model bahasa visi-bahasa (VLM) serbaguna dan ringan yang terinspirasi oleh PaLI-3 dan berdasarkan komponen terbuka seperti model SigLIP Vision dan Gemma model bahasa ini. Dibutuhkan gambar dan teks sebagai input dan menghasilkan teks sebagai output, yang mendukung berbagai bahasa. Penting yang dirancang untuk meningkatkan performa terbaik di kelasnya pada berbagai tugas-tugas visi-bahasa seperti gambar dan teks video pendek, pertanyaan visual respons, pembacaan teks, deteksi objek, dan segmentasi objek.

Arsitektur model

PaliGemma adalah komposisi dari Transformer decoder dan image Transformer Vision encoder, yang memiliki total 3 miliar parameter. Decoder teks diinisialisasi dari Gemma-2B. Encoder gambar diinisialisasi dari SigLIP-So400m/14. PaliGemma dilatih dengan mengikuti resep PaLI-3.

Input dan output

  • Input: Gambar dan string teks, seperti perintah untuk menambahkan teks pada gambar, atau pertanyaan.
  • Output: Teks yang dihasilkan sebagai respons terhadap input, seperti teks gambar, jawaban atas pertanyaan, daftar kotak pembatas objek koordinat, atau kata-kata segmentasi.

Data model

Set data pra-pelatihan

PaliGemma telah dilatih sebelumnya menggunakan campuran {i>dataset<i} berikut:

  • WebLI: WebLI (Gambar Bahasa Web) adalah adalah {i>dataset<i} teks gambar multibahasa berskala web yang dibuat dari web publik. J berbagai macam pemisahan WebLI digunakan untuk mendapatkan kemampuan model yang serbaguna, seperti pemahaman semantik visual, pelokalan objek, pemahaman teks yang terletak secara visual, multibahasa, dll.
  • CC3M-35L: Pasangan image-alt_text bahasa Inggris pilihan dari halaman web (Sharma et al., 2018). Kami menggunakan paket Google Cloud Translation API untuk diterjemahkan ke dalam 34 bahasa tambahan.
  • VQ²A-CC3M-35L/VQG-CC3M-35L: Subset dari VQ2A-CC3M (Changpinyo et al., 2022a), yang diterjemahkan ke dalam 34 bahasa tambahan yang sama dengan CC3M-35L, menggunakan konfigurasi Translation API.
  • OpenImages: Deteksi serta pertanyaan dan jawaban berbasis objek (Piergiovanni et al. 2022) yang dihasilkan oleh aturan buatan tangan di set data OpenImages.
  • WIT: Gambar dan teks yang dikumpulkan dari Wikipedia (Srinivasan et al., 2021).

Pemfilteran tanggung jawab data

Filter berikut diterapkan ke WebLI, dengan tujuan melatih PaliGemma dengan data bersih:

  • Pemfilteran gambar pornografi: Filter ini menghapus gambar yang dianggap bersifat pornografis.
  • Pemfilteran keamanan teks: Kami mengidentifikasi dan memfilter gambar yang dipasangkan dengan teks yang tidak aman. Teks tidak aman adalah setiap teks yang dianggap berisi atau tentang CSAI, pornografi, vulgar, atau menyinggung.
  • Pemfilteran toksisitas teks: Kami selanjutnya menggunakan Perspective API untuk mengidentifikasi dan memfilter gambar yang dipasangkan dengan teks yang dianggap menghina, cabul, penuh kebencian, atau negatif.
  • Pemfilteran informasi pribadi teks: Kami memfilter informasi pribadi tertentu informasi dan data sensitif lainnya menggunakan solusi Cloud Data Loss Prevention (DLP) APIuntuk melindungi privasi individu. ID seperti nomor jaminan sosial dan jenis informasi sensitif lainnya dihapus.
  • Metode tambahan: Pemfilteran berdasarkan kualitas dan keamanan konten di sesuai dengan kebijakan dan praktik kami.

Informasi penerapan

Hardware

PaliGemma dilatih menggunakan Tensor Processing Unit generasi terbaru (TPU) hardware (TPUv5e).

Software

Pelatihan dilakukan menggunakan JAX, Flax, TFDS dan big_vision.

JAX memungkinkan peneliti untuk memanfaatkan perangkat keras generasi terbaru, termasuk TPU, untuk pelatihan model besar yang lebih cepat dan efisien.

TFDS digunakan untuk mengakses {i>dataset<i} dan Flax digunakan untuk arsitektur model. Tujuan Kode penyesuaian dan kode inferensi PaliGemma dirilis di big_vision repositori GitHub ASL.

Informasi evaluasi

Hasil benchmark

Untuk memverifikasi kemampuan transfer PaliGemma ke berbagai akademik, kita akan menyesuaikan model yang telah dilatih sebelumnya pada setiap tugas. Selain itu, kita melatih model campuran dengan campuran tugas transfer. Kami melaporkan hasil pada resolusi yang berbeda untuk memberikan kesan bahwa tugas mana yang mendapat manfaat dari resolusi yang lebih tinggi. Yang penting, tak satu pun dari tugas atau {i>dataset<i} ini yang merupakan bagian dari campuran data pra-pelatihan, dan gambarnya secara eksplisit dihapus dari data pra-pelatihan skala web.

Tugas tunggal (penyesuaian pada satu tugas)

Benchmark (pemisahan kereta) Metrik (terpisah) pt-224 pt-448 pt-896
Penyertaan subtitel
Teks COCO (train+restval) CIDEr (val) 141,92 144,60
NoCaps (Transfer teks Eval of COCO) CIDEr (val) 121,72 123,58
COCO-35L (kereta) Pengembangan CIDEr (id/rata-rata 34/rata-rata)
139,2
115,8
116,4
141,2
118,0
118,6
XM3600 (Transfer Eval COCO-35L) Pengembangan CIDEr (id/rata-rata 34/rata-rata)
78,1
41,3
42,4
80,0
41,9
42,9
TextCaps (kereta) CIDEr (val) 127,48 153,94
SciCap (kalimat pertama, tanpa subgambar) (kereta+val) CIDEr/BLEU-4 (pengujian)
162,25
0,192
181,49
0,211
Screen2words (pelatihan+dev) CIDEr (pengujian) 117,57 119,59
Pemberian Teks Widget (pelatihan+dev) CIDEr (pengujian) 136,07 148,36
Proses menjawab pertanyaan
VQAv2 (pelatihan+validasi) Akurasi (Server pengujian - std) 83,19 85,64
MMVP (transfer Eval of VQAv2) Akurasi Berpasangan 47,33 45,33
POPE (transfer Eval of VQAv2) Akurasi (acak/populer/lawan)
87,80
85,87
84,27
88,23
86,77
85,90
OKVQA (kereta) Akurasi (val) 63,54 63,15
A-OKVQA (MC) (kereta+val) Akurasi (Server pengujian) 76,37 76,90
A-OKVQA (DA) (kereta+val) Akurasi (Server pengujian) 61,85 63,22
GQA (train_balanced+val_balanced) Akurasi (testdev seimbang) 65,61 67,03
xGQA (Transfer Eval of GQA) Akurasi Rata-rata (bn, de, en, id, ko, pt, ru, zh) 58,37 59,07
NLVR2 (pelatihan+dev) Akurasi (pengujian) 90,02 88,93
MaRVL (Transfer Eval of NLVR2) Akurasi Rata-rata (pengujian) (id, sw, ta, tr, zh) 80,57 76,78
AI2D (kereta) Akurasi (pengujian) 72,12 73,28
ScienceQA (subset Img, tanpa CoT) (kereta+val) Akurasi (pengujian) 95,39 95,93
RSVQA-LR (Non numerik) (kereta+val) Akurasi Rata-rata (pengujian) 92,65 93,11
RSVQA-HR (Non numerik) (kereta+val) Akurasi rata-rata (test/test2)
92,61
90,58
92,79
90,54
ChartQA (manusia+aug)x(kereta+val) Akurasi Santai Rata-rata (test_human, test_aug) 57,08 71,36
VizWiz VQA (kereta+val) Akurasi (Server pengujian - std) 73,7 75,52
TallyQA (kereta) Akurasi (test_simple/test_complex)
81,72
69,56
84,86
72,27
OCR-VQA (kereta+val) Akurasi (pengujian) 72,32 74,61 74,93
TextVQA (train+val) Akurasi (Server pengujian - std) 55,47 73,15 76,48
DocVQA (kereta+val) ANLS (Server pengujian) 43,74 78,02 84,77
VQA Infografis (train+val) ANLS (Server pengujian) 28,46 40,47 47,75
SceneText VQA (train+val) ANLS (Server pengujian) 63,29 81,82 84,40
Segmentasi
RefCOCO (kombinasi refcoco, refcoco+, refcocog tidak termasuk val dan gambar pengujian) MIoU (validasi) refcoco/refcoco+/refcocog
73,40
68,32
67,65
75,57
69,76
70,17
76,94
72,18
72,22
Tugas video (Teks/QA)
MSR-VTT (Pemberian Teks) CIDEr (pengujian) 70,54
MSR-VTT (QA) Akurasi (pengujian) 50,09
ActivityNet (Pemberian Teks) CIDEr (pengujian) 34,62
ActivityNet (QA) Akurasi (pengujian) 50,78
VATEX (Teks) CIDEr (pengujian) 79,73
MSVD (QA) Akurasi (pengujian) 60,22

Model campuran (menyesuaikan campuran tugas transfer)

Benchmark Metrik (terpisah) mix-224 mix-448
MMVP Akurasi Berpasangan 46,00 45,33
POPE Akurasi (acak/populer/lawan)
88,00
86,63
85,67
89,37
88,40
87,47

Etika dan keselamatan

Pendekatan evaluasi

Metode evaluasi kami mencakup evaluasi terstruktur dan tim merah internal pengujian kebijakan konten yang relevan. Red-teaming dilakukan oleh sejumlah tim yang berbeda, masing-masing dengan tujuan dan metrik evaluasi manual yang berbeda. Ini model dievaluasi terhadap sejumlah kategori berbeda yang relevan dengan etika dan keselamatan, termasuk:

  • Evaluasi manual terhadap perintah yang membahas keselamatan anak, keamanan konten, dan kerugian representatif. Lihat model Gemma kartu untuk detail selengkapnya tentang pendekatan evaluasi, tetapi dengan keterangan gambar dan visualisasi konfigurasi penjawaban pertanyaan.
  • Evaluasi tolok ukur Image-to-Text: Tolok ukur terhadap akademis yang relevan seperti Set Data FairFace (Karkkainen et al., 2021).

Hasil evaluasi

  • Hasil evaluasi manusia terkait evaluasi etika dan keamanan nilai minimum yang dapat diterima untuk rapat internal kebijakan untuk kategori seperti keselamatan anak, keamanan konten, dan representasi membahayakan.
  • Selain evaluasi internal yang ketat, kami juga menggunakan Perspective API (batas 0,8) untuk mengukur toksisitas, kata-kata tidak sopan, dan potensi lainnya masalah pada teks yang dihasilkan untuk gambar yang bersumber dari FairFace {i>dataset<i} aslinya. Kami melaporkan nilai maksimum dan median yang diamati di seluruh subkelompok untuk setiap atribut gender, etnis, dan usia.
Metrik Gender yang dipahami Etnis Kelompok usia
Maksimum Median Maksimum Median Maksimum Median
Toxicity 0,04% 0,03% 0,08% 0,00% 0,09% 0,00%
Serangan Identitas 0,00% 0,00% 0,00% 0,00% 0,00% 0,00%
Insult 0,06% 0,04% 0,09% 0,07% 0,16% 0,00%
Ancaman 0,06% 0,05% 0,14% 0,05% 0,17% 0,00%
Kata-kata tidak sopan 0,00% 0,00% 0,00% 0,00% 0,00% 0,00%

Penggunaan dan batasan

Penggunaan yang dimaksudkan

Model Bahasa {i>Open Vision<i} (VLM) memiliki berbagai macam aplikasi berbagai industri dan domain. Daftar potensi penggunaan berikut tidak komprehensif. Tujuan daftar ini adalah untuk memberikan informasi kontekstual kasus penggunaan yang mungkin dipertimbangkan pembuat model sebagai bagian dari pelatihan dan pengembangan Anda.

Sempurnakan tugas bahasa visi tertentu:

  • Model terlatih dapat disesuaikan dengan berbagai bahasa visi tugas seperti: pemberian teks pada gambar, teks video singkat, pertanyaan visual respons, pembacaan teks, deteksi objek, dan segmentasi objek.
  • Model terlatih dapat disesuaikan untuk domain tertentu seperti model merasakan penjawaban pertanyaan, pertanyaan visual dari pengguna tunanetra, menjawab pertanyaan sains, menjelaskan fungsi elemen UI.
  • Model terlatih dapat di-fine-tune untuk tugas dengan output non-tekstual seperti kotak pembatas atau mask segmentasi.

Riset bahasa visi:

  • Model terlatih dan model yang di-fine-tune dapat berfungsi sebagai dasar bagi peneliti untuk bereksperimen dengan teknik VLM, mengembangkan algoritma, dan berkontribusi pada kemajuan di bidang ini.

Pertimbangan dan risiko etis

Perkembangan model bahasa visi-bahasa (VLM) meningkatkan sejumlah kekhawatiran Anda. Dalam membuat model terbuka, kami telah mempertimbangkan dengan cermat hal-hal berikut:

  • Bias dan Keadilan
    • VLM yang dilatih pada data teks gambar dunia nyata skala besar dapat mencerminkan bias sosial-budaya yang tertanam dalam materi pelatihan. Model-model ini melalui pengawasan yang cermat, pra-pemrosesan data input dijelaskan dan evaluasi posterior yang dilaporkan dalam kartu ini.
  • Misinformasi dan Penyalahgunaan
    • VLM dapat disalahgunakan untuk menghasilkan teks yang salah, menyesatkan, atau berbahaya.
    • Pedoman diberikan untuk penggunaan yang bertanggung jawab dengan model, lihat Toolkit AI Generatif yang Bertanggung Jawab.
  • Transparansi dan Akuntabilitas
    • Kartu model ini merangkum detail tentang arsitektur, kemampuan, batasan, dan proses evaluasi.
    • Model terbuka yang dikembangkan secara bertanggung jawab menawarkan kesempatan untuk berbagi inovasi dengan membuat teknologi VLM dapat diakses oleh pengembang dan peneliti di seluruh ekosistem AI.

Risiko yang diidentifikasi dan mitigasi:

  • Perpetuasi bias: Disarankan untuk melakukan pemantauan berkelanjutan (menggunakan metrik evaluasi, peninjauan manual) dan eksplorasi upaya untuk menghilangkan bias selama pelatihan model, fine-tuning, dan kasus penggunaan lainnya.
  • Generasi konten berbahaya: Mekanisme dan pedoman untuk konten keamanan sangatlah penting. Developer dianjurkan untuk berhati-hati dan menerapkan perlindungan keamanan konten yang sesuai berdasarkan kebijakan produk dan kasus penggunaan aplikasi.
  • Penyalahgunaan untuk tujuan berbahaya: Batasan teknis dan developer serta pendidikan pengguna akhir dapat membantu memitigasi penerapan LLM yang berbahaya. Sumber daya pendidikan dan mekanisme pelaporan bagi pengguna untuk menandai penyalahgunaan disediakan: lihat Responsible Generative AI Toolkit. Penggunaan Gemma yang dilarang model ini diuraikan dalam Kebijakan Penggunaan Terlarang Gemma.
  • Pelanggaran privasi: Model dilatih dengan data yang difilter untuk menghapusnya informasi pribadi dan data sensitif tertentu. Developer dianjurkan untuk mematuhi peraturan privasi dengan teknik yang menjaga privasi.

Batasan

  • Sebagian besar batasan yang diwarisi dari model Gemma yang mendasarinya masih berlaku:
    • VLM lebih baik dalam mengerjakan tugas yang dapat dibingkai dengan perintah yang jelas dan petunjuk. Tugas yang bersifat terbuka atau sangat kompleks mungkin sulit dilakukan.
    • Natural language pada dasarnya sangat kompleks. VLM mungkin kesulitan memahami nuansa halus, sarkasme, atau bahasa figuratif.
    • VLM menghasilkan respons berdasarkan informasi yang mereka pelajari dari pelatihan, tetapi bukan pusat informasi. Mereka dapat menghasilkan pernyataan faktual yang salah atau tidak berlaku lagi.
    • VLM mengandalkan pola statistik dalam bahasa dan gambar. Mereka mungkin tidak memiliki kemampuan untuk menerapkan penalaran akal sehat dalam situasi tertentu.
  • PaliGemma dirancang pertama dan terutama untuk berfungsi sebagai model untuk men-tuning tugas-tugas khusus. Oleh karena itu, "siap pakai" atau "zero-shot" performa mungkin tertinggal dibandingkan model yang dirancang khusus untuk itu.
  • PaliGemma bukan chatbot multi-giliran. Alat ini dirancang untuk satu putaran gambar dan teks.