Kartu model PaliGemma

Halaman model: PaliGemma

Referensi dan dokumentasi teknis:

Persyaratan Penggunaan: Persyaratan

Penulis: Google

Informasi model

Ringkasan model

Deskripsi

PaliGemma adalah model bahasa vision-visi yang serbaguna dan ringan (VLM) yang terinspirasi oleh PaLI-3 dan didasarkan pada komponen terbuka seperti model visi SigLIP dan model bahasa Gemma. Fungsi ini mengambil gambar dan teks sebagai input, serta menghasilkan teks sebagai output, yang mendukung beberapa bahasa. Layanan ini dirancang untuk performa penyempurnaan terkemuka di kelasnya pada berbagai tugas bahasa penglihatan, seperti gambar dan teks video singkat, jawaban pertanyaan visual, pembacaan teks, deteksi objek, dan segmentasi objek.

Arsitektur model

PaliGemma adalah komposisi decoder Transformer dan encoder gambar Vision Transformer, yang memiliki total 3 miliar parameter. Decoder teks diinisialisasi dari Gemma-2B. Encoder gambar diinisialisasi dari SigLIP-So400m/14. PaliGemma dilatih dengan mengikuti resep PaLI-3.

Input dan output

  • Input: String gambar dan teks, seperti perintah untuk menambahkan teks pada gambar, atau pertanyaan.
  • Output: Teks yang dihasilkan sebagai respons terhadap input, seperti teks gambar, jawaban atas pertanyaan, daftar koordinat kotak pembatas objek, atau kata kode segmentasi.

Data model

Set data pra-pelatihan

PaliGemma dilatih sebelumnya dengan campuran set data berikut:

Pemfilteran tanggung jawab data

Filter berikut diterapkan ke WebLI, dengan tujuan melatih PaliGemma pada data bersih:

  • Pemfilteran gambar pornografi: Filter ini menghapus gambar yang dianggap bersifat pornografi.
  • Pemfilteran keamanan teks: Kami mengidentifikasi dan memfilter gambar yang dipasangkan dengan teks yang tidak aman. Teks yang tidak aman adalah teks yang dianggap berisi atau tentang CSAI, pornografi, konten vulgar, atau menyinggung.
  • Pemfilteran toksisitas teks: Selanjutnya, kami menggunakan Perspective API untuk mengidentifikasi dan memfilter gambar yang disambungkan dengan teks yang dianggap menghina, cabul, berisi kebencian, atau negatif.
  • Pemfilteran informasi pribadi teks: Kami memfilter informasi pribadi tertentu dan data sensitif lainnya menggunakan Cloud Data Loss Prevention (DLP) API untuk melindungi privasi individu. ID seperti nomor jaminan sosial dan jenis informasi sensitif lainnya telah dihapus.
  • Metode tambahan: Pemfilteran berdasarkan kualitas dan keamanan konten sesuai dengan kebijakan dan praktik kami.

Informasi penerapan

Hardware

PaliGemma dilatih menggunakan hardware Tensor Processing Unit (TPU) generasi terbaru (TPUv5e).

Software

Pelatihan dilakukan menggunakan JAX, Flax, TFDS, dan big_vision.

Dengan JAX, peneliti dapat memanfaatkan hardware generasi terbaru, termasuk TPU, untuk pelatihan model besar yang lebih cepat dan efisien.

TFDS digunakan untuk mengakses {i>dataset<i} dan Flax digunakan untuk arsitektur model. Kode fine-tune dan kode inferensi PaleGemma dirilis di repositori GitHub big_vision.

Informasi evaluasi

Hasil benchmark

Untuk memverifikasi kemampuan transfer PaliGemma ke berbagai tugas akademis, kami meningkatkan kualitas model yang telah dilatih sebelumnya pada setiap tugas. Selain itu, kita melatih model campuran dengan campuran tugas transfer. Kami melaporkan hasil pada resolusi yang berbeda untuk memberikan kesan tentang tugas mana yang mendapatkan manfaat dari peningkatan resolusi. Yang penting, tidak satu pun dari tugas atau set data ini yang merupakan bagian dari campuran data pra-pelatihan, dan gambarnya secara eksplisit dihapus dari data pra-pelatihan berskala web.

Tugas tunggal (sempurnakan pada tugas tunggal)

Benchmark (pemisahan kereta) Metrik (pemisahan) pt-224 pt-448 pt-896
Penyertaan subtitel
Teks COCO (kereta+restval) CIDEr (val) 141,92 144,60
NoCaps (Eval transfer teks COCO) CIDEr (val) 121,72 123,58
COCO-35L (kereta) CIDEr dev (id/rata-rata-34/rata-rata)
139,2
115,8
116,4
141,2
118,0
118,6
XM3600 (Evaluasi transfer COCO-35L) CIDEr dev (id/rata-rata-34/rata-rata)
78,1
41,3
42,4
80,0
41,9
42,9
TextCaps (kereta) CIDEr (val) 127,48 153,94
SciCap (kalimat pertama, tanpa subgambar) (train+val) CIDEr/BLEU-4 (pengujian)
162,25
0,192
181,49
0,211
Screen2words (kereta+dev) CIDEr (pengujian) 117,57 119,59
Pemberian Teks Widget (kereta+dev) CIDEr (pengujian) 136,07 148,36
Proses menjawab pertanyaan
VQAv2 (kereta+validasi) Akurasi (Server pengujian - std) 83,19 85,64
MMVP (Eval transfer VQAv2) Akurasi Berpasangan 47,33 45,33
POPE (Eval transfer VQAv2) Akurasi (acak/populer/musuh)
87,80
85,87
84,27
88,23
86,77
85,90
OKVQA (kereta) Akurasi (val) 63,54 63,15
A-OKVQA (MC) (kereta+val) Akurasi (Server pengujian) 76,37 76,90
A-OKVQA (DA) (kereta+val) Akurasi (Server pengujian) 61,85 63,22
GQA (train_balanced+val_balanced) Akurasi (seimbang pengujian) 65,61 67,03
xGQA (Evaluasi transfer GQA) Akurasi rata-rata (bn, de, en, id, ko, pt, ru, zh) 58,37 59,07
NLVR2 (kereta+dev) Akurasi (pengujian) 90,02 88,93
MaRVL (Eval transfer NLVR2) Akurasi rata-rata (pengujian) (id, sw, ta, tr, zh) 80,57 76,78
AI2D (kereta) Akurasi (pengujian) 72,12 73,28
ScienceQA (Subset Img, tanpa CoT) (kereta+val) Akurasi (pengujian) 95,39 95,93
RSVQA-LR (Non numerik) (kereta+val) Akurasi rata-rata (pengujian) 92,65 93,11
RSVQA-HR (Non numerik) (kereta+val) Akurasi rata-rata (pengujian/pengujian2)
92,61
90,58
92,79
90,54
ChartQA (manusia+aug)x(kereta+val) Akurasi Santai Rata-rata (test_human, test_aug) 57,08 71,36
VizWiz VQA (kereta+val) Akurasi (Server pengujian - std) 73,7 75,52
TallyQA (kereta) Akurasi (test_simple/test_complex)
81,72
69,56
84,86
72,27
OCR-VQA (kereta+val) Akurasi (pengujian) 72,32 74,61 74,93
TextVQA (kereta+val) Akurasi (Server pengujian - std) 55,47 73,15 76,48
DocVQA (kereta+val) ANLS (Server pengujian) 43,74 78,02 84,77
VQA infografis (kereta+val) ANLS (Server pengujian) 28,46 40,47 47,75
SceneText VQA (kereta+val) ANLS (Server pengujian) 63,29 81,82 84,40
Segmentation
RefCOCO (gabungan refcoco, refcoco+, refcocog, kecuali val, dan gambar pengujian) MIoU (validasi) refcoco/refcoco+/refcocog
73,40
68,32
67,65
75,57
69,76
70,17
76,94
72,18
72,22
Tugas video (Teks/QA)
MSR-VTT (Pemberian Teks) CIDEr (pengujian) 70,54
MSR-VTT (QA) Akurasi (pengujian) 50,09
ActivityNet (Pemberian teks) CIDEr (pengujian) 34,62
ActivityNet (QA) Akurasi (pengujian) 50,78
VATEX (Pemberian teks) CIDEr (pengujian) 79,73
MSVD (QA) Akurasi (pengujian) 60,22

Model campuran (mengoptimalkan campuran tugas transfer)

Benchmark Metrik (pemisahan) mix-224 mix-448
MMVP Akurasi Berpasangan 46,00 45,33
POPE Akurasi (acak/populer/musuh)
88,00
86,63
85,67
89,37
88,40
87,47

Etika dan keamanan

Pendekatan evaluasi

Metode evaluasi kami mencakup evaluasi terstruktur dan pengujian tim merah internal terhadap kebijakan konten yang relevan. Red-team dilakukan oleh sejumlah tim yang berbeda, masing-masing dengan sasaran dan metrik evaluasi manusia yang berbeda. Model-model ini dievaluasi berdasarkan sejumlah kategori berbeda yang relevan dengan etika dan keamanan, termasuk:

  • Evaluasi manual terhadap perintah yang mencakup keselamatan anak, keamanan konten, dan bahaya representatif. Lihat kartu model Gemma untuk mengetahui detail selengkapnya tentang pendekatan evaluasi, tetapi dengan pemberian teks gambar dan penyiapan jawaban pertanyaan visual.
  • Evaluasi tolok ukur Gambar-ke-Teks: Tolok ukur terhadap set data akademis yang relevan seperti Set Data FairFace (Karkkainen et al., 2021).

Hasil evaluasi

  • Hasil evaluasi evaluasi etika dan keamanan manual berada dalam batas yang dapat diterima untuk memenuhi kebijakan internal untuk kategori seperti keselamatan anak, keamanan konten, dan bahaya representasi.
  • Selain evaluasi internal yang kuat, kami juga menggunakan Perspective API (batas 0,8) untuk mengukur toksisitas, kata-kata tidak sopan, dan masalah potensial lainnya dalam teks yang dihasilkan untuk gambar yang bersumber dari set data FairFace. Kami melaporkan nilai maksimum dan median yang diamati di seluruh subgrup untuk setiap atribut gender, etnis, dan usia yang dirasakan.
Metrik Gender yang dirasakan Etnis Kelompok usia
Maksimum Median Maksimum Median Maksimum Median
Toxicity 0,04% 0,03% 0,08% 0,00% 0,09% 0,00%
Serangan Identitas 0,00% 0,00% 0,00% 0,00% 0,00% 0,00%
Penghinaan 0,06% 0,04% 0,09% 0,07% 0,16% 0,00%
Ancaman 0,06% 0,05% 0,14% 0,05% 0,17% 0,00%
Kata-kata tidak sopan 0,00% 0,00% 0,00% 0,00% 0,00% 0,00%

Penggunaan dan batasan

Penggunaan yang dimaksudkan

Open Vision Language Models (VLM) memiliki beragam aplikasi di berbagai industri dan domain. Daftar potensi penggunaan berikut tidak komprehensif. Tujuan daftar ini adalah memberikan informasi kontekstual tentang kemungkinan kasus penggunaan yang dipertimbangkan oleh pembuat model sebagai bagian dari pelatihan dan pengembangan model.

Menyesuaikan tugas bahasa penglihatan yang spesifik:

  • Model terlatih dapat disesuaikan dengan berbagai tugas bahasa visual seperti: keterangan gambar, teks video singkat, tanya jawab visual, pembacaan teks, deteksi objek, dan segmentasi objek.
  • Model terlatih dapat disesuaikan untuk domain tertentu seperti menjawab pertanyaan untuk deteksi dari jarak jauh, pertanyaan visual dari orang tunanetra, menjawab pertanyaan sains, menjelaskan fungsi elemen UI.
  • Model yang telah dilatih sebelumnya dapat disesuaikan untuk tugas-tugas dengan output non-tekstual seperti kotak pembatas atau mask segmentasi.

Riset bahasa visual:

  • Model terlatih dan model yang disesuaikan dapat berfungsi sebagai dasar bagi periset untuk bereksperimen dengan teknik VLM, mengembangkan algoritma, dan berkontribusi pada kemajuan di bidang ini.

Pertimbangan dan risiko etis

Pengembangan vision-language model (VLM) menimbulkan beberapa kekhawatiran etika. Dalam membuat model terbuka, kami telah mempertimbangkan dengan cermat hal-hal berikut:

  • Bias dan Keadilan
    • VLM yang dilatih dengan data teks gambar dunia nyata berskala besar dapat mencerminkan bias sosial-budaya yang tertanam dalam materi pelatihan. Model ini melalui pemeriksaan yang cermat, memasukkan data pemrosesan yang dijelaskan di awal, dan evaluasi posterior yang dilaporkan dalam kartu ini.
  • Misinformasi dan Penyalahgunaan
    • VLM dapat disalahgunakan untuk menghasilkan teks yang palsu, menyesatkan, atau berbahaya.
    • Panduan disediakan untuk penggunaan yang bertanggung jawab dengan model ini. Lihat Toolkit AI Generatif yang Bertanggung Jawab.
  • Transparansi dan Akuntabilitas
    • Kartu model ini merangkum detail tentang proses arsitektur, kemampuan, batasan, dan evaluasi model.
    • Model terbuka yang dikembangkan secara bertanggung jawab menawarkan peluang untuk berbagi inovasi dengan membuat teknologi VLM dapat diakses oleh developer dan peneliti di seluruh ekosistem AI.

Risiko yang diidentifikasi dan mitigasi:

  • Perpetuasi bias: Sebaiknya lakukan pemantauan berkelanjutan (menggunakan metrik evaluasi, peninjauan manual) dan eksplorasi teknik penghilang bias selama pelatihan model, fine-tuning, dan kasus penggunaan lainnya.
  • Pembuatan konten berbahaya: Mekanisme dan pedoman keamanan konten sangat penting. Developer dianjurkan untuk berhati-hati dan menerapkan perlindungan keamanan konten yang sesuai berdasarkan kebijakan produk dan kasus penggunaan aplikasi tertentu mereka.
  • Penyalahgunaan untuk tujuan berbahaya: Batasan teknis serta edukasi bagi developer dan pengguna akhir dapat membantu mengurangi aplikasi berbahaya LLM. Referensi pendidikan dan mekanisme pelaporan bagi pengguna untuk menandai penyalahgunaan disediakan: lihat Toolkit AI Generatif yang Bertanggung Jawab. Penggunaan model Gemma yang dilarang diuraikan dalam Kebijakan Penggunaan Terlarang Gemma.
  • Pelanggaran privasi: Model dilatih berdasarkan data yang difilter untuk menghapus informasi pribadi dan data sensitif tertentu. Developer dianjurkan untuk mematuhi peraturan privasi dengan teknik yang menjaga privasi.

Batasan

  • Sebagian besar batasan yang diwarisi dari model Gemma yang mendasarinya masih berlaku:
    • VLM lebih baik dalam tugas-tugas yang dapat dibingkai dengan perintah dan instruksi yang jelas. Tugas yang terbuka atau sangat kompleks mungkin menantang.
    • Natural language bersifat kompleks. VLM mungkin kesulitan memahami nuansa, sarkasme, atau bahasa kiasan yang halus.
    • VLM menghasilkan respons berdasarkan informasi yang dipelajari dari set data pelatihan, tetapi bukan merupakan pusat informasi. Pertanyaan ini mungkin menghasilkan pernyataan faktual yang salah atau sudah ketinggalan zaman.
    • VLM mengandalkan pola statistik dalam bahasa dan gambar. Mereka mungkin tidak memiliki kemampuan untuk menerapkan penalaran akal sehat dalam situasi tertentu.
  • PaliGemma dirancang pertama dan terutama untuk berfungsi sebagai model terlatih umum untuk menyesuaikan tugas khusus. Oleh karena itu, performa "unik" atau "zero-shot"-nya mungkin tertinggal dari model yang dirancang khusus untuk itu.
  • PaliGemma bukanlah chatbot dengan banyak giliran. Format ini dirancang untuk satu putaran input gambar dan teks.