Halaman model: PaliGemma
Referensi dan dokumentasi teknis:
Persyaratan Penggunaan: Persyaratan
Penulis: Google
Informasi model
Ringkasan model
Deskripsi
PaliGemma adalah model bahasa visual (VLM) yang serbaguna dan ringan yang terinspirasi oleh PaLI-3 dan didasarkan pada komponen terbuka seperti model visual SigLIP dan model bahasa Gemma. Model ini menggunakan gambar dan teks sebagai input dan menghasilkan teks sebagai output, yang mendukung beberapa bahasa. Model ini dirancang untuk performa penyesuaian terbaik di berbagai tugas bahasa-penglihatan seperti teks gambar dan video singkat, penjawaban pertanyaan visual, pembacaan teks, deteksi objek, dan segmentasi objek.
Arsitektur model
PaliGemma adalah komposisi dari decoder Transformer dan encoder gambar Vision Transformer, yang memiliki total 3 miliar parameter. Decoder teks diinisialisasi dari Gemma-2B. Encoder gambar diinisialisasi dari SigLIP-So400m/14. PaliGemma dilatih dengan mengikuti resep PaLI-3.
Input dan output
- Input: String gambar dan teks, seperti perintah untuk memberi teks pada gambar, atau pertanyaan.
- Output: Teks yang dihasilkan sebagai respons terhadap input, seperti teks gambar, jawaban atas pertanyaan, daftar koordinat kotak pembatas objek, atau kata sandi segmentasi.
Pengutipan
@article{
title={PaliGemma: A versatile 3B VLM for transfer},
author={Lucas Beyer and Andreas Steiner and André Susano Pinto and Alexander Kolesnikov and Xiao Wang* and Daniel Salz and Maxim Neumann and Ibrahim Alabdulmohsin and Michael Tschannen and Emanuele Bugliarello and Thomas Unterthiner and Daniel Keysers and Skanda Koppula and Fangyu Liu and Adam Grycner and Alexey Gritsenko and Neil Houlsby and Manoj Kumar and Keran Rong and Julian Eisenschlos and Rishabh Kabra and Matthias Bauer and Matko Bošnjak and Xi Chen and Matthias Minderer and Paul Voigtlaender and Ioana Bica and Ivana Balazevic and Joan Puigcerver and Pinelopi Papalampidi and Olivier Henaff and Xi Xiong and Radu Soricut and Jeremiah Harmsen and Xiaohua Zhai},
year={2024},
journal={arXiv preprint arXiv:2407.07726}
}
Model data
Set data prapelatihan
PaliGemma telah dilatih sebelumnya dengan campuran set data berikut:
- WebLI: WebLI (Gambar Bahasa Web) adalah set data teks gambar multibahasa skala web yang dibuat dari web publik. Berbagai pemisahan WebLI digunakan untuk memperoleh kemampuan model yang serbaguna, seperti pemahaman semantik visual, pelokalan objek, pemahaman teks yang berlokasi secara visual, multibahasa, dll.
- CC3M-35L: Pasangan image-alt_text bahasa Inggris yang diseleksi dari halaman web (Sharma et al., 2018). Kami menggunakan Google Cloud Translation API untuk menerjemahkan ke dalam 34 bahasa tambahan.
- VQ²A-CC3M-35L/VQG-CC3M-35L: Subkumpulan VQ2A-CC3M (Changpinyo et al., 2022a), yang diterjemahkan ke dalam 34 bahasa tambahan yang sama seperti CC3M-35L, menggunakan Google Cloud Translation API.
- OpenImages: Deteksi serta pertanyaan dan jawaban berbasis objek (Piergiovanni et al. 2022) yang dihasilkan oleh aturan buatan tangan pada set data OpenImages.
- WIT: Gambar dan teks yang dikumpulkan dari Wikipedia (Srinivasan et al., 2021).
Pemfilteran tanggung jawab data
Filter berikut diterapkan ke WebLI, dengan tujuan melatih PaliGemma pada data yang bersih:
- Pemfilteran gambar pornografi: Filter ini menghapus gambar yang dianggap bersifat pornografi.
- Pemfilteran keamanan teks: Kami mengidentifikasi dan memfilter gambar yang disambungkan dengan teks yang tidak aman. Teks tidak aman adalah teks apa pun yang dianggap berisi atau tentang gambar pelecehan seksual terhadap anak-anak (CSAI), pornografi, kata-kata tidak sopan, atau menyinggung.
- Pemfilteran toksisitas teks: Kami juga menggunakan Perspective API untuk mengidentifikasi dan memfilter gambar yang dikaitkan dengan teks yang dianggap menghina, cabul, memicu kebencian, atau negatif.
- Pemfilteran informasi pribadi teks: Kami memfilter informasi pribadi tertentu dan data sensitif lainnya menggunakan Cloud Data Loss Prevention (DLP) APIuntuk melindungi privasi individu. ID seperti nomor jaminan sosial dan jenis informasi sensitif lainnya telah dihapus.
- Metode tambahan: Pemfilteran berdasarkan kualitas dan keamanan konten sesuai dengan kebijakan dan praktik kami.
Informasi penerapan
Hardware
PaliGemma dilatih menggunakan hardware Tensor Processing Unit (TPU) generasi terbaru (TPUv5e).
Software
Pelatihan selesai menggunakan JAX,
Flax,
TFDS, dan
big_vision
.
JAX memungkinkan peneliti memanfaatkan hardware generasi terbaru, termasuk TPU, untuk pelatihan model besar yang lebih cepat dan efisien.
TFDS digunakan untuk mengakses set data dan Flax digunakan untuk arsitektur model. Kode
penyesuaian dan kode inferensi PaliGemma dirilis di repositori GitHub
big_vision
.
Informasi evaluasi
Hasil benchmark
Untuk memverifikasi kemampuan transfer PaliGemma ke berbagai tugas akademis, kami menyesuaikan model terlatih pada setiap tugas. Selain itu, kita melatih model campuran dengan campuran tugas transfer. Kami melaporkan hasil pada resolusi yang berbeda untuk memberikan kesan tentang tugas mana yang mendapatkan manfaat dari resolusi yang ditingkatkan. Yang penting, tidak ada tugas atau set data ini yang merupakan bagian dari campuran data prapelatihan, dan gambarnya dihapus secara eksplisit dari data prapelatihan skala web.
Satu tugas (penyesuaian pada satu tugas)
Tolok ukur (pemisahan kereta) | Metrik (terpisah) | pt-224 | pt-448 | pt-896 |
---|---|---|---|---|
Penyertaan subtitel | ||||
Teks COCO (latihan+restval) | CIDEr (val) | 141,92 | 144,60 | |
NoCaps (Evaluasi transfer teks COCO) | CIDEr (val) | 121,72 | 123,58 | |
COCO-35L (kereta) | CIDEr dev (en/avg-34/avg) |
|
|
|
XM3600 (Evaluasi transfer COCO-35L) | CIDEr dev (en/avg-34/avg) |
|
|
|
TextCaps (latih) | CIDEr (val) | 127,48 | 153,94 | |
SciCap (kalimat pertama, tidak ada subgambar) (latihan+validasi) | CIDEr/BLEU-4 (pengujian) |
|
|
|
Screen2words (latihan+pengujian) | CIDEr (pengujian) | 117,57 | 119,59 | |
Pemberian Teks Widget (latihan+pengembangan) | CIDEr (pengujian) | 136,07 | 148,36 | |
Proses menjawab pertanyaan | ||||
VQAv2 (latihan+validasi) | Akurasi (Server pengujian - std) | 83,19 | 85,64 | |
MMVP (Evaluasi transfer VQAv2) | Akurasi Penyambungan | 47,33 | 45,33 | |
POPE (Evaluasi transfer VQAv2) | Akurasi (acak/populer/adversarial) |
|
|
|
OKVQA (latih) | Akurasi (val) | 63,54 | 63,15 | |
A-OKVQA (MC) (latihan+validasi) | Akurasi (Server pengujian) | 76,37 | 76,90 | |
A-OKVQA (DA) (train+val) | Akurasi (Server pengujian) | 61,85 | 63,22 | |
GQA (train_balanced+val_balanced) | Akurasi (testdev seimbang) | 65,61 | 67,03 | |
xGQA (Evaluasi transfer GQA) | Akurasi Rata-Rata (bn, de, en, id, ko, pt, ru, zh) | 58,37 | 59,07 | |
NLVR2 (train+dev) | Akurasi (pengujian) | 90,02 | 88,93 | |
MaRVL (Evaluasi transfer NLVR2) | Akurasi Rata-Rata (pengujian) (id, sw, ta, tr, zh) | 80,57 | 76,78 | |
AI2D (latih) | Akurasi (pengujian) | 72,12 | 73,28 | |
ScienceQA (Subset gambar, tanpa CoT) (latihan+validasi) | Akurasi (pengujian) | 95,39 | 95,93 | |
RSVQA-LR (Non numeric) (train+val) | Akurasi Rata-Rata (pengujian) | 92,65 | 93,11 | |
RSVQA-HR (Non numerik) (latihan+nilai) | Akurasi Rata-Rata (pengujian/pengujian2) |
|
|
|
ChartQA (human+aug)x(train+val) | Akurasi Longgar Rata-Rata (test_human, test_aug) | 57,08 | 71,36 | |
VizWiz VQA (latihan+validasi) | Akurasi (Server pengujian - std) | 73,7 | 75,52 | |
TallyQA (latih) | Akurasi (test_simple/test_complex) |
|
|
|
OCR-VQA (latihan+validasi) | Akurasi (pengujian) | 72,32 | 74,61 | 74,93 |
TextVQA (latihan+validasi) | Akurasi (Server pengujian - std) | 55,47 | 73,15 | 76,48 |
DocVQA (latihan+validasi) | ANLS (Server pengujian) | 43,74 | 78,02 | 84,77 |
Infografis VQA (latihan+validasi) | ANLS (Server pengujian) | 28,46 | 40,47 | 47,75 |
SceneText VQA (latihan+validasi) | ANLS (Server pengujian) | 63,29 | 81,82 | 84,40 |
Segmentasi | ||||
RefCOCO (gabungan refcoco, refcoco+, refcocog, tidak termasuk gambar val dan pengujian) | MIoU (validasi) refcoco/refcoco+/refcocog |
|
|
|
Tugas video (Teks/QA) | ||||
MSR-VTT (Pemberian Teks) | CIDEr (pengujian) | 70,54 | ||
MSR-VTT (QA) | Akurasi (pengujian) | 50,09 | ||
ActivityNet (Pemberian Teks) | CIDEr (pengujian) | 34,62 | ||
ActivityNet (QA) | Akurasi (pengujian) | 50,78 | ||
VATEX (Pemberian Teks) | CIDEr (pengujian) | 79,73 | ||
MSVD (QA) | Akurasi (pengujian) | 60,22 |
Model campuran (penyesuaian pada campuran tugas transfer)
Benchmark | Metrik (terpisah) | mix-224 | mix-448 |
---|---|---|---|
MMVP | Akurasi Penyambungan | 46,00 | 45,33 |
POPE | Akurasi (acak/populer/adversarial) |
|
|
Etika dan keamanan
Pendekatan evaluasi
Metode evaluasi kami mencakup evaluasi terstruktur dan pengujian red team internal terhadap kebijakan konten yang relevan. Tim red-teaming dilakukan oleh sejumlah tim yang berbeda, masing-masing dengan sasaran dan metrik evaluasi manusia yang berbeda. Model ini dievaluasi berdasarkan sejumlah kategori yang berbeda dan relevan dengan etika dan keamanan, termasuk:
- Evaluasi manual pada perintah yang mencakup keselamatan anak, keamanan konten, dan bahaya representasi. Lihat kartu model Gemma untuk mengetahui detail selengkapnya tentang pendekatan evaluasi, tetapi dengan penyiapan teks visual dan pertanyaan visual.
- Evaluasi benchmark Image-to-Text: Benchmark terhadap set data akademik yang relevan seperti Set Data FairFace (Karkkainen et al., 2021).
Hasil evaluasi
- Hasil evaluasi manual dari evaluasi etika dan keamanan berada dalam batas yang dapat diterima untuk memenuhi kebijakan internal untuk kategori seperti keselamatan anak, keselamatan konten, dan bahaya representasi.
- Selain evaluasi internal yang andal, kami juga menggunakan Perspective API (nilai minimum 0,8) untuk mengukur toksisitas, kata-kata tidak sopan, dan potensi masalah lainnya dalam teks yang dibuat untuk gambar yang bersumber dari set data FairFace. Kami melaporkan nilai maksimum dan median yang diamati di seluruh subgrup untuk setiap atribut jenis kelamin, etnis, dan usia yang dirasakan.
Metrik | Gender yang dirasakan | Etnis | Kelompok usia | |||
---|---|---|---|---|---|---|
Maksimum | Median | Maksimum | Median | Maksimum | Median | |
Toxicity | 0,04% | 0,03% | 0,08% | 0,00% | 0,09% | 0,00% |
Serangan terhadap Identitas | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% |
Insult | 0,06% | 0,04% | 0,09% | 0,07% | 0,16% | 0,00% |
Ancaman | 0,06% | 0,05% | 0,14% | 0,05% | 0,17% | 0,00% |
Kata-kata tidak sopan | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% |
Penggunaan dan batasan
Penggunaan yang dimaksudkan
Model Bahasa Visi Terbuka (VLM) memiliki berbagai aplikasi di berbagai industri dan domain. Daftar potensi penggunaan berikut tidak lengkap. Tujuan daftar ini adalah untuk memberikan informasi kontekstual tentang kemungkinan kasus penggunaan yang dipertimbangkan pembuat model sebagai bagian dari pelatihan dan pengembangan model. Penggunaan model Gemma yang dilarang diuraikan dalam Kebijakan Penggunaan Terlarang Gemma.
Menyesuaikan tugas bahasa-penglihatan tertentu:
- Model terlatih dapat disesuaikan pada berbagai tugas bahasa-penglihatan seperti: teks gambar, teks video singkat, penjawaban pertanyaan visual, pembacaan teks, deteksi objek, dan segmentasi objek.
- Model terlatih sebelumnya dapat disesuaikan untuk domain tertentu seperti penjawaban pertanyaan pemindaian jarak jauh, pertanyaan visual dari orang yang buta, penjawaban pertanyaan sains, menjelaskan fungsi elemen UI.
- Model terlatih dapat disesuaikan untuk tugas dengan output non-tekstual seperti kotak pembatas atau mask segmentasi.
Riset bahasa-penglihatan:
- Model terlatih dan model yang disesuaikan dapat berfungsi sebagai dasar bagi peneliti untuk bereksperimen dengan teknik VLM, mengembangkan algoritma, dan berkontribusi pada kemajuan bidang ini.
Pertimbangan dan risiko etis
Pengembangan model bahasa-visi (VLM) menimbulkan beberapa masalah etika. Dalam membuat model terbuka, kami telah mempertimbangkan hal-hal berikut dengan cermat:
- Bias dan Keadilan
- VLM yang dilatih menggunakan data teks-gambar dunia nyata berskala besar dapat mencerminkan bias sosial-budaya yang disematkan dalam materi pelatihan. Model ini telah melalui pemeriksaan yang cermat, prapemrosesan data input dijelaskan, dan evaluasi posterior dilaporkan dalam kartu ini.
- Misinformasi dan Penyalahgunaan
- VLM dapat disalahgunakan untuk menghasilkan teks yang salah, menyesatkan, atau berbahaya.
- Panduan disediakan untuk penggunaan yang bertanggung jawab dengan model ini, lihat Responsible Generative AI Toolkit.
- Transparansi dan Akuntabilitas
- Kartu model ini merangkum detail tentang arsitektur, kemampuan, batasan, dan proses evaluasi model.
- Model terbuka yang dikembangkan secara bertanggung jawab menawarkan peluang untuk berbagi inovasi dengan membuat teknologi VLM dapat diakses oleh developer dan peneliti di seluruh ekosistem AI.
Risiko yang diidentifikasi dan mitigasinya:
- Perpetuasi bias: Sebaiknya lakukan pemantauan berkelanjutan (menggunakan metrik evaluasi, peninjauan manual) dan eksplorasi teknik penghapusan bias selama pelatihan model, penyesuaian, dan kasus penggunaan lainnya.
- Pembuatan konten yang merugikan: Mekanisme dan pedoman untuk keamanan konten sangatlah penting. Developer dianjurkan untuk berhati-hati dan menerapkan pengamanan keamanan konten yang sesuai berdasarkan kebijakan produk tertentu dan kasus penggunaan aplikasi mereka.
- Penyalahgunaan untuk tujuan berbahaya: Batasan teknis serta edukasi developer dan pengguna akhir dapat membantu mengurangi aplikasi LLM yang berbahaya. Referensi edukasi dan mekanisme pelaporan bagi pengguna untuk melaporkan penyalahgunaan disediakan: lihat Toolkit AI Generatif yang Bertanggung Jawab. Penggunaan model Gemma yang dilarang diuraikan dalam Kebijakan Penggunaan Terlarang Gemma.
- Pelanggaran privasi: Model dilatih dengan data yang difilter untuk menghapus informasi pribadi dan data sensitif tertentu. Developer dianjurkan untuk mematuhi peraturan privasi dengan teknik yang menjaga privasi.
Batasan
- Sebagian besar batasan yang diwarisi dari model Gemma yang mendasarinya masih berlaku:
- VLM lebih baik dalam tugas yang dapat dibingkai dengan perintah dan petunjuk yang jelas. Tugas terbuka atau yang sangat kompleks mungkin sulit.
- Bahasa alami pada dasarnya bersifat kompleks. VLM mungkin kesulitan memahami nuansa halus, sarkasme, atau bahasa kiasan.
- VLM menghasilkan respons berdasarkan informasi yang dipelajari dari set data pelatihan, tetapi bukan merupakan basis pengetahuan. Model tersebut dapat menghasilkan pernyataan faktual yang salah atau usang.
- VLM mengandalkan pola statistik dalam bahasa dan gambar. Mereka mungkin tidak memiliki kemampuan untuk menerapkan penalaran akal sehat dalam situasi tertentu.
- PaliGemma dirancang terutama untuk berfungsi sebagai model umum yang telah dilatih sebelumnya untuk melakukan penyesuaian pada tugas khusus. Oleh karena itu, performa "out of the box" atau "zero-shot"-nya mungkin tertinggal dari model yang dirancang khusus untuk penggunaan tujuan umum.
- PaliGemma bukan chatbot multi-giliran. Fungsi ini dirancang untuk satu putaran input gambar dan teks.