Halaman model: PaliGemma
Referensi dan dokumentasi teknis:
Persyaratan Penggunaan: Persyaratan
Penulis: Google
Informasi model
Ringkasan model
PaliGemma 2 adalah update dari model bahasa visual (VLM) PaliGemma yang menggabungkan kemampuan model Gemma 2. Model keluarga PaliGemma terinspirasi oleh PaLI-3 dan didasarkan pada komponen terbuka seperti model visio SigLIP dan model bahasa Gemma 2. Model ini menggunakan gambar dan teks sebagai input dan menghasilkan teks sebagai output, yang mendukung beberapa bahasa. Model ini dirancang untuk performa penyesuaian terbaik di berbagai tugas bahasa-penglihatan seperti teks gambar dan video singkat, menjawab pertanyaan visual, membaca teks, deteksi objek, dan segmentasi objek.
Arsitektur model
PaliGemma 2 adalah komposisi dari decoder Transformer dan encoder gambar Vision Transformer. Dekoder teks diinisialisasi dari Gemma 2 dalam ukuran parameter 2B, 9B, dan 27B. Encoder gambar diinisialisasi dari SigLIP-So400m/14. Serupa dengan model PaliGemma asli, PaliGemma 2 dilatih dengan mengikuti resep PaLI-3.
Input dan output
- Input: String gambar dan teks, seperti perintah untuk memberi teks pada gambar, atau pertanyaan.
- Output: Teks yang dihasilkan sebagai respons terhadap input, seperti teks gambar, jawaban atas pertanyaan, daftar koordinat kotak pembatas objek, atau kata sandi segmentasi.
Pengutipan
@article{
title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
year={2024},
journal={arXiv preprint arXiv:2412.03555}
}
Model data
Set data pra-pelatihan
PaliGemma 2 telah dilatih sebelumnya pada campuran set data berikut:
- WebLI: WebLI (Gambar Bahasa Web) adalah set data teks gambar multibahasa skala web yang dibuat dari web publik. Berbagai pemisahan WebLI digunakan untuk memperoleh kemampuan model yang serbaguna, seperti pemahaman semantik visual, pelokalan objek, pemahaman teks yang berlokasi secara visual, dan multibahasa.
- CC3M-35L: Pasangan image-alt_text bahasa Inggris yang diseleksi dari halaman web (Sharma et al., 2018). Kami menggunakan Google Cloud Translation API untuk menerjemahkan ke dalam 34 bahasa tambahan.
- VQ²A-CC3M-35L/VQG-CC3M-35L: Subkumpulan VQ2A-CC3M (Changpinyo et al., 2022a), diterjemahkan ke dalam 34 bahasa tambahan yang sama seperti CC3M-35L, menggunakan Google Cloud Translation API.
- OpenImages: Deteksi serta pertanyaan dan jawaban berbasis objek (Piergiovanni et al. 2022) yang dihasilkan oleh aturan buatan tangan pada set data OpenImages.
- WIT: Gambar dan teks yang dikumpulkan dari Wikipedia (Srinivasan et al., 2021).
PaliGemma 2 didasarkan pada Gemma 2, dan Anda dapat menemukan informasi tentang set data pra-pelatihan untuk Gemma 2 di kartu model Gemma 2.
Pemfilteran tanggung jawab data
Filter berikut diterapkan ke WebLI, dengan tujuan melatih PaliGemma 2 pada data yang aman dan bertanggung jawab:
- Pemfilteran gambar pornografi: Filter ini menghapus gambar yang dianggap bersifat pornografi.
- Pemfilteran keamanan teks: Kami mengidentifikasi dan memfilter gambar yang disambungkan dengan teks yang tidak aman. Teks tidak aman adalah teks apa pun yang dianggap berisi atau tentang gambar pelecehan seksual terhadap anak-anak (CSAI), pornografi, kata-kata tidak sopan, atau menyinggung.
- Pemfilteran toksisitas teks: Kami juga menggunakan Perspective API untuk mengidentifikasi dan memfilter gambar yang dipadankan dengan teks yang dianggap menghina, cabul, menyebarkan kebencian, atau bersifat negatif.
- Pemfilteran informasi pribadi teks: Kami memfilter informasi pribadi tertentu dan data sensitif lainnya menggunakan Cloud Data Loss Prevention (DLP) API untuk melindungi privasi individu. ID seperti nomor jaminan sosial dan jenis informasi sensitif lainnya telah dihapus.
- Metode tambahan: Pemfilteran berdasarkan kualitas dan keamanan konten sesuai dengan kebijakan dan praktik kami.
Informasi penerapan
Hardware
PaliGemma 2 dilatih menggunakan hardware Tensor Processing Unit (TPU) generasi terbaru (TPUv5e).
Software
Pelatihan selesai menggunakan JAX,
Flax,
TFDS, dan
big_vision
.
JAX memungkinkan peneliti memanfaatkan hardware generasi terbaru, termasuk TPU, untuk pelatihan model besar yang lebih cepat dan efisien.
TFDS digunakan untuk mengakses set data dan Flax digunakan untuk arsitektur model. Kode
penyesuaian dan kode inferensi PaliGemma 2 dirilis di repositori GitHub
big_vision
.
Informasi evaluasi
Hasil benchmark
Untuk memverifikasi kemampuan transfer PaliGemma 2 ke berbagai tugas akademis, kami menyesuaikan model terlatih di setiap tugas. Kami melaporkan hasil pada resolusi yang berbeda untuk memberikan kesan tentang tugas mana yang mendapatkan manfaat dari peningkatan resolusi. Yang penting, tidak ada tugas atau set data ini yang merupakan bagian dari campuran data prapelatihan, dan gambarnya dihapus secara eksplisit dari data prapelatihan skala web.
Hasil PaliGemma 2 berdasarkan resolusi dan ukuran model
Benchmark | 224-3B | 224-10B | 224-28B | 448-3B | 448-10B | 448-28B |
---|---|---|---|---|---|---|
AI2D | 74,7 | 83,1 | 83,2 | 76,0 | 84,4 | 84,6 |
AOKVQA-DA (val) | 64,2 | 68,9 | 70,2 | 67,9 | 70,8 | 71,2 |
AOKVQA-MC (val) | 79,7 | 83,7 | 84,7 | 82,5 | 85,9 | 87,0 |
ActivityNet-CAP | 34,2 | 35,9 | - | - | - | - |
ActivityNet-QA | 51,3 | 53,2 | - | - | - | - |
COCO-35L (avg34) | 113,9 | 115,8 | 116,5 | 115,8 | 117,2 | 117,2 |
COCO-35L (en) | 138,4 | 140,8 | 142,4 | 140,4 | 142,4 | 142,3 |
COCOcap | 141,3 | 143,7 | 144,0 | 143,4 | 145,0 | 145,2 |
ChartQA (rata-rata) | 74,4 | 74,2 | 68,9 | 89,2 | 90,1 | 85,1 |
ChartQA (manusia) | 42,0 | 48,4 | 46,8 | 54,0 | 66,4 | 61,3 |
CountBenchQA | 81,0 | 84,0 | 86,4 | 82,0 | 85,3 | 87,4 |
DocVQA (val) | 39,9 | 43,9 | 44,9 | 73,6 | 76,6 | 76,1 |
GQA | 66,2 | 67,2 | 67,3 | 68,1 | 68,3 | 68,3 |
InfoVQA (val) | 25,2 | 33,6 | 36,4 | 37,5 | 47,8 | 46,7 |
MARVL (avg5) | 83,5 | 89,5 | 90,6 | 82,7 | 89,1 | 89.7 |
MSRVTT-CAP | 68,5 | 72,1 | - | - | - | - |
MSRVTT-QA | 50,5 | 51,9 | - | - | - | - |
MSVD-QA | 61,1 | 62,5 | - | - | - | - |
NLVR2 | 91,4 | 93,9 | 94,2 | 91,6 | 93,7 | 94,1 |
NoCaps | 123,1 | 126,3 | 127.1 | 123,5 | 126,9 | 127,0 |
OCR-VQA | 73,4 | 74,7 | 75,3 | 75,7 | 76,3 | 76,6 |
OKVQA | 64,2 | 68,0 | 71,2 | 64,1 | 68,6 | 70,6 |
RSVQA-hr (pengujian) | 92,7 | 92,6 | 92,7 | 92,8 | 92,8 | 92,8 |
RSVQA-hr (test2) | 90,9 | 90,8 | 90,9 | 90,7 | 90,7 | 90,8 |
RSVQA-lr | 93,0 | 92,8 | 93,5 | 92,7 | 93,1 | 93,7 |
RefCOCO (testA) | 75,7 | 77,2 | 76,8 | 78,6 | 79,7 | 79,3 |
RefCOCO (testB) | 71,0 | 74,2 | 73,9 | 73,5 | 76,2 | 74,8 |
RefCOCO (val) | 73,4 | 75,9 | 75,0 | 76,3 | 78,2 | 77,3 |
RefCOCO+ (testA) | 72,7 | 74,7 | 73,6 | 76,1 | 77,7 | 76,6 |
RefCOCO+ (testB) | 64,2 | 68,4 | 67,1 | 67,0 | 71,1 | 68,6 |
RefCOCO+ (val) | 68,6 | 72,0 | 70,3 | 72,1 | 74,4 | 72,8 |
RefCOCOg (pengujian) | 69,0 | 71,9 | 70,7 | 72,7 | 74,8 | 73,7 |
RefCOCOg (val) | 68,3 | 71,4 | 70,5 | 72,3 | 74,4 | 73,0 |
ST-VQA (val) | 61,9 | 64,3 | 65,1 | 80,5 | 82,0 | 81,8 |
SciCap | 165,1 | 159,5 | 156,9 | 183,3 | 177,2 | 172,7 |
ScienceQA | 96,1 | 98,2 | 98,2 | 96,2 | 98,5 | 98,6 |
Screen2Words | 113,3 | 117,8 | 122,8 | 114,0 | 119,1 | 123,4 |
TallyQA (kompleks) | 70,3 | 73,4 | 74,2 | 73,6 | 76,7 | 76,8 |
TallyQA (sederhana) | 81,8 | 83,2 | 83,4 | 85,3 | 86,2 | 85,7 |
TextCaps | 127,5 | 137,9 | 139,9 | 152,1 | 157,7 | 153,6 |
TextVQA (val) | 59,6 | 64,0 | 64,7 | 75,2 | 76,6 | 76,2 |
VATEX | 80,8 | 82,7 | - | - | - | - |
VQAv2 (minival) | 83,0 | 84,3 | 84,5 | 84,8 | 85,8 | 85,8 |
VizWizVQA (val) | 76,4 | 78,1 | 78,7 | 77,5 | 78,6 | 78,9 |
WidgetCap | 138,1 | 139,8 | 138,8 | 151,4 | 151,9 | 148,9 |
XM3600 (avg35) | 42,8 | 44,5 | 45,2 | 43,2 | 44,6 | 45,2 |
XM3600 (en) | 79,8 | 80,7 | 81,0 | 80,3 | 81,5 | 81,0 |
xGQA (avg7) | 58,6 | 61,4 | 61,1 | 60,4 | 62,6 | 62,1 |
Tolok Ukur Tambahan
Model | Presisi | Recall | F1 |
---|---|---|---|
PaliGemma 2 3B | 81,88 | 70,73 | 75,9 |
Model | Presisi | Recall | F1 |
---|---|---|---|
PaliGemma 2 3B | 73,8. | 74,54 | 74,17 |
Model | S-TEDS | TEDS | GriTS-Top | GriTS-Con |
---|---|---|---|---|
PaliGemma 2 3B | 99,18 | 98,94 | 99,43 | 99,21 |
Model | S-TEDS | TEDS | GriTS-Top | GriTS-Con |
---|---|---|---|---|
PaliGemma 2 3B | 97,6 | 97,31 | 97,99 | 97,84 |
Model | CER | LER | SER |
---|---|---|---|
PaliGemma 2 3B | 1,6 | 6,7 | 2.3 |
- PaliGemma 2 3B, Kecocokan Penuh: 94,8
Model | avg#char | avg#sent | NES % |
---|---|---|---|
PaliGemma 2 3B | 529 | 7,74 | 28,42 |
PaliGemma 2 10B | 521 | 7,45 | 20,27 |
- avg#char: Jumlah rata-rata karakter
- avg#sent: Jumlah rata-rata kalimat
- NES: Kalimat non-implikasi
Model | CIDEr | BLEU4 | Rouge-L | RadGraph F1 |
---|---|---|---|---|
PaliGemma 2 3B | 19,9% | 14,6% | 31,92% | 28,8% |
PaliGemma 2 10B | 17,4% | 15% | 32,41% | 29,5% |
Model | Pemisahan zeroshot VSR (pengujian) | Pemisahan acak VSR (pengujian) |
---|---|---|
PaliGemma 2 3B | 0,75 | 0,82 |
PaliGemma 2 10B | 0,80 | 0,87 |
Etika dan keselamatan
Pendekatan evaluasi
Metode evaluasi kami mencakup evaluasi etika dan keamanan terstruktur di seluruh kebijakan konten yang relevan, termasuk:
- Evaluasi manual pada perintah yang mencakup keselamatan anak, keamanan konten, dan bahaya representasi. Lihat kartu model Gemma untuk mengetahui detail selengkapnya tentang pendekatan evaluasi, tetapi dengan penyiapan teks visual dan pertanyaan visual.
- Evaluasi benchmark Image-to-Text: Benchmark terhadap set data akademik yang relevan seperti Set Data FairFace (Karkkainen et al., 2021).
Hasil evaluasi
- Hasil evaluasi manual dari evaluasi etika dan keamanan berada dalam batas yang dapat diterima untuk memenuhi kebijakan internal untuk kategori seperti keselamatan anak, keselamatan konten, dan bahaya representasi.
- Selain evaluasi internal yang andal, kami juga menggunakan Perspective API (nilai minimum 0,8) untuk mengukur toksisitas, kata-kata tidak sopan, dan potensi masalah lainnya dalam teks yang dibuat untuk gambar yang bersumber dari set data FairFace. Kami melaporkan nilai maksimum dan median yang diamati di seluruh subgrup untuk setiap atribut jenis kelamin, etnis, dan usia yang dirasakan.
Metrik | Gender yang dirasakan | Etnis | Kelompok usia | ||||||
---|---|---|---|---|---|---|---|---|---|
Ukuran model | 3 M | 10 miliar | 28B | 3 M | 10 miliar | 28B | 3 M | 10 miliar | 28B |
Maksimum | |||||||||
Toxicity | 0,14% | 0,15% | 0,19% | 0,29% | 0,39% | 0,39% | 0,26% | 0,18% | 0,32% |
Serangan terhadap Identitas | 0,04% | 0,02% | 0,02% | 0,13% | 0,06% | 0,06% | 0,06% | 0,03% | 0,06% |
Insult | 0,17% | 0,25% | 0,17% | 0,37% | 0,52% | 0,52% | 0,27% | 0,39% | 0,24% |
Ancaman | 0,55% | 0,43% | 0,57% | 0,83% | 0,48% | 0,48% | 0,64% | 0,43% | 0,64% |
Kata-kata tidak sopan | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% |
Median | |||||||||
Toxicity | 0,13% | 0,10% | 0,18% | 0,07% | 0,07% | 0,14% | 0,12% | 0,08% | 0,12% |
Serangan terhadap Identitas | 0,02% | 0,01% | 0,02% | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% |
Insult | 0,15% | 0,23% | 0,14% | 0,14% | 0,17% | 0,13% | 0,09% | 0,18% | 0,16% |
Ancaman | 0,35% | 0,27% | 0,41% | 0,28% | 0,19% | 0,42% | 0,27% | 0,31% | 0,40% |
Kata-kata tidak sopan | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% |
Penggunaan dan batasan
Penggunaan yang dimaksudkan
Model Bahasa Visi Terbuka (VLM) memiliki berbagai aplikasi di berbagai industri dan domain. Daftar potensi penggunaan berikut tidak lengkap. Tujuan daftar ini adalah untuk memberikan informasi kontekstual tentang kemungkinan kasus penggunaan yang dipertimbangkan pembuat model sebagai bagian dari pelatihan dan pengembangan model. Penggunaan model Gemma yang dilarang diuraikan dalam Kebijakan Penggunaan Terlarang Gemma.
Menyesuaikan tugas bahasa-penglihatan tertentu:
- Model terlatih dapat disesuaikan pada berbagai tugas bahasa-penglihatan seperti: teks gambar, teks video singkat, penjawaban pertanyaan visual, pembacaan teks, deteksi objek, dan segmentasi objek.
- Model terlatih sebelumnya dapat disesuaikan untuk domain tertentu seperti penjawaban pertanyaan deteksi jarak jauh, pertanyaan visual dari orang yang buta, penjawaban pertanyaan sains, menjelaskan fungsi elemen UI.
- Model terlatih dapat disesuaikan untuk tugas dengan output non-tekstual seperti kotak pembatas atau mask segmentasi.
Riset bahasa-penglihatan:
- Model terlatih dan model yang disesuaikan dapat berfungsi sebagai dasar bagi peneliti untuk bereksperimen dengan teknik VLM, mengembangkan algoritma, dan berkontribusi pada kemajuan bidang ini.
Pertimbangan dan risiko etis
Pengembangan model bahasa-visi (VLM) menimbulkan beberapa masalah etika. Dalam membuat model terbuka, kami telah mempertimbangkan hal-hal berikut dengan cermat:
- Bias dan Keadilan
- VLM yang dilatih menggunakan data teks-gambar dunia nyata berskala besar dapat mencerminkan bias sosial-budaya yang disematkan dalam materi pelatihan. Model ini telah melalui pemeriksaan yang cermat, prapemrosesan data input dijelaskan, dan evaluasi posterior dilaporkan dalam kartu ini.
- Misinformasi dan Penyalahgunaan
- VLM dapat disalahgunakan untuk menghasilkan teks yang salah, menyesatkan, atau berbahaya.
- Panduan disediakan untuk penggunaan yang bertanggung jawab dengan model ini, lihat Responsible Generative AI Toolkit.
- Transparansi dan Akuntabilitas
- Kartu model ini merangkum detail tentang arsitektur, kemampuan, batasan, dan proses evaluasi model.
- Model terbuka yang dikembangkan secara bertanggung jawab menawarkan peluang untuk berbagi inovasi dengan membuat teknologi VLM dapat diakses oleh developer dan peneliti di seluruh ekosistem AI.
Risiko yang diidentifikasi dan mitigasi:
- Perpetuasi bias: Sebaiknya lakukan pemantauan berkelanjutan (menggunakan metrik evaluasi, peninjauan manual) dan eksplorasi teknik penghapusan bias selama pelatihan model, penyesuaian, dan kasus penggunaan lainnya.
- Pembuatan konten yang merugikan: Mekanisme dan pedoman untuk keamanan konten sangatlah penting. Developer dianjurkan untuk berhati-hati dan menerapkan pengamanan keamanan konten yang sesuai berdasarkan kebijakan produk dan kasus penggunaan aplikasi tertentu.
- Penyalahgunaan untuk tujuan berbahaya: Batasan teknis serta edukasi developer dan pengguna akhir dapat membantu mengurangi aplikasi LLM yang berbahaya. Referensi edukasi dan mekanisme pelaporan bagi pengguna untuk melaporkan penyalahgunaan disediakan: lihat Toolkit AI Generatif yang Bertanggung Jawab. Penggunaan model Gemma yang dilarang diuraikan dalam Kebijakan Penggunaan Terlarang Gemma.
- Pelanggaran privasi: Model dilatih dengan data yang difilter untuk menghapus informasi pribadi dan data sensitif tertentu. Developer dianjurkan untuk mematuhi peraturan privasi dengan teknik yang menjaga privasi.
Batasan
- Sebagian besar batasan yang diwarisi dari model Gemma 2 yang mendasarinya masih berlaku:
- VLM lebih baik dalam tugas yang dapat dibingkai dengan perintah dan petunjuk yang jelas. Tugas terbuka atau yang sangat kompleks mungkin sulit.
- Bahasa alami pada dasarnya bersifat kompleks. VLM mungkin kesulitan memahami nuansa halus, sarkasme, atau bahasa kiasan.
- VLM menghasilkan respons berdasarkan informasi yang dipelajari dari set data pelatihan, tetapi bukan merupakan basis pengetahuan. Model tersebut dapat menghasilkan pernyataan faktual yang salah atau usang.
- VLM mengandalkan pola statistik dalam bahasa dan gambar. Mereka mungkin tidak memiliki kemampuan untuk menerapkan penalaran akal sehat dalam situasi tertentu.
- PaliGemma 2 dirancang terutama untuk berfungsi sebagai model terlatih umum untuk penyesuaian terhadap tugas khusus. Oleh karena itu, performa "out of the box" atau "zero-shot"-nya mungkin tertinggal dari model yang dirancang khusus untuk penggunaan tujuan umum.
- PaliGemma 2 bukan chatbot multi-giliran. Fungsi ini dirancang untuk satu putaran input gambar dan teks.