PaliGemma
PaliGemma adalah model bahasa visi (VLM) terbuka yang ringan dan terinspirasi oleh PaLI-3, dan berdasarkan komponen terbuka seperti SigLIP model visi dan bahasa Gemma . PaliGemma menggunakan gambar dan teks sebagai input dan dapat menjawab pertanyaan tentang gambar dengan detail dan konteks, yang berarti bahwa PaliGemma dapat melakukan analisis yang lebih dalam tentang gambar dan memberikan insight yang berguna, seperti pemberian teks untuk gambar dan video pendek, deteksi objek, dan membaca teks yang disematkan dalam gambar.
Ada dua set model PaliGemma, set tujuan umum dan set yang berorientasi pada riset:
- PaliGemma - Model terlatih tujuan umum yang dapat disesuaikan pada berbagai tugas.
- PaliGemma-FT - Model berorientasi riset yang disesuaikan pada set data riset tertentu.
Manfaat utamanya meliputi:
-
Pemahaman multimodal
Memahami gambar dan teks secara bersamaan. -
Model dasar serbaguna
Dapat disesuaikan pada berbagai tugas bahasa visi. -
Eksplorasi langsung
Dilengkapi dengan checkpoint yang ditingkatkan pada campuran tugas untuk penggunaan riset langsung.