PaliGemma
PaliGemma adalah model bahasa visi (VLM) terbuka dan ringan yang terinspirasi oleh PaLI-3, dan didasarkan pada komponen terbuka seperti model visi SigLIP dan model bahasa Gemma. PaliGemma menggunakan gambar dan teks sebagai input serta dapat menjawab pertanyaan tentang gambar dengan detail dan konteks. Artinya, PaliGemma dapat melakukan analisis gambar secara lebih mendalam serta memberikan insight yang berguna, seperti teks untuk gambar dan video pendek, deteksi objek, dan membaca teks yang disematkan dalam gambar.
Ada dua set model PaliGemma, yaitu set tujuan umum dan set yang berorientasi pada penelitian:
- PaliGemma - Model terlatih untuk tujuan umum yang dapat disesuaikan dengan berbagai tugas.
- PaliGemma-FT - Model berorientasi riset yang disesuaikan dengan set data riset tertentu.
Manfaat utamanya meliputi:
-
Pemahaman multimodal
Memahami gambar dan teks secara bersamaan. -
Model dasar serbaguna
Dapat disesuaikan pada berbagai tugas bahasa visi. -
Eksplorasi langsung
Dilengkapi dengan checkpoint yang ditingkatkan pada campuran tugas untuk penggunaan riset langsung.