PaliGemma

PaliGemma adalah model bahasa visi (VLM) terbuka dan ringan yang terinspirasi oleh PaLI-3, dan didasarkan pada komponen terbuka seperti model visi SigLIP dan model bahasa Gemma. PaliGemma menggunakan gambar dan teks sebagai input serta dapat menjawab pertanyaan tentang gambar dengan detail dan konteks. Artinya, PaliGemma dapat melakukan analisis gambar secara lebih mendalam serta memberikan insight yang berguna, seperti teks untuk gambar dan video pendek, deteksi objek, dan membaca teks yang disematkan dalam gambar.

Ada dua set model PaliGemma, yaitu set tujuan umum dan set yang berorientasi pada penelitian:

  • PaliGemma - Model terlatih untuk tujuan umum yang dapat disesuaikan dengan berbagai tugas.
  • PaliGemma-FT - Model berorientasi riset yang disesuaikan dengan set data riset tertentu.

Manfaat utamanya meliputi:

  • Memahami gambar dan teks secara bersamaan.
  • Dapat disesuaikan pada berbagai tugas bahasa visi.
  • Dilengkapi dengan checkpoint yang ditingkatkan pada campuran tugas untuk penggunaan riset langsung.

Pelajari lebih lanjut

Kartu model PaliGemma berisi informasi mendetail tentang model, informasi penerapan, informasi evaluasi, penggunaan dan batasan model, serta banyak lagi.
Lihat lebih banyak kode, notebook Colab, informasi, dan diskusi tentang PaliGemma di Kaggle.
Jalankan contoh kerja untuk meningkatkan PaliGemma dengan JAX di Colab.