PaliGemma

PaliGemma adalah model bahasa visi (VLM) terbuka yang ringan dan terinspirasi oleh PaLI-3, dan berdasarkan komponen terbuka seperti SigLIP model visi dan bahasa Gemma . PaliGemma menggunakan gambar dan teks sebagai input dan dapat menjawab pertanyaan tentang gambar dengan detail dan konteks, yang berarti bahwa PaliGemma dapat melakukan analisis yang lebih dalam tentang gambar dan memberikan insight yang berguna, seperti pemberian teks untuk gambar dan video pendek, deteksi objek, dan membaca teks yang disematkan dalam gambar.

Ada dua set model PaliGemma, set tujuan umum dan set yang berorientasi pada riset:

  • PaliGemma - Model terlatih tujuan umum yang dapat disesuaikan pada berbagai tugas.
  • PaliGemma-FT - Model berorientasi riset yang disesuaikan pada set data riset tertentu.

Manfaat utamanya meliputi:

  • Memahami gambar dan teks secara bersamaan.
  • Dapat disesuaikan pada berbagai tugas bahasa visi.
  • Dilengkapi dengan checkpoint yang ditingkatkan pada campuran tugas untuk penggunaan riset langsung.

Pelajari lebih lanjut

Kartu model PaliGemma berisi informasi mendetail tentang model, informasi penerapan, informasi evaluasi, penggunaan dan batasan model, serta banyak lagi.
Lihat lebih banyak kode, notebook Colab, informasi, dan diskusi tentang PaliGemma di Kaggle.
Jalankan contoh kerja untuk meningkatkan PaliGemma dengan JAX di Colab.