PaliGemma

PaliGemma, esinlenen hafif bir açık görsel dil modelidir (VLM). PaLI-3 açık bileşenlere dayalı bir çözüm sunar. SigLIP vizyon modeli ve Gemma dili seçin. PaliGemma, girdi olarak hem resim hem de metin alır ve ve PaliGemma bu sayede verileri daha ayrıntılı biçimde analiz edebilir. görüntüler ve resimler ile kısa videolar için altyazı ekleme gibi yararlı analizler sağlar, ve resimlere yerleştirilmiş metinleri okuma.

Genel amaçlı ve araştırma odaklı olmak üzere iki farklı PaliGemma modeli grubu vardır:

  • PaliGemma: Çeşitli görevlerde ince ayarlanabilen, genel amaçlı önceden eğitilmiş modeller.
  • PaliGemma-FT: Belirli araştırma veri kümelerinde ince ayar yapılmış, araştırma odaklı modeller.

Bazı temel avantajları şunlardır:

  • Aynı anda hem resimleri hem de metinleri anlar.
  • Çok çeşitli görme dili görevlerinde ince ayarlar yapılabilir.
  • Çeşitli görevler için hassas ayarlar yapılmış, böylece araştırmada anında kullanılabilecek bir kontrol noktası bulunur.

Daha fazla bilgi

PaliGemma'nın model kartı; model, uygulama bilgileri, değerlendirme bilgileri, model kullanımı ve sınırlamaları ve daha fazlası hakkında ayrıntılı bilgiler içerir.
Kaggle'da PaliGemma ile ilgili daha fazla kod, Colab not defterleri, bilgi ve tartışmaları görüntüleyin.
Colab'de JAX ile PaliGemma'ya ince ayar yapmak için çalışan bir örnek çalıştırın.