PaliGemma

PaliGemma, PaLI-3'ten esinlenilmiş ve SigLIP vizyon modeli ile Gemma dil modeli gibi açık bileşenlere dayalı hafif, açık bir görüş dili modelidir (VLM). Hem resimleri hem de metinleri giriş olarak kullanan PaliGemma, resimlerle ilgili soruları ayrıntılı ve bağlamsal olarak yanıtlayabiliyor. Diğer bir ifadeyle PaliGemma, görüntüler üzerinde daha ayrıntılı analizler yapıp resimlere ve kısa videolara altyazı ekleme, nesne algılama ve resimlere yerleştirilmiş metinleri okuma gibi faydalı bilgiler sunabiliyor.

Genel amaçlı küme ve araştırma amaçlı küme olmak üzere iki grup PaliGemma modeli vardır:

  • PaliGemma: Çeşitli görevlerde hassas ayarlar yapılabilen, genel amaçlı önceden eğitilmiş modeller.
  • PaliGemma-FT: Belirli araştırma veri kümelerinde ince ayarlar yapılmış araştırma odaklı modeller.

Bazı temel avantajları şunlardır:

  • Aynı anda hem resimleri hem de metinleri anlar.
  • Çok çeşitli görme dili görevlerinde ince ayarlar yapılabilir.
  • Çeşitli görevler için hassas ayarlar yapılmış, böylece araştırmada anında kullanılabilecek bir kontrol noktası bulunur.

Daha fazla bilgi

PaliGemma'nın model kartı; model, uygulama bilgileri, değerlendirme bilgileri, model kullanımı ve sınırlamaları ve daha fazlası hakkında ayrıntılı bilgiler içerir.
Kaggle'da PaliGemma ile ilgili daha fazla kod, Colab not defterleri, bilgi ve tartışmaları görüntüleyin.
Colab'de JAX ile PaliGemma'ya ince ayar yapmak için çalışan bir örnek çalıştırın.