PaliGemma
PaliGemma, esinlenen hafif bir açık görsel dil modelidir (VLM). PaLI-3 açık bileşenlere dayalı bir çözüm sunar. SigLIP vizyon modeli ve Gemma dili seçin. PaliGemma, girdi olarak hem resim hem de metin alır ve ve PaliGemma bu sayede verileri daha ayrıntılı biçimde analiz edebilir. görüntüler ve resimler ile kısa videolar için altyazı ekleme gibi yararlı analizler sağlar, ve resimlere yerleştirilmiş metinleri okuma.
Genel amaçlı ve araştırma odaklı olmak üzere iki farklı PaliGemma modeli grubu vardır:
- PaliGemma: Çeşitli görevlerde ince ayarlanabilen, genel amaçlı önceden eğitilmiş modeller.
- PaliGemma-FT: Belirli araştırma veri kümelerinde ince ayar yapılmış, araştırma odaklı modeller.
Bazı temel avantajları şunlardır:
-
Çok modlu anlama
Aynı anda hem resimleri hem de metinleri anlar. -
Çok yönlü temel model
Çok çeşitli görme dili görevlerinde ince ayarlar yapılabilir. -
Kullanıma hazır keşif
Çeşitli görevler için hassas ayarlar yapılmış, böylece araştırmada anında kullanılabilecek bir kontrol noktası bulunur.