PaliGemma
PaliGemma, PaLI-3'ten esinlenilmiş ve SigLIP vizyon modeli ile Gemma dil modeli gibi açık bileşenlere dayalı hafif, açık bir görüş dili modelidir (VLM). Hem resimleri hem de metinleri giriş olarak kullanan PaliGemma, resimlerle ilgili soruları ayrıntılı ve bağlamsal olarak yanıtlayabiliyor. Diğer bir ifadeyle PaliGemma, görüntüler üzerinde daha ayrıntılı analizler yapıp resimlere ve kısa videolara altyazı ekleme, nesne algılama ve resimlere yerleştirilmiş metinleri okuma gibi faydalı bilgiler sunabiliyor.
Genel amaçlı küme ve araştırma amaçlı küme olmak üzere iki grup PaliGemma modeli vardır:
- PaliGemma: Çeşitli görevlerde hassas ayarlar yapılabilen, genel amaçlı önceden eğitilmiş modeller.
- PaliGemma-FT: Belirli araştırma veri kümelerinde ince ayarlar yapılmış araştırma odaklı modeller.
Bazı temel avantajları şunlardır:
-
Çok modlu anlama
Aynı anda hem resimleri hem de metinleri anlar. -
Çok yönlü temel model
Çok çeşitli görme dili görevlerinde ince ayarlar yapılabilir. -
Kullanıma hazır keşif
Çeşitli görevler için hassas ayarlar yapılmış, böylece araştırmada anında kullanılabilecek bir kontrol noktası bulunur.