PaliGemma

Metin, ses ve resim girişi ile 256 bin parçaya kadar uzun bağlam penceresi sunan Gemma 4 yayınlandı. Daha fazla bilgi

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

PaliGemma 2 ve PaliGemma, PaLI-3'ten esinlenen ve SigLIP görüntüleme modeli ile Gemma dil modeli gibi açık bileşenlere dayalı hafif, açık görsel dil modelleridir (VLM). PaliGemma hem görselleri hem de metni giriş olarak alır ve görsellerle ilgili soruları ayrıntılı ve bağlamsal olarak yanıtlayabilir. Yani PaliGemma, görselleri daha ayrıntılı bir şekilde analiz edebilir ve görseller ile kısa videolar için altyazı ekleme, nesne algılama ve görsellere yerleştirilmiş metinleri okuma gibi yararlı analizler sunabilir.

PaliGemma 2, sırasıyla Gemma 2 2B, 9B ve 27B modellerine dayalı 3B, 10B ve 28B parametre boyutlarında mevcuttur. Orijinal PaliGemma modelleri 3B boyutunda mevcuttur. Gemma model varyantları hakkında daha fazla bilgi için Gemma model listesi başlıklı makaleyi inceleyin. PaliGemma model varyantları, resim girişleri için 224 x 224, 448 x 448 ve 896 x 896 piksel dahil olmak üzere farklı piksel çözünürlüklerini destekler.

PaliGemma modellerini aşağıdaki sitelerden görüntüleyebilir ve indirebilirsiniz:

Kaggle'dan indirin.
Kucaklayan Yüz'den indirin.

PaliGemma modelleri üç kategoriye ayrılır:

PaliGemma PT: Çeşitli görevlerde ince ayarlanabilen, genel amaçlı önceden eğitilmiş modeller.
PaliGemma FT: Belirli araştırma veri kümelerinde ince ayar yapılan, araştırma odaklı modeller.
PaliGemma karışımı: Yaygın kullanım alanları için hazır olarak kullanılabilen görevlerin bir karışımına göre ayarlanmış modeller.

Bazı temel avantajları şunlardır:

Çok modlu özellik

Hem resimleri hem de metin girişlerini aynı anda işler.
Çok yönlü temel model

Çok çeşitli görme dili görevlerinde ince ayarlar yapılabilir.
Kullanıma hazır keşif

Hemen araştırma yapmak için çeşitli görevlerden oluşan bir kontrol noktasıyla birlikte gelir.

PaliGemma

Çok modlu özellik

Çok yönlü temel model

Kullanıma hazır keşif

Daha fazla bilgi

Colab'de çalıştır

Colab'i takip edin

Kaggle'da göster