PaliGemma

PaliGemma, लाइटवेट ओपन विज़न-लैंग्वेज मॉडल (वीएलएम) है. यह इनसे प्रेरित है: PaLI-3, जो SigLIP' जैसे ओपन कॉम्पोनेंट पर आधारित होते हैं विज़न मॉडल और जेमा लैंग्वेज मॉडल के बारे में ज़्यादा जानें. PaliGemma, इमेज और टेक्स्ट, दोनों को इनपुट के तौर पर इस्तेमाल करती है. इससे वह इमेज और टेक्स्ट से जुड़े सवालों के जवाब दे सकती है ऐसी इमेज जिनमें काफ़ी जानकारी और संदर्भ मौजूद है. इसका मतलब है कि PaliGemma, ये इमेज और अहम जानकारी उपलब्ध कराती हैं. जैसे, इमेज और शॉर्ट वीडियो के लिए कैप्शन, ऑब्जेक्ट की पहचान करने और इमेज में एम्बेड किए गए टेक्स्ट को पढ़ने की सुविधा भी देता है.

PaliGemma मॉडल के दो सेट हैं: सामान्य कामों के लिए इस्तेमाल किया जाने वाला सेट और रिसर्च पर आधारित सेट:

  • PaliGemma - सामान्य कामों के लिए पहले से ट्रेनिंग दिए गए मॉडल, जिन्हें कई तरह के टास्क के हिसाब से बेहतर बनाया जा सकता है.
  • PaliGemma-FT - रिसर्च पर आधारित मॉडल, जिन्हें खास रिसर्च डेटासेट के हिसाब से बनाया जाता है.

इस फ़ॉर्मैट के मुख्य फ़ायदे:

  • इमेज और टेक्स्ट, दोनों को एक साथ समझ लेता है.
  • इस सुविधा को विज़न-भाषा से जुड़े कई तरह के टास्क में बेहतर बनाया जा सकता है.
  • इसमें अलग-अलग तरह के कामों के लिए एक चेकपॉइंट बनाया जाता है, ताकि तुरंत रिसर्च किया जा सके.

ज़्यादा जानें

PaliGemma के मॉडल कार्ड में मॉडल के बारे में पूरी जानकारी, उसे लागू करने की जानकारी, आकलन की जानकारी, मॉडल के इस्तेमाल और उसकी सीमाओं वगैरह की जानकारी दी गई है.
Kaggle पर PaliGemma के बारे में ज़्यादा कोड, Colab notebook, जानकारी, और चर्चाएं देखें.
Colab में JAX के साथ PaliGemma को बेहतर बनाने के लिए, एक उदाहरण चलाएं.