PaliGemma

PaliGemma, PaLI-3 से प्रेरित एक लाइटवेट ओपन विज़न-भाषा मॉडल (वीएलएम) है. यह SigLIP विज़न मॉडल और जेमा लैंग्वेज मॉडल जैसे ओपन कॉम्पोनेंट पर आधारित है. PaliGemma, इमेज और टेक्स्ट, दोनों को इनपुट के तौर पर इस्तेमाल करती है. वह बारीकियों और कॉन्टेक्स्ट के साथ इमेज के बारे में पूछे गए सवालों के जवाब दे सकती है. इसका मतलब है कि PaliGemma इमेज का गहराई से विश्लेषण करके, अहम जानकारी दे सकता है. जैसे, इमेज और शॉर्ट वीडियो के लिए कैप्शन देना, ऑब्जेक्ट का पता लगाना, और इमेज में एम्बेड किए गए टेक्स्ट को पढ़ना.

PaliGemma मॉडल के दो सेट हैं: सामान्य मकसद का सेट और रिसर्च पर आधारित सेट:

  • PaliGemma - सामान्य मकसद के लिए इस्तेमाल किए जाने वाले, पहले से ट्रेनिंग दिए गए मॉडल, जिन्हें कई तरह के टास्क के लिए बेहतर बनाया जा सकता है.
  • PaliGemma-FT - रिसर्च पर आधारित मॉडल, जिन्हें खास रिसर्च डेटासेट पर बेहतर बनाया गया है.

इस फ़ॉर्मैट के मुख्य फ़ायदे:

  • इमेज और टेक्स्ट, दोनों को एक साथ समझ लेता है.
  • इस सुविधा को विज़न-भाषा से जुड़े कई तरह के टास्क में बेहतर बनाया जा सकता है.
  • इसमें अलग-अलग तरह के कामों के लिए एक चेकपॉइंट बनाया जाता है, ताकि तुरंत रिसर्च किया जा सके.

ज़्यादा जानें

PaliGemma के मॉडल कार्ड में मॉडल के बारे में पूरी जानकारी, उसे लागू करने की जानकारी, आकलन की जानकारी, मॉडल के इस्तेमाल और उसकी सीमाओं वगैरह की जानकारी दी गई है.
Kaggle पर PaliGemma के बारे में ज़्यादा कोड, Colab notebook, जानकारी, और चर्चाएं देखें.
Colab में JAX के साथ PaliGemma को बेहतर बनाने के लिए, एक उदाहरण चलाएं.