PaliGemma
PaliGemma, PaLI-3 से प्रेरित एक लाइटवेट ओपन विज़न-भाषा मॉडल (वीएलएम) है. यह SigLIP विज़न मॉडल और जेमा लैंग्वेज मॉडल जैसे ओपन कॉम्पोनेंट पर आधारित है. PaliGemma, इमेज और टेक्स्ट, दोनों को इनपुट के तौर पर इस्तेमाल करती है. वह बारीकियों और कॉन्टेक्स्ट के साथ इमेज के बारे में पूछे गए सवालों के जवाब दे सकती है. इसका मतलब है कि PaliGemma इमेज का गहराई से विश्लेषण करके, अहम जानकारी दे सकता है. जैसे, इमेज और शॉर्ट वीडियो के लिए कैप्शन देना, ऑब्जेक्ट का पता लगाना, और इमेज में एम्बेड किए गए टेक्स्ट को पढ़ना.
PaliGemma मॉडल के दो सेट हैं: सामान्य मकसद का सेट और रिसर्च पर आधारित सेट:
- PaliGemma - सामान्य मकसद के लिए इस्तेमाल किए जाने वाले, पहले से ट्रेनिंग दिए गए मॉडल, जिन्हें कई तरह के टास्क के लिए बेहतर बनाया जा सकता है.
- PaliGemma-FT - रिसर्च पर आधारित मॉडल, जिन्हें खास रिसर्च डेटासेट पर बेहतर बनाया गया है.
इस फ़ॉर्मैट के मुख्य फ़ायदे:
-
मल्टीमोडल कॉम्प्रिहेंसन
इमेज और टेक्स्ट, दोनों को एक साथ समझ लेता है. -
अलग-अलग तरह की सुविधाओं वाला बेस मॉडल
इस सुविधा को विज़न-भाषा से जुड़े कई तरह के टास्क में बेहतर बनाया जा सकता है. -
सीधे तौर पर नहीं पता चलने वाले गेम
इसमें अलग-अलग तरह के कामों के लिए एक चेकपॉइंट बनाया जाता है, ताकि तुरंत रिसर्च किया जा सके.