PaliGemma
PaliGemma, लाइटवेट ओपन विज़न-लैंग्वेज मॉडल (वीएलएम) है. यह इनसे प्रेरित है: PaLI-3, जो SigLIP' जैसे ओपन कॉम्पोनेंट पर आधारित होते हैं विज़न मॉडल और जेमा लैंग्वेज मॉडल के बारे में ज़्यादा जानें. PaliGemma, इमेज और टेक्स्ट, दोनों को इनपुट के तौर पर इस्तेमाल करती है. इससे वह इमेज और टेक्स्ट से जुड़े सवालों के जवाब दे सकती है ऐसी इमेज जिनमें काफ़ी जानकारी और संदर्भ मौजूद है. इसका मतलब है कि PaliGemma, ये इमेज और अहम जानकारी उपलब्ध कराती हैं. जैसे, इमेज और शॉर्ट वीडियो के लिए कैप्शन, ऑब्जेक्ट की पहचान करने और इमेज में एम्बेड किए गए टेक्स्ट को पढ़ने की सुविधा भी देता है.
PaliGemma मॉडल के दो सेट हैं: सामान्य कामों के लिए इस्तेमाल किया जाने वाला सेट और रिसर्च पर आधारित सेट:
- PaliGemma - सामान्य कामों के लिए पहले से ट्रेनिंग दिए गए मॉडल, जिन्हें कई तरह के टास्क के हिसाब से बेहतर बनाया जा सकता है.
- PaliGemma-FT - रिसर्च पर आधारित मॉडल, जिन्हें खास रिसर्च डेटासेट के हिसाब से बनाया जाता है.
इस फ़ॉर्मैट के मुख्य फ़ायदे:
-
मल्टीमोडल कॉम्प्रिहेंसन
इमेज और टेक्स्ट, दोनों को एक साथ समझ लेता है. -
अलग-अलग तरह की सुविधाओं वाला बेस मॉडल
इस सुविधा को विज़न-भाषा से जुड़े कई तरह के टास्क में बेहतर बनाया जा सकता है. -
सीधे तौर पर नहीं पता चलने वाले गेम
इसमें अलग-अलग तरह के कामों के लिए एक चेकपॉइंट बनाया जाता है, ताकि तुरंत रिसर्च किया जा सके.