PaliGemma

Gemma 4 को रिलीज़ कर दिया गया है. इसमें टेक्स्ट, ऑडियो, और इमेज के ज़रिए इनपुट दिया जा सकता है. साथ ही, इसमें 2.56 लाख टोकन तक की लंबी कॉन्टेक्स्ट विंडो है! ज़्यादा जानें

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

PaliGemma 2 और PaliGemma, लाइटवेट ओपन विज़न-लैंग्वेज मॉडल (वीएलएम) हैं. ये PaLI-3 से प्रेरित हैं और SigLIP विज़न मॉडल और Gemma लैंग्वेज मॉडल जैसे ओपन कॉम्पोनेंट पर आधारित हैं. PaliGemma, इनपुट के तौर पर इमेज और टेक्स्ट, दोनों को इस्तेमाल करता है. साथ ही, इमेज के बारे में पूरी जानकारी और संदर्भ के साथ जवाब दे सकता है. इसका मतलब है कि PaliGemma, इमेज का गहराई से विश्लेषण कर सकता है और काम की अहम जानकारी दे सकता है. जैसे, इमेज और शॉर्ट वीडियो के लिए कैप्शन देना, ऑब्जेक्ट की पहचान करना, और इमेज में एम्बेड किए गए टेक्स्ट को पढ़ना.

PaliGemma 2, 3B, 10B, और 28B पैरामीटर साइज़ में उपलब्ध है. ये साइज़, Gemma 2 के 2B, 9B, और 27B मॉडल पर आधारित हैं. PaliGemma के ओरिजनल मॉडल, 3B साइज़ में उपलब्ध हैं. Gemma मॉडल के वैरिएंट के बारे में ज़्यादा जानकारी के लिए, Gemma मॉडल की सूची देखें. PaliGemma मॉडल के वैरिएंट, इमेज इनपुट के लिए अलग-अलग पिक्सल रिज़ॉल्यूशन के साथ काम करते हैं. इनमें 224 x 224, 448 x 448, और 896 x 896 पिक्सल शामिल हैं.

PaliGemma मॉडल देखने और डाउनलोड करने के लिए, इन साइटों पर जाएं:

Kaggle से डाउनलोड करें.
गले लगाने वाला चेहरा से डाउनलोड करें.

PaliGemma मॉडल की तीन कैटगरी होती हैं:

PaliGemma PT - सामान्य काम के लिए पहले से ट्रेन किए गए मॉडल, जिन्हें कई तरह के टास्क के लिए बेहतर बनाया जा सकता है.
PaliGemma FT - रिसर्च पर आधारित मॉडल, जिन्हें खास रिसर्च डेटासेट के हिसाब से बेहतर बनाया गया है.
PaliGemma मिक्स - अलग-अलग तरह के टास्क के लिए ट्यून किए गए मॉडल, जिन्हें सामान्य इस्तेमाल के उदाहरणों के लिए, बिना किसी बदलाव के इस्तेमाल किया जा सकता है.

इस फ़ॉर्मैट के मुख्य फ़ायदे:

मल्टीमोडल सुविधा

एक साथ इमेज और टेक्स्ट इनपुट को हैंडल करता है.
अलग-अलग तरह की सुविधाओं वाला बेस मॉडल

इस सुविधा को विज़न-भाषा से जुड़े कई तरह के टास्क में बेहतर बनाया जा सकता है.
सीधे तौर पर नहीं पता चलने वाले गेम

इसमें एक चेकपॉइंट होता है, जिसे रिसर्च के लिए तुरंत इस्तेमाल किए जाने वाले टास्क के हिसाब से बेहतर बनाया गया है.

PaliGemma

मल्टीमोडल सुविधा

अलग-अलग तरह की सुविधाओं वाला बेस मॉडल

सीधे तौर पर नहीं पता चलने वाले गेम

ज़्यादा जानें

Colab में चलाएं

Colab में ट्यून इन करना

Kaggle पर देखें