Gemma 4, Gemma फ़ैमिली का सबसे नया मॉडल है. यह विज़न-लैंग्वेज से जुड़े कई टास्क कर सकता है. जैसे, ऑब्जेक्ट का पता लगाना, ऑप्टिकल कैरेक्टर रिकॉग्निशन (ओसीआर), विज़ुअल से जुड़े सवालों के जवाब देना, इमेज के लिए कैप्शन जनरेट करना, और एक से ज़्यादा इमेज के बारे में तर्क देना. यह अलग-अलग रिज़ॉल्यूशन पर प्रोसेस करने की सुविधा भी देता है. इससे आपको अनुमान लगाने की स्पीड और आउटपुट की सटीकता के बीच संतुलन बनाए रखने में मदद मिलती है.
इस सेक्शन में, अपने प्रॉम्प्ट में विज़ुअल डेटा को असरदार तरीके से तैयार करने और इस्तेमाल करने का तरीका बताया गया है.
विज़ुअल डेटा
विज़ुअल डेटा कई फ़ॉर्मैट और रिज़ॉल्यूशन में उपलब्ध हो सकता है. इमेज को टेंसर में बदलने के लिए, चुने गए फ़्रेमवर्क के हिसाब से, फ़ाइल फ़ॉर्मैट (जैसे कि JPEG और PNG) इस्तेमाल किए जा सकते हैं.
Gemma के लिए विज़ुअल डेटा तैयार करते समय, इन बातों का ध्यान रखें:
- टोकन की कीमत: आम तौर पर, हर इमेज के लिए 256 टोकन इस्तेमाल किए जाते हैं. हालांकि, PaliGemma इमेज के टोकन की कीमत, चुने गए मॉडल के हिसाब से अलग-अलग होती है.
- समाधान: इंटरप्रेट किया गया रिज़ॉल्यूशन, यानी टोकन में कोड किए गए पिक्सल की संख्या और मॉडल से प्रोसेस किए गए पिक्सल की संख्या, इस्तेमाल किए जा रहे Gemma के वर्शन पर निर्भर करती है:
- Gemma 4: टोकन बजट के आधार पर रिज़ॉल्यूशन में बदलाव किया जा सकता है. आपके पास 70, 140, 280, 560 या 1120 टोकन के बजट साइज़ में से किसी एक को चुनने का विकल्प होता है. इससे यह तय होता है कि इनपुट इमेज का साइज़ कितना बदला जाएगा और उसे प्रोसेस कैसे किया जाएगा.
- Gemma 3: (4B और इससे ज़्यादा) 896x896 रिज़ॉल्यूशन. इसमें बड़ी इमेज के लिए, पैन-एंड-स्कैन के विकल्प उपलब्ध हैं.
- Gemma 3n: 256x256, 512x512 या 768x768 रिज़ॉल्यूशन
- PaliGemma 2: 224x224, 448x448 या 896x896 रिज़ॉल्यूशन
कम रिज़ॉल्यूशन वाली इमेज को प्रोसेस होने में कम समय लगता है, लेकिन इनमें विज़ुअल की कम जानकारी होती है. अनुमान लगाने की प्रोसेस को ऑप्टिमाइज़ करने के लिए, आपको ऐसा विज़ुअल डेटा देना चाहिए जो आपके चुने गए Gemma मॉडल के पहले से मौजूद इंटरप्रेट किए गए रिज़ॉल्यूशन में से किसी एक से मेल खाता हो.
रिज़ॉल्यूशन के अलग-अलग विकल्प और टोकन बजट
Gemma 4 मॉडल में, अलग-अलग रिज़ॉल्यूशन पर इमेज को प्रोसेस करने की सुविधा मिलती है. इससे आपको अपने टास्क के हिसाब से विज़ुअल इनपुट को बेहतर बनाने में मदद मिलती है. उदाहरण के लिए, ऑब्जेक्ट का पता लगाने के लिए, ज़्यादा रिज़ॉल्यूशन का विकल्प चुना जा सकता है, ताकि छोटी-छोटी चीज़ों का पता लगाया जा सके. वहीं, प्रोसेसिंग को तेज़ करने के लिए, अलग-अलग वीडियो फ़्रेम का विश्लेषण करने के लिए, कम रिज़ॉल्यूशन का विकल्प चुना जा सकता है. इस सुविधा की मदद से, अनुमान लगाने की स्पीड और विज़ुअल प्रज़ेंटेशन की सटीकता के बीच संतुलन बनाया जा सकता है.
टोकन बजट का इस्तेमाल करके, इस ट्रेडऑफ़ को मैनेज किया जाता है. इस बजट से, मॉडल के लिए एक इमेज के लिए जनरेट किए जा सकने वाले विज़ुअल टोकन (इन्हें विज़ुअल टोकन एम्बेडिंग भी कहा जाता है) की सीमा तय की जाती है.
आपके पास 70, 140, 280, 560 या 1120 टोकन का बजट चुनने का विकल्प होता है:
- ज़्यादा बजट (जैसे, 1,120 टोकन): इमेज का रिज़ॉल्यूशन बेहतर बनाए रखें. इससे मॉडल को प्रोसेस करने के लिए ज़्यादा पैच जनरेट होते हैं. इसलिए, यह बारीकी से और जटिल जानकारी कैप्चर करने के लिए सबसे सही है.
- कम बजट (जैसे, 70 टोकन): इमेज को छोटा कर दिया जाता है. इससे कम पैच बनते हैं. इससे अनुमान लगाने में लगने वाला समय काफ़ी कम हो जाता है.
बजट कैसे काम करता है टोकन बजट से सीधे तौर पर यह कंट्रोल किया जाता है कि किसी इमेज का साइज़ कितना बदला जाए. इसके लिए, इमेज के शुरुआती पैच की ज़्यादा से ज़्यादा संख्या तय की जाती है. सिस्टम, आपके चुने गए बजट के मुकाबले नौ गुना ज़्यादा पैच जनरेट करता है. उदाहरण के लिए, 280 टोकन के बजट से ज़्यादा से ज़्यादा 2,520 पैच (280 × 9) मिलते हैं.
पैच को कंप्रेस करने के तरीके की वजह से, मल्टीप्लायर 9 होता है: प्रोसेसिंग के दौरान, मॉडल आस-पास के पैच के हर 3x3 ग्रिड को लेता है और एक एंबेडिंग बनाने के लिए, उनका औसत निकालता है. ये कंसोलिडेटेड एम्बेडिंग, आपके फ़ाइनल विज़ुअल टोकन बन जाती हैं. इसलिए, टोकन का बजट ज़्यादा होने पर, फ़ाइनल एम्बेडिंग ज़्यादा मिलती हैं. इससे मॉडल को आपके विज़ुअल डेटा से ज़्यादा और ज़्यादा जानकारी निकालने में मदद मिलती है.
क्या करें
विज़ुअल डेटा के साथ Gemma को प्रॉम्प्ट करने के सबसे सही तरीके यहां दिए गए हैं.
सटीक जानकारी दें: अगर आपको कोई खास टास्क करवाना है, तो उसके बारे में पूरी जानकारी दें और निर्देश दें. "इस इमेज के बारे में बताओ" के बजाय, "इस इमेज में मौजूद सीन के बारे में बताओ. इसमें लोगों और ऑब्जेक्ट के बीच के संबंध पर फ़ोकस करो."
सीमाएं तय करें: किसी खास स्टाइल या टोन में जवाब पाने के लिए, प्रॉम्प्ट में इसके बारे में ज़रूर बताएं. उदाहरण के लिए, कहानी लिखने का सामान्य अनुरोध करने के बजाय, Gemma से कहें कि "इस इमेज के बारे में फ़िल्म नॉयर की स्टाइल में एक छोटी कहानी लिखो."
बार-बार बेहतर बनाना: मनमुताबिक आउटपुट पाने के लिए, अक्सर एक्सपेरिमेंट करने और प्रॉम्प्ट को बेहतर बनाने की ज़रूरत होती है. सामान्य प्रॉम्प्ट से शुरुआत करें और धीरे-धीरे उसे मुश्किल बनाएं.
क्या न करें
विज़ुअल डेटा के साथ Gemma को प्रॉम्प्ट करते समय, इन बातों का ध्यान रखें.
बहुत ज़्यादा ऑब्जेक्ट के लिए सटीक संख्या की उम्मीद करना: Gemma 4, ऑब्जेक्ट का पता लगाने और ओसीआर में बेहतर है. हालांकि, यह बहुत ज़्यादा ऑब्जेक्ट या छोटे ऑब्जेक्ट (जैसे कि घास की पत्तियों की गिनती) के लिए सटीक संख्या के बजाय अनुमानित संख्या दे सकता है. विज़ुअल टास्क के लिए सबसे सटीक नतीजे पाने के लिए, ज़्यादा टोकन बजट का इस्तेमाल करें.
अस्पष्ट या एक से ज़्यादा मतलब वाले प्रॉम्प्ट: "इस इमेज के आधार पर कुछ जनरेट करो" जैसे सामान्य प्रॉम्प्ट के बजाय, मनमुताबिक नतीजे पाने के लिए खास निर्देश दें. साफ़ तौर पर बताएं कि "कुछ" क्या है. उदाहरण के लिए, कोई कविता, रेसिपी या कोड स्निपेट.