Gemini 2.0 Flash और Gemini 1.5 Flash, 10 लाख टोकन वाली कॉन्टेक्स्ट विंडो के साथ आते हैं. वहीं, Gemini 1.5 Pro, 20 लाख टोकन वाली कॉन्टेक्स्ट विंडो के साथ आता है. पहले, लार्ज लैंग्वेज मॉडल (एलएलएम) में एक बार में ज़्यादा टेक्स्ट (या टोकन) नहीं डाले जा सकते थे. Gemini 1.5 की लंबी कॉन्टेक्स्ट विंडो में, डेटा को 99% से ज़्यादा समय तक सेव रखने की सुविधा मिलती है. इससे, डेटा के इस्तेमाल के कई नए उदाहरण और डेवलपर पैराडाइम मिलते हैं.
टेक्स्ट जनरेशन या मल्टीमोडल इनपुट जैसे मामलों के लिए पहले से इस्तेमाल किया जा रहा कोड, लंबे कॉन्टेक्स्ट के साथ बिना किसी बदलाव के काम करेगा.
इस गाइड में, कॉन्टेक्स्ट विंडो के बुनियादी सिद्धांतों के बारे में कम शब्दों में बताया गया है. साथ ही, यह भी बताया गया है कि डेवलपर को लंबे कॉन्टेक्स्ट के बारे में कैसे सोचना चाहिए, लंबे कॉन्टेक्स्ट के लिए असल दुनिया के अलग-अलग इस्तेमाल के उदाहरण, और लंबे कॉन्टेक्स्ट के इस्तेमाल को ऑप्टिमाइज़ करने के तरीके.
कॉन्टेक्स्ट विंडो क्या होती है?
Gemini मॉडल का इस्तेमाल करने का बुनियादी तरीका यह है कि मॉडल को जानकारी (कॉन्टेक्स्ट) भेजी जाए, ताकि वह जवाब जनरेट कर सके. कॉन्टेक्स्ट विंडो को शॉर्ट टर्म मेमोरी के तौर पर समझा जा सकता है. किसी व्यक्ति की कम अवधि की याददाश्त में सीमित जानकारी सेव की जा सकती है. यही बात जनरेटिव मॉडल के लिए भी सच है.
जनरेटिव मॉडल की गाइड में, इस बारे में ज़्यादा पढ़ा जा सकता है कि मॉडल कैसे काम करते हैं.
लंबे कॉन्टेक्स्ट का इस्तेमाल शुरू करना
पिछले कुछ सालों में बनाए गए ज़्यादातर जनरेटिव मॉडल, एक बार में सिर्फ़ 8,000 टोकन प्रोसेस कर सकते थे. नए मॉडल में, 32,000 या 1,28,000 टोकन स्वीकार किए जा सकते हैं. Gemini 1.5 पहला ऐसा मॉडल है जो 10 लाख टोकन स्वीकार कर सकता है. अब Gemini 1.5 Pro के साथ 20 लाख टोकन स्वीकार किए जा सकते हैं.
10 लाख टोकन इस तरह दिखेंगे:
- कोड की 50,000 लाइनें (हर लाइन में स्टैंडर्ड तौर पर 80 वर्ण)
- पिछले पांच सालों में भेजे गए सभी मैसेज
- औसत लंबाई की आठ अंग्रेज़ी उपन्यास
- औसत अवधि के 200 से ज़्यादा पॉडकास्ट एपिसोड के ट्रांसक्रिप्ट
भले ही, मॉडल ज़्यादा से ज़्यादा कॉन्टेक्स्ट को शामिल कर सकते हैं, लेकिन बड़े लैंग्वेज मॉडल का इस्तेमाल करने के बारे में आम तौर पर यह माना जाता है कि मॉडल में यह सीमितता होती है. हालांकि, साल 2024 से यह बात लागू नहीं होती.
छोटी कॉन्टेक्स्ट विंडो की सीमाओं को मैनेज करने के लिए, ये सामान्य रणनीतियां अपनाई जा सकती हैं:
- नए टेक्स्ट के आने पर, कॉन्टेक्स्ट विंडो से पुराने मैसेज / टेक्स्ट को अपने हिसाब से हटाना
- कॉन्टेक्स्ट विंडो के भर जाने पर, पिछले कॉन्टेंट की खास जानकारी देना और उसे खास जानकारी से बदलना
- कॉन्टेक्स्ट विंडो से डेटा को हटाकर, वेक्टर डेटाबेस में ले जाने के लिए, सेमेटिक सर्च के साथ आरएजी का इस्तेमाल करना
- टोकन सेव करने के लिए, प्रॉम्प्ट से कुछ टेक्स्ट / वर्ण हटाने के लिए, डेटरमिनिस्टिक या जनरेटिव फ़िल्टर का इस्तेमाल करना
हालांकि, इनमें से कई अब भी कुछ मामलों में काम के हैं, लेकिन डिफ़ॉल्ट रूप से अब सभी टोकन को कॉन्टेक्स्ट विंडो में डाला जा रहा है. Gemini मॉडल को लंबी कॉन्टेक्स्ट विंडो के साथ खास मकसद से बनाया गया था. इसलिए, ये कॉन्टेक्स्ट के हिसाब से सीखने की क्षमता का बेहतर तरीके से इस्तेमाल कर सकते हैं. उदाहरण के लिए, Gemini 1.5 Pro और Gemini 1.5 Flash, सिर्फ़ निर्देशों वाले कॉन्टेक्स्ट में दिए गए मटीरियल (500 पेजों की रेफ़रंस व्याकरण, एक डिक्शनरी, और 400 अतिरिक्त पैरलल वाक्य) से, अंग्रेज़ी से Kalamang में अनुवाद करने की कला सीख सकते हैं. Kalamang, पापुआ की एक ऐसी भाषा है जिसे 200 से भी कम लोग बोलते हैं. इसलिए, इसकी ऑनलाइन उपस्थिति भी काफ़ी कम है. Gemini 1.5 Pro और Gemini 1.5 Flash, इन मटीरियल से सीखने वाले किसी व्यक्ति की तरह ही क्वालिटी के अनुवाद कर सकते हैं.
इस उदाहरण से पता चलता है कि लंबे कॉन्टेक्स्ट और Gemini मॉडल की कॉन्टेक्स्ट के हिसाब से सीखने की सुविधाओं की मदद से, क्या-क्या किया जा सकता है.
लंबे कॉन्टेक्स्ट के इस्तेमाल के उदाहरण
ज़्यादातर जनरेटिव मॉडल के लिए, इस्तेमाल का स्टैंडर्ड उदाहरण अब भी टेक्स्ट इनपुट है. हालांकि, Gemini 1.5 मॉडल फ़ैमिली, कई मोड में इस्तेमाल के उदाहरणों के लिए एक नया पैराडाइम उपलब्ध कराती है. ये मॉडल, टेक्स्ट, वीडियो, ऑडियो, और इमेज को नेटिव तौर पर समझ सकते हैं. इनके साथ, Gemini API भी उपलब्ध है. यह एपीआई, कई तरह के फ़ाइल टाइप को इस्तेमाल करता है.
लंबी अवधि का टेक्स्ट
टेक्स्ट, एलएलएम के लिए अहम जानकारी देने वाली लेयर साबित हुआ है. जैसा कि पहले बताया गया है, कुछ टास्क करने के लिए, एलएलएम के पास ज़रूरत के मुताबिक बड़ी कॉन्टेक्स्ट विंडो नहीं होती. इस वजह से, एलएलएम की परफ़ॉर्मेंस पर असर पड़ता है. इस वजह से, रिट्रीवल ऑगमेंटेड जनरेशन (आरएजी) और अन्य तकनीकों को तेज़ी से अपनाया गया. ये तकनीकें, मॉडल को काम के कॉन्टेक्स्ट के हिसाब से डाइनैमिक जानकारी देती हैं. अब, बड़ी और बड़ी कॉन्टेक्स्ट विंडो (फ़िलहाल, Gemini 1.5 Pro पर 20 लाख तक) के साथ, नई तकनीकें उपलब्ध हो रही हैं. इनकी मदद से, एआई के इस्तेमाल के नए उदाहरण मिलेंगे.
टेक्स्ट पर आधारित लंबे कॉन्टेक्स्ट के लिए, इस्तेमाल के कुछ नए और स्टैंडर्ड उदाहरणों में ये शामिल हैं:
- टेक्स्ट के बड़े कॉर्पस की खास जानकारी देना
- छोटे कॉन्टेक्स्ट मॉडल के साथ, खास जानकारी देने के पिछले विकल्पों के लिए, स्लाइडिंग विंडो या किसी दूसरी तकनीक की ज़रूरत होगी. इससे, मॉडल में नए टोकन पास होने पर, पिछले सेक्शन की स्थिति को बनाए रखा जा सकेगा
- सवाल पूछना और जवाब देना
- पहले, सीमित कॉन्टेक्स्ट और मॉडल के तथ्यों को याद रखने की कम क्षमता की वजह से, ऐसा सिर्फ़ आरएजी के साथ ही किया जा सकता था
- एजेंटिक वर्कफ़्लो
- टेक्स्ट से यह पता चलता है कि एजेंट ने क्या किया है और उन्हें क्या करना है. दुनिया और एजेंट के लक्ष्य के बारे में ज़रूरत के मुताबिक जानकारी न होने पर, एजेंट पर भरोसा नहीं किया जा सकता
कई शॉट वाले कॉन्टेक्स्ट में लर्निंग, लंबे कॉन्टेक्स्ट वाले मॉडल की सबसे खास सुविधाओं में से एक है. रिसर्च से पता चला है कि "सिंगल शॉट" या "मल्टी-शॉट" वाले सामान्य उदाहरणों का इस्तेमाल करने से, मॉडल की नई क्षमताएं मिल सकती हैं. उदाहरण के लिए, मॉडल को किसी टास्क के एक या कुछ उदाहरणों के साथ दिखाना और उन्हें सैकड़ों, हज़ारों या लाखों उदाहरणों तक बढ़ाना. कई शॉट वाले इस तरीके से, उन मॉडल की तरह ही परफ़ॉर्म किया गया है जिन्हें किसी खास टास्क के लिए फ़ाइन-ट्यून किया गया था. जिन इस्तेमाल के उदाहरणों में Gemini मॉडल की परफ़ॉर्मेंस, प्रोडक्शन रोल आउट के लिए अभी तक काफ़ी नहीं है उनके लिए, कई शॉट वाले तरीके को आज़माया जा सकता है. जैसा कि आपने बाद में लंबे कॉन्टेक्स्ट ऑप्टिमाइज़ेशन सेक्शन में देखा होगा, कॉन्टेक्स्ट कैश मेमोरी से इस तरह के ज़्यादा इनपुट टोकन वर्कलोड को किफ़ायती तरीके से पूरा किया जा सकता है. साथ ही, कुछ मामलों में इंतज़ार का समय भी कम हो सकता है.
लंबी अवधि के वीडियो
वीडियो कॉन्टेंट की उपयोगिता, लंबे समय से इस वजह से सीमित है कि इस माध्यम को ऐक्सेस करना मुश्किल है. कॉन्टेंट को स्किम करना मुश्किल था. अक्सर ट्रांसक्रिप्ट में वीडियो के बारे में पूरी जानकारी नहीं मिलती थी. साथ ही, ज़्यादातर टूल में इमेज, टेक्स्ट, और ऑडियो को एक साथ प्रोसेस नहीं किया जाता था. Gemini 1.5 में, लंबे कॉन्टेक्स्ट वाले टेक्स्ट की सुविधाओं की मदद से, कई तरह के इनपुट के बारे में सवालों के जवाब दिए जा सकते हैं. साथ ही, यह सुविधा बेहतर परफ़ॉर्मेंस के साथ काम करती है. Gemini 1.5 Flash को 10 लाख टोकन वाली कॉन्टेक्स्ट विंडो में, वीडियो के लिए हेयस्टैक समस्या के लिए टेस्ट किया गया. इसमें, वीडियो के लिए 99.8% से ज़्यादा रीकॉल रेट मिला. साथ ही, 1.5 Pro ने वीडियो-एमएमई बेंचमार्क पर बेहतरीन परफ़ॉर्मेंस दी.
वीडियो के लंबे कॉन्टेक्स्ट के लिए, इस्तेमाल के कुछ नए और स्टैंडर्ड उदाहरणों में ये शामिल हैं:
- वीडियो में सवाल पूछना और जवाब देना
- वीडियो मेमोरी, जैसा कि Google के Project Astra में दिखाया गया है
- वीडियो के लिए कैप्शन जोड़ना
- वीडियो के सुझाव देने वाले सिस्टम, जो मौजूदा मेटाडेटा को कई तरीकों से समझने की नई सुविधा के साथ बेहतर बनाते हैं
- वीडियो को दर्शक के हिसाब से बनाने के लिए, डेटा और उससे जुड़े वीडियो के मेटाडेटा का इस्तेमाल करना. इसके बाद, वीडियो के उन हिस्सों को हटाना जो दर्शक के लिए काम के नहीं हैं
- वीडियो कॉन्टेंट को मॉडरेट करना
- रीयल-टाइम वीडियो प्रोसेसिंग
वीडियो के साथ काम करते समय, यह ध्यान रखना ज़रूरी है कि वीडियो को टोकन में कैसे प्रोसेस किया जाता है. इससे बिलिंग और इस्तेमाल की सीमाओं पर असर पड़ता है. प्रॉम्प्ट करने के बारे में गाइड में, वीडियो फ़ाइलों के साथ प्रॉम्प्ट करने के बारे में ज़्यादा जानें.
लंबी अवधि का ऑडियो
Gemini 1.5 मॉडल, नेटिव तौर पर कई मोड वाले ऐसे पहले लार्ज लैंग्वेज मॉडल थे जो ऑडियो को समझ सकते थे. आम तौर पर, डेवलपर के वर्कफ़्लो में ऑडियो को प्रोसेस करने के लिए, डोमेन के हिसाब से कई मॉडल को एक साथ जोड़ना शामिल होता है. जैसे, बोली को टेक्स्ट में बदलने वाला मॉडल और टेक्स्ट को टेक्स्ट में बदलने वाला मॉडल. इस वजह से, एक से ज़्यादा राउंड-ट्रिप अनुरोध करने के लिए ज़्यादा इंतज़ार करना पड़ता है. साथ ही, एक से ज़्यादा मॉडल सेटअप के डिसकनेक्ट किए गए आर्किटेक्चर की वजह से, परफ़ॉर्मेंस में कमी आती है.
स्टैंडर्ड ऑडियो-हैस्टैक के आकलन के आधार पर, Gemini 1.5 Pro 100% टेस्ट में छिपे हुए ऑडियो का पता लगा सकता है. वहीं, Gemini 1.5 Flash 98.7% टेस्ट में छिपे हुए ऑडियो का पता लगा सकता है. Gemini 1.5 Flash, एक अनुरोध में ज़्यादा से ज़्यादा 9.5 घंटे का ऑडियो स्वीकार करता है. वहीं, Gemini 1.5 Pro, 20 लाख टोकन वाली कॉन्टेक्स्ट विंडो का इस्तेमाल करके 19 घंटे तक का ऑडियो स्वीकार कर सकता है. इसके अलावा, 15 मिनट की ऑडियो क्लिप के टेस्ट सेट पर, Gemini 1.5 Pro के लिए, शब्द में होने वाली गड़बड़ी का अनुपात (डब्ल्यूईआर) ~5.5% है. यह अनुपात, बोली को टेक्स्ट में बदलने वाले खास मॉडल के मुकाबले काफ़ी कम है. इसके लिए, इनपुट को अलग-अलग सेगमेंट में बांटने और प्री-प्रोसेसिंग की ज़रूरत नहीं होती.
ऑडियो कॉन्टेक्स्ट के लिए, इस्तेमाल के कुछ नए और स्टैंडर्ड उदाहरणों में ये शामिल हैं:
- बोले जा रहे शब्दों को रीयल-टाइम में टेक्स्ट में बदलने और अनुवाद की सुविधा
- पॉडकास्ट / वीडियो में सवाल पूछना और जवाब देना
- मीटिंग में बोले गए शब्दों को लेख में बदलने और खास जानकारी देने की सुविधा
- वॉइस असिस्टेंट
ऑडियो फ़ाइलों की मदद से प्रॉम्प्ट करने के बारे में ज़्यादा जानने के लिए, प्रॉम्प्ट करने के लिए बनी गाइड पढ़ें.
लंबे कॉन्टेक्स्ट के लिए ऑप्टिमाइज़ेशन
ज़्यादा कॉन्टेक्स्ट और Gemini 1.5 के मॉडल के साथ काम करते समय, कॉन्टेक्स्ट कैश मेमोरी का इस्तेमाल करना, प्राइमरी ऑप्टिमाइज़ेशन है. पहले, एक अनुरोध में कई टोकन प्रोसेस करना मुमकिन नहीं था. साथ ही, इसकी लागत भी एक समस्या थी. अगर आपके पास "अपने डेटा के साथ चैट करें" ऐप्लिकेशन है, जहां कोई उपयोगकर्ता 10 PDF, एक वीडियो, और कुछ काम के दस्तावेज़ अपलोड करता है, तो इन अनुरोधों को प्रोसेस करने के लिए, आपको पहले रीट्रिवल ऑगमेंटेड जनरेशन (RAG) टूल / फ़्रेमवर्क के साथ काम करना पड़ता था. साथ ही, कॉन्टेक्स्ट विंडो में भेजे गए टोकन के लिए ज़्यादा पैसे चुकाने पड़ते थे. अब, उपयोगकर्ता की अपलोड की गई फ़ाइलों को कैश मेमोरी में सेव किया जा सकता है. साथ ही, उन्हें हर घंटे के हिसाब से सेव करने के लिए पैसे चुकाए जा सकते हैं. उदाहरण के लिए, Gemini 1.5 Flash के साथ हर अनुरोध के लिए इनपुट / आउटपुट की लागत, स्टैंडर्ड इनपुट / आउटपुट की लागत से ~4 गुना कम होती है. इसलिए, अगर उपयोगकर्ता अपने डेटा के साथ ज़्यादा चैट करता है, तो डेवलपर के तौर पर आपको काफ़ी बचत होती है.
लंबे कॉन्टेक्स्ट की सीमाएं
इस गाइड के अलग-अलग सेक्शन में, हमने बताया है कि Gemini 1.5 मॉडल, अलग-अलग तरह के नेडल-इन-अ-हेस्टैक रीट्रीवल एवल्यूएशन में बेहतर परफ़ॉर्मेंस कैसे हासिल करते हैं. इन जांचों में सबसे बुनियादी सेटअप को ध्यान में रखा जाता है, जिसमें आपको एक ही सुई ढूंढनी होती है. अगर आपको एक से ज़्यादा "नीडल" या जानकारी के खास हिस्से चाहिए, तो मॉडल उतनी ही सटीक जानकारी नहीं दे पाता. कॉन्टेक्स्ट के हिसाब से, परफ़ॉर्मेंस में काफ़ी अंतर हो सकता है. इस बात का ध्यान रखना ज़रूरी है, क्योंकि सही जानकारी पाने और लागत के बीच एक तय सीमा होती है. एक क्वेरी पर आपको ~99% सटीक नतीजे मिल सकते हैं. हालांकि, हर बार क्वेरी भेजने पर आपको इनपुट टोकन की कीमत चुकानी होगी. इसलिए, अगर आपको 100 तरह की जानकारी चाहिए और आपको 99% परफ़ॉर्मेंस चाहिए, तो आपको 100 अनुरोध भेजने होंगे. यह एक अच्छा उदाहरण है कि कैसे कॉन्टेक्स्ट कैश मेमोरी का इस्तेमाल करके, Gemini मॉडल का इस्तेमाल करने से जुड़ी लागत को काफ़ी कम किया जा सकता है. साथ ही, परफ़ॉर्मेंस को बेहतर बनाए रखा जा सकता है.
अक्सर पूछे जाने वाले सवाल
क्या किसी क्वेरी में ज़्यादा टोकन जोड़ने पर, मॉडल की परफ़ॉर्मेंस पर असर पड़ता है?
आम तौर पर, अगर आपको मॉडल में टोकन पास करने की ज़रूरत नहीं है, तो बेहतर होगा कि आप उन्हें पास न करें. हालांकि, अगर आपके पास कुछ जानकारी वाले टोकन का बड़ा हिस्सा है और आपको उस जानकारी के बारे में सवाल पूछने हैं, तो मॉडल उस जानकारी को निकालने में काफ़ी सक्षम है. कई मामलों में, यह जानकारी 99% तक सटीक होती है.
Gemini 1.5 Pro, स्टैंडर्ड नेडल-इन-अ-हेस्टैक टेस्ट में कैसा परफ़ॉर्म करता है?
Gemini 1.5 Pro, 5.3 लाख टोकन तक 100% रीकॉल और 10 लाख टोकन तक 99.7% रीकॉल हासिल करता है.
मैं लंबी कॉन्टेक्स्ट क्वेरी की मदद से, अपनी लागत कैसे कम करूं?
अगर आपके पास एक जैसे कई टोकन / कॉन्टेक्स्ट हैं और आपको उनका कई बार फिर से इस्तेमाल करना है, तो कॉन्टेक्स्ट कैश मेमोरी में सेव करने की सुविधा से, उस जानकारी के बारे में सवाल पूछने से जुड़ी लागत कम की जा सकती है.
मुझे दो लाख टोकन वाली कॉन्टेक्स्ट विंडो का ऐक्सेस कैसे मिलेगा?
सभी डेवलपर के पास अब Gemini 1.5 Pro के साथ, दो करोड़ टोकन वाली कॉन्टेक्स्ट विंडो का ऐक्सेस है.
क्या कॉन्टेक्स्ट की लंबाई का मॉडल के इंतज़ार के समय पर असर पड़ता है?
किसी भी अनुरोध में लगने वाला समय तय होता है. इस बात से कोई फ़र्क़ नहीं पड़ता कि अनुरोध का साइज़ कितना है. हालांकि, आम तौर पर लंबी क्वेरी में ज़्यादा समय लगेगा (पहले टोकन का समय).
क्या Gemini 1.5 Flash और Gemini 1.5 Pro के बीच, ज़्यादा कॉन्टेक्स्ट वाली विंडो की सुविधाओं में अंतर है?
हां, इस गाइड के अलग-अलग सेक्शन में कुछ संख्याओं के बारे में बताया गया था. हालांकि, आम तौर पर Gemini 1.5 Pro, लंबे कॉन्टेक्स्ट वाले ज़्यादातर इस्तेमाल के उदाहरणों पर बेहतर परफ़ॉर्म करता है.