लंबा संदर्भ

Gemini के कई मॉडल में 10 लाख या उससे ज़्यादा टोकन वाली बड़ी कॉन्टेक्स्ट विंडो होती है. पहले, लार्ज लैंग्वेज मॉडल (एलएलएम) में एक बार में ज़्यादा से ज़्यादा उतना ही टेक्स्ट (या टोकन) डाला जा सकता था जितना मॉडल में प्रोसेस किया जा सकता था. Gemini की बड़ी कॉन्टेक्स्ट विंडो की मदद से, एआई के इस्तेमाल के कई नए उदाहरण और डेवलपर के पैराडाइम उपलब्ध होते हैं.

टेक्स्ट जनरेशन या मल्टीमोडल इनपुट जैसे मामलों के लिए, पहले से इस्तेमाल किया जा रहा कोड, लंबे कॉन्टेक्स्ट के साथ बिना किसी बदलाव के काम करेगा.

इस दस्तावेज़ में, 10 लाख और उससे ज़्यादा टोकन वाली कॉन्टेक्स्ट विंडो वाले मॉडल का इस्तेमाल करके, क्या-क्या हासिल किया जा सकता है, इस बारे में खास जानकारी दी गई है. इस पेज पर, कॉन्टेक्स्ट विंडो के बारे में खास जानकारी दी गई है. साथ ही, इसमें बताया गया है कि डेवलपर को लंबे कॉन्टेक्स्ट के बारे में कैसे सोचना चाहिए, लंबे कॉन्टेक्स्ट के लिए असल दुनिया के अलग-अलग इस्तेमाल के उदाहरण, और लंबे कॉन्टेक्स्ट के इस्तेमाल को ऑप्टिमाइज़ करने के तरीके.

खास मॉडल की कॉन्टेक्स्ट विंडो के साइज़ के लिए, मॉडल पेज देखें.

कॉन्टेक्स्ट विंडो क्या होती है?

Gemini मॉडल का इस्तेमाल करने का बुनियादी तरीका यह है कि मॉडल को जानकारी (कॉन्टेक्स्ट) दी जाए, ताकि वह जवाब जनरेट कर सके. कॉन्टेक्स्ट विंडो की तुलना शॉर्ट टर्म मेमोरी से की जा सकती है. किसी व्यक्ति की कम अवधि की याददाश्त में सीमित जानकारी सेव की जा सकती है. यही बात जनरेटिव मॉडल के लिए भी सच है.

जनरेटिव मॉडल की गाइड में, इस बारे में ज़्यादा पढ़ा जा सकता है कि मॉडल कैसे काम करते हैं.

लंबे कॉन्टेक्स्ट का इस्तेमाल शुरू करना

जनरेटिव मॉडल के पुराने वर्शन, एक बार में सिर्फ़ 8,000 टोक़न प्रोसेस कर सकते थे. नए मॉडल में, 32,000 या 1,28,000 टोकन स्वीकार किए जा सकते हैं. Gemini पहला ऐसा मॉडल है जो 10 लाख टोकन स्वीकार कर सकता है.

10 लाख टोकन इस तरह दिखेंगे:

  • कोड की 50,000 लाइनें (हर लाइन में स्टैंडर्ड तौर पर 80 वर्ण)
  • पिछले पांच सालों में भेजे गए सभी मैसेज
  • औसत लंबाई वाली आठ अंग्रेज़ी उपन्यास
  • औसत अवधि के 200 से ज़्यादा पॉडकास्ट एपिसोड के ट्रांसक्रिप्ट

कई अन्य मॉडल में, कॉन्टेक्स्ट विंडो की सीमित संख्या होती है. इनमें अक्सर, पुराने मैसेज को मनमुताबिक हटाने, कॉन्टेंट की खास जानकारी देने, वेक्टर डेटाबेस के साथ RAG का इस्तेमाल करने या टोकन सेव करने के लिए प्रॉम्प्ट को फ़िल्टर करने जैसी रणनीतियों की ज़रूरत होती है.

ये तकनीकें कुछ खास स्थितियों में काम की होती हैं. हालांकि, Gemini की बड़ी कॉन्टेक्स्ट विंडो से, ज़्यादा सीधे तरीके से काम करने में मदद मिलती है. इसमें, सभी ज़रूरी जानकारी पहले से दी जाती है. Gemini मॉडल को खास मकसद के लिए बनाया गया था. इनमें कॉन्टेक्स्ट से जुड़ी काफ़ी सुविधाएं हैं. इसलिए, इन मॉडल में कॉन्टेक्स्ट के हिसाब से बेहतर तरीके से सीखने की सुविधा मिलती है. उदाहरण के लिए, Gemini ने सिर्फ़ संदर्भ के हिसाब से दिए गए निर्देशों वाले मटीरियल (500 पेजों का रेफ़रंस ग्रामर, एक डिक्शनरी, और 400 पैरलल वाक्य) का इस्तेमाल करके, अंग्रेज़ी से Kalamang में अनुवाद करना सीखा. Kalamang, पापुआ की एक ऐसी भाषा है जिसे 200 से भी कम लोग बोलते हैं. Gemini ने इन मटीरियल का इस्तेमाल करके, उसी तरह का अनुवाद किया जिस तरह कोई व्यक्ति करता है. इस इमेज में, Gemini के लंबे कॉन्टेक्स्ट की मदद से हुए बदलाव को दिखाया गया है. इसमें, कॉन्टेक्स्ट के हिसाब से बेहतर तरीके से सीखने की सुविधा की मदद से, नई संभावनाओं को बेहतर बनाने के बारे में बताया गया है.

लंबे कॉन्टेक्स्ट के इस्तेमाल के उदाहरण

ज़्यादातर जनरेटिव मॉडल के लिए, इस्तेमाल का स्टैंडर्ड उदाहरण अब भी टेक्स्ट इनपुट है. हालांकि, Gemini मॉडल फ़ैमिली, अलग-अलग तरह के इनपुट के इस्तेमाल के नए उदाहरणों को उपलब्ध कराती है. ये मॉडल, टेक्स्ट, वीडियो, ऑडियो, और इमेज को नेटिव तौर पर समझ सकते हैं. इनके साथ, Gemini API भी काम करता है. यह एपीआई, कई तरह की फ़ाइल टाइप को इस्तेमाल करता है.

लंबी अवधि का टेक्स्ट

टेक्स्ट, एलएलएम के लिए अहम जानकारी देने वाली लेयर साबित हुआ है. जैसा कि पहले बताया गया है, कुछ टास्क करने के लिए, एलएलएम के पास ज़रूरत के मुताबिक बड़ी कॉन्टेक्स्ट विंडो नहीं होती. इस वजह से, एलएलएम की परफ़ॉर्मेंस पर असर पड़ता है. इस वजह से, रिट्रीवल ऑगमेंटेड जनरेशन (आरएजी) और अन्य तकनीकों को तेज़ी से अपनाया गया. ये तकनीकें, मॉडल को काम के कॉन्टेक्स्ट के हिसाब से डाइनैमिक जानकारी देती हैं. अब, बड़ी और बड़ी कॉन्टेक्स्ट विंडो के साथ, नई तकनीकें उपलब्ध हो रही हैं. इनकी मदद से, नए इस्तेमाल के उदाहरणों को अनलॉक किया जा सकता है.

टेक्स्ट पर आधारित लंबे कॉन्टेक्स्ट के लिए, इस्तेमाल के कुछ नए और स्टैंडर्ड उदाहरणों में ये शामिल हैं:

  • टेक्स्ट के बड़े कॉर्पस की खास जानकारी देना
    • छोटे कॉन्टेक्स्ट मॉडल के साथ, खास जानकारी देने के पिछले विकल्पों के लिए, स्लाइडिंग विंडो या किसी दूसरी तकनीक की ज़रूरत होगी. इससे, मॉडल में नए टोकन पास होने पर, पिछले सेक्शन की स्थिति को बनाए रखा जा सकेगा
  • सवाल पूछना और जवाब देना
    • पहले, सीमित कॉन्टेक्स्ट और मॉडल के तथ्यों को याद रखने की कम क्षमता की वजह से, ऐसा सिर्फ़ आरएजी के साथ ही किया जा सकता था
  • एजेंटिक वर्कफ़्लो
    • टेक्स्ट से यह पता चलता है कि एजेंट ने क्या किया है और उन्हें क्या करना है. दुनिया और एजेंट के लक्ष्य के बारे में ज़रूरत के मुताबिक जानकारी न होने पर, एजेंट पर भरोसा नहीं किया जा सकता

कई शॉट वाला कॉन्टेक्स्ट लर्निंग, लंबे कॉन्टेक्स्ट मॉडल की सबसे खास सुविधाओं में से एक है. रिसर्च से पता चला है कि "सिंगल शॉट" या "मल्टी-शॉट" के उदाहरण के पैराडाइम का इस्तेमाल करने से, मॉडल की नई क्षमताएं मिल सकती हैं. इसमें, मॉडल को किसी टास्क के एक या कुछ उदाहरणों के साथ दिखाया जाता है और फिर उसे सैकड़ों, हज़ारों या लाखों उदाहरणों तक बढ़ाया जाता है. कई शॉट वाले इस तरीके से, उन मॉडल की तरह ही परफ़ॉर्म किया गया है जिन्हें किसी खास टास्क के लिए फ़ाइन-ट्यून किया गया था. जिन इस्तेमाल के उदाहरणों में Gemini मॉडल की परफ़ॉर्मेंस, प्रोडक्शन रोल आउट के लिए अभी तक काफ़ी नहीं है उनके लिए, कई शॉट वाला तरीका आज़माया जा सकता है. जैसा कि आपने बाद में लंबे कॉन्टेक्स्ट ऑप्टिमाइज़ेशन सेक्शन में देखा होगा, कॉन्टेक्स्ट कैश मेमोरी से इस तरह के ज़्यादा इनपुट टोकन वर्कलोड को किफ़ायती तरीके से पूरा किया जा सकता है. साथ ही, कुछ मामलों में इंतज़ार का समय भी कम हो सकता है.

लंबी अवधि के वीडियो

वीडियो कॉन्टेंट की उपयोगिता काफ़ी समय से सीमित है, क्योंकि इस माध्यम को ऐक्सेस करना मुश्किल है. कॉन्टेंट को स्किम करना मुश्किल था. अक्सर ट्रांसक्रिप्ट में वीडियो के बारीकियों को कैप्चर नहीं किया जा सकता था. साथ ही, ज़्यादातर टूल, इमेज, टेक्स्ट, और ऑडियो को एक साथ प्रोसेस नहीं करते थे. Gemini की मदद से, लंबे कॉन्टेक्स्ट वाले टेक्स्ट की सुविधाओं का इस्तेमाल करके, मल्टीमोडल इनपुट के बारे में सवालों के जवाब दिए जा सकते हैं.

वीडियो के लंबे कॉन्टेक्स्ट के लिए, इस्तेमाल के कुछ नए और स्टैंडर्ड उदाहरणों में ये शामिल हैं:

  • वीडियो में सवाल पूछना और जवाब देना
  • वीडियो मेमोरी, जैसा कि Google के Project Astra में दिखाया गया है
  • वीडियो के लिए कैप्शन जोड़ना
  • वीडियो के सुझाव देने वाले सिस्टम, जो मौजूदा मेटाडेटा को कई तरीकों से समझने की नई सुविधा के साथ बेहतर बनाते हैं
  • वीडियो को दर्शक के हिसाब से बनाने के लिए, डेटा और उससे जुड़े वीडियो के मेटाडेटा का इस्तेमाल करना. इसके बाद, वीडियो के उन हिस्सों को हटाना जो दर्शक के लिए काम के नहीं हैं
  • वीडियो कॉन्टेंट को मॉडरेट करना
  • रीयल-टाइम वीडियो प्रोसेसिंग

वीडियो के साथ काम करते समय, यह ध्यान रखना ज़रूरी है कि वीडियो को टोकन में कैसे प्रोसेस किया जाता है. इससे बिलिंग और इस्तेमाल की सीमाओं पर असर पड़ता है. प्रॉम्प्ट करने के बारे में गाइड में, वीडियो फ़ाइलों के साथ प्रॉम्प्ट करने के बारे में ज़्यादा जानें.

लंबी अवधि का ऑडियो

Gemini मॉडल, नेटिव मल्टीमोडल लार्ज लैंग्वेज मॉडल के तौर पर, ऑडियो को समझने वाले पहले मॉडल थे. आम तौर पर, डेवलपर के वर्कफ़्लो में ऑडियो को प्रोसेस करने के लिए, डोमेन के हिसाब से कई मॉडल को एक साथ जोड़ना शामिल होता है. जैसे, बोली को टेक्स्ट में बदलने वाला मॉडल और टेक्स्ट को टेक्स्ट में बदलने वाला मॉडल. इस वजह से, एक से ज़्यादा राउंड-ट्रिप अनुरोध करने के लिए ज़्यादा इंतज़ार करना पड़ता है. साथ ही, एक से ज़्यादा मॉडल सेटअप के डिसकनेक्ट किए गए आर्किटेक्चर की वजह से, परफ़ॉर्मेंस में कमी आती है.

ऑडियो कॉन्टेक्स्ट के लिए, इस्तेमाल के कुछ नए और स्टैंडर्ड उदाहरणों में ये शामिल हैं:

  • बोले जा रहे शब्दों को रीयल-टाइम में टेक्स्ट में बदलने और अनुवाद की सुविधा
  • पॉडकास्ट / वीडियो में सवाल पूछना और जवाब देना
  • मीटिंग में बोले गए शब्दों को लेख में बदलने और खास जानकारी देने की सुविधा
  • वॉइस असिस्टेंट

ऑडियो फ़ाइलों की मदद से प्रॉम्प्ट करने के बारे में ज़्यादा जानने के लिए, प्रॉम्प्ट करने के लिए बनी गाइड पढ़ें.

लंबे कॉन्टेक्स्ट के लिए ऑप्टिमाइज़ेशन

लंबे कॉन्टेक्स्ट और Gemini मॉडल के साथ काम करते समय, कॉन्टेक्स्ट कैश मेमोरी का इस्तेमाल करना, ऑप्टिमाइज़ेशन का मुख्य तरीका है. पहले, एक अनुरोध में कई टोकन प्रोसेस करना मुमकिन नहीं था. साथ ही, शुल्क भी एक बड़ी समस्या थी. अगर आपके पास "अपने डेटा के साथ चैट करें" ऐप्लिकेशन है, जहां कोई उपयोगकर्ता 10 PDF, एक वीडियो, और कुछ काम के दस्तावेज़ अपलोड करता है, तो इन अनुरोधों को प्रोसेस करने के लिए, आपको पहले रीट्रिवल ऑगमेंटेड जनरेशन (RAG) टूल / फ़्रेमवर्क के साथ काम करना पड़ता था. साथ ही, कॉन्टेक्स्ट विंडो में भेजे गए टोकन के लिए ज़्यादा पैसे चुकाने पड़ते थे. अब, उपयोगकर्ता की अपलोड की गई फ़ाइलों को कैश मेमोरी में सेव किया जा सकता है. साथ ही, उन्हें हर घंटे के हिसाब से सेव करने के लिए पैसे चुकाए जा सकते हैं. उदाहरण के लिए, Gemini Flash की मदद से हर अनुरोध के लिए इनपुट / आउटपुट की लागत, स्टैंडर्ड इनपुट / आउटपुट की लागत से ~4 गुना कम होती है. इसलिए, अगर उपयोगकर्ता अपने डेटा के साथ ज़्यादा चैट करता है, तो डेवलपर के तौर पर आपको काफ़ी बचत होती है.

लंबे कॉन्टेक्स्ट की सीमाएं

इस गाइड के अलग-अलग सेक्शन में, हमने बताया है कि Gemini मॉडल, अलग-अलग तरह के 'नेडल इन द हेस्टैक' रीट्रिवल एवल्यूएशन में बेहतर परफ़ॉर्मेंस कैसे हासिल करते हैं. इन जांचों में सबसे बुनियादी सेटअप को ध्यान में रखा जाता है, जिसमें आपको एक ही सुई ढूंढनी होती है. अगर आपको एक से ज़्यादा "नीडल" या जानकारी के खास हिस्से चाहिए, तो मॉडल उतनी ही सटीक जानकारी नहीं दे पाता. कॉन्टेक्स्ट के हिसाब से, परफ़ॉर्मेंस में काफ़ी अंतर हो सकता है. इस बात का ध्यान रखना ज़रूरी है, क्योंकि सही जानकारी पाने और लागत के बीच एक तय सीमा होती है. एक क्वेरी पर आपको ~99% सटीक नतीजे मिल सकते हैं. हालांकि, हर बार क्वेरी भेजने पर आपको इनपुट टोकन की कीमत चुकानी होगी. इसलिए, अगर आपको 100 तरह की जानकारी चाहिए और आपको 99% परफ़ॉर्मेंस चाहिए, तो आपको 100 अनुरोध भेजने होंगे. यह एक अच्छा उदाहरण है कि कैसे कॉन्टेक्स्ट कैश मेमोरी का इस्तेमाल करके, Gemini मॉडल का इस्तेमाल करने से जुड़ी लागत को काफ़ी कम किया जा सकता है. साथ ही, परफ़ॉर्मेंस को बेहतर बनाए रखा जा सकता है.

अक्सर पूछे जाने वाले सवाल

कॉन्टेक्स्ट विंडो में अपनी क्वेरी को कहां डालना चाहिए?

ज़्यादातर मामलों में, अगर कॉन्टेक्स्ट लंबा है, तो मॉडल की परफ़ॉर्मेंस बेहतर होगी. इसके लिए, अपनी क्वेरी / सवाल को प्रॉम्प्ट के आखिर में (अन्य सभी कॉन्टेक्स्ट के बाद) रखें.

क्या किसी क्वेरी में ज़्यादा टोकन जोड़ने पर, मॉडल की परफ़ॉर्मेंस पर असर पड़ता है?

आम तौर पर, अगर आपको मॉडल में टोकन पास करने की ज़रूरत नहीं है, तो बेहतर होगा कि आप उन्हें पास न करें. हालांकि, अगर आपके पास कुछ जानकारी वाले टोकन का बड़ा हिस्सा है और आपको उस जानकारी के बारे में सवाल पूछने हैं, तो मॉडल उस जानकारी को निकालने में काफ़ी सक्षम है. कई मामलों में, यह जानकारी 99% तक सटीक होती है.

मैं लंबी कॉन्टेक्स्ट क्वेरी की मदद से, अपनी लागत कैसे कम करूं?

अगर आपके पास ऐसे टोकन / कॉन्टेक्स्ट का एक जैसा सेट है जिसका कई बार फिर से इस्तेमाल करना है, तो कॉन्टेक्स्ट कैश मेमोरी में सेव करना, उस जानकारी के बारे में सवाल पूछने से जुड़ी लागत को कम करने में मदद कर सकता है.

क्या कॉन्टेक्स्ट की लंबाई का मॉडल के इंतज़ार के समय पर असर पड़ता है?

किसी भी अनुरोध में लगने वाला समय तय होता है. इस बात से कोई फ़र्क़ नहीं पड़ता कि अनुरोध का साइज़ कितना है. हालांकि, आम तौर पर लंबी क्वेरी में ज़्यादा समय लगेगा (पहले टोकन का समय).