सामान्य एआई वर्कफ़्लो में, एक ही इनपुट टोकन को बार-बार पास किया जा सकता है मॉडल. Gemini API कॉन्टेक्स्ट कैश करने की सुविधा का इस्तेमाल करके, कुछ कॉन्टेंट शेयर किया जा सकता है को एक बार मॉडल करने के लिए, इनपुट टोकन को कैश मेमोरी में सेव करें. इसके बाद, कैश मेमोरी में सेव किए गए टोकन देखें का इस्तेमाल किया जा सकता है. कुछ वॉल्यूम पर, कैश मेमोरी में सेव किए गए टोकन का इस्तेमाल करने पर कम लागत आती है बार-बार टोकन के एक ही ग्रुप में पास नहीं होना चाहिए.
टोकन के किसी सेट को कैश मेमोरी में सेव करने पर, आपके पास यह चुनने का विकल्प होता है कि उसे कितनी देर के लिए कैश मेमोरी में सेव करना है इससे पहले कि टोकन अपने-आप मिट जाएं. कैश मेमोरी में सेव होने की यह अवधि है इसे टाइम टू लाइव (टीटीएल) कहते हैं. अगर इस नीति को सेट नहीं किया जाता है, तो डिफ़ॉल्ट रूप से TTL (टीटीएल) एक घंटे का होगा. कॉन्टेंट बनाने कैश मेमोरी में सेव होने का खर्च, इनपुट टोकन के साइज़ और आपको कितनी देर तक टोकन बनाए रखना होगा.
कॉन्टेक्स्ट को कैश मेमोरी में सेव करने की सुविधा, Gemini 1.5 Pro और Gemini 1.5 Flash, दोनों वर्शन के साथ काम करती है.
कॉन्टेक्स्ट कैश मेमोरी का इस्तेमाल कब करना चाहिए
कॉन्टेक्स्ट को कैश मेमोरी में सेव करने की सुविधा, खास तौर पर उन मामलों में कारगर साबित होती है जहां ज़रूरी शुरुआती कॉन्टेक्स्ट का रेफ़रंस बार-बार छोटे अनुरोधों में दिया जाता है. इसलिए, इस्तेमाल के इन उदाहरणों के लिए, कॉन्टेक्स्ट को कैश मेमोरी में सेव करने की सुविधा:
- सिस्टम से जुड़े दिशा-निर्देशों वाले चैटबॉट
- लंबी वीडियो फ़ाइलों का बार-बार विश्लेषण
- बड़े दस्तावेज़ सेट के लिए बार-बार होने वाली क्वेरी
- कोड को स्टोर करने की नियमित तौर पर जांच करना या गड़बड़ियां ठीक करना
कैश मेमोरी में सेव करने से लागत कैसे कम होती है
संदर्भ को कैश मेमोरी में सेव करने की सुविधा पैसे चुकाकर ली जाती है. इसे काम करने में लगने वाले कुल खर्च को कम करने के लिए डिज़ाइन किया गया है. बिलिंग इन बातों पर आधारित होती है:
- कैश टोकन काउंट: कैश मेमोरी में सेव किए गए इनपुट टोकन की संख्या बाद के प्रॉम्प्ट में शामिल करने पर, इस दर को कम किया जा सकता है.
- स्टोरेज की अवधि: कैश मेमोरी में सेव किए गए टोकन के सेव होने की अवधि (टीटीएल), कैश मेमोरी में सेव किए गए टोकन की संख्या के लिए, TTL की अवधि के आधार पर बिल भेजा जाएगा. कोई कम से कम वैल्यू सेट नहीं की गई है या TTL पर अधिकतम सीमाएं होती हैं.
- अन्य बातें: अन्य शुल्क लागू होते हैं, जैसे कि कैश नहीं किए गए इनपुट टोकन के लिए और आउटपुट टोकन होंगे.
कीमतों की अप-टू-डेट जानकारी के लिए, Gemini API की कीमत देखें पेज पर जाएं. टोकन की गिनती करने का तरीका जानने के लिए, टोकन देखें गाइड देखें.
कॉन्टेक्स्ट कैशिंग की सुविधा इस्तेमाल करने का तरीका
इस सेक्शन में यह मान लिया गया है कि आपने Gemini SDK टूल इंस्टॉल किया है और एक एपीआई को कॉन्फ़िगर किया है कुंजी है, जैसा कि क्विकस्टार्ट में दिखाया गया है.
ज़रूरी बातें
कॉन्टेक्स्ट कैश मेमोरी का इस्तेमाल करते समय इन बातों का ध्यान रखें:
- कॉन्टेक्स्ट कैश मेमोरी के लिए कम से कम इनपुट टोकन की संख्या 32,768 है और सबसे ज़्यादा, दिए गए मॉडल की सबसे ज़्यादा वैल्यू के बराबर है. (यहां पर ज़्यादा जानकारी के लिए टोकन की गिनती के लिए, टोकन गाइड देखें).
- मॉडल, कैश मेमोरी में सेव किए गए टोकन और रेगुलर टोकन में कोई अंतर नहीं करता इनपुट टोकन. कैश मेमोरी में सेव किया गया कॉन्टेंट, प्रॉम्प्ट का एक प्रीफ़िक्स है.
- कॉन्टेक्स्ट कैश मेमोरी में सेव करने के लिए, कोई खास दर या इस्तेमाल करने की सीमा नहीं है; मानक
GenerateContent
के लिए रेट की सीमाएं लागू होती हैं. टोकन की सीमाओं में, कैश मेमोरी में सेव किया गया डेटा शामिल होता है टोकन. - कैश मेमोरी में सेव किए गए टोकन की संख्या
usage_metadata
में कैश सेवा की कार्रवाइयां बनाएं, पाएं, और उनकी सूची बनाएं. साथ ही, कैश मेमोरी का इस्तेमाल करते समयGenerateContent
.