कॉन्टेक्स्ट कैश मेमोरी

एआई के सामान्य वर्कफ़्लो में, किसी मॉडल को एक ही इनपुट टोकन बार-बार भेजा जा सकता है. Gemini API, परफ़ॉर्मेंस और लागत को ऑप्टिमाइज़ करने के लिए, इंप्लिसिट कैशिंग की सुविधा देता है.

इंप्लिसिट कैशिंग

Gemini 2.5 और इसके बाद के सभी मॉडल के लिए, इंप्लिसिट कैशिंग की सुविधा डिफ़ॉल्ट रूप से चालू होती है. अगर आपका अनुरोध कैश से मैच होता है, तो हम लागत में हुई बचत को अपने-आप पास कर देते हैं. इसे चालू करने के लिए, आपको कुछ भी करने की ज़रूरत नहीं है. यहां दी गई टेबल में, हर मॉडल के लिए कॉन्टेक्स्ट कैशिंग के लिए ज़रूरी इनपुट टोकन की कम से कम संख्या दी गई है:

मॉडल टोकन की कम से कम सीमा
Gemini 3.5 Flash 4096
Gemini 3.1 Pro की झलक 4096
Gemini 2.5 Flash 2048
Gemini 2.5 Pro 2048

इंप्लिसिट कैश हिट होने की संभावना बढ़ाने के लिए:

  • अपने प्रॉम्प्ट की शुरुआत में, बड़े और सामान्य कॉन्टेंट को शामिल करें
  • कम समय में, एक जैसे प्रीफ़िक्स वाले अनुरोध भेजने की कोशिश करें

रिस्पॉन्स ऑब्जेक्ट के usage_metadata (Python) या usageMetadata (JavaScript) फ़ील्ड में, कैश हिट होने वाले टोकन की संख्या देखी जा सकती है.