Gemini API, ऑप्टिमाइज़ेशन के कई तरीके उपलब्ध कराता है. इनकी मदद से, आपके वर्कलोड की ज़रूरतों के हिसाब से, स्पीड, लागत, और भरोसेमंद होने के बीच बैलेंस बनाया जा सकता है. चाहे आप रीयल-टाइम में बातचीत करने वाले बॉट बना रहे हों या ऑफ़लाइन डेटा-प्रोसेसिंग के लिए बड़े पाइपलाइन चला रहे हों, सही पैराडाइम चुनने से लागत को काफ़ी हद तक कम किया जा सकता है या परफ़ॉर्मेंस को बेहतर बनाया जा सकता है.
| सुविधा | स्टैंडर्ड | Flex | प्राथमिकता | बैच | कैश मेमोरी में सेव करना |
|---|---|---|---|---|---|
| कीमत | पूरी कीमत | 50% की छूट | स्टैंडर्ड कीमत से 75% से 100% ज़्यादा | 50% की छूट | 90% की छूट + टोकन स्टोरेज के लिए आनुपातिक शुल्क |
| लेटेंसी | कुछ सेकंड से लेकर कुछ मिनट | कुछ मिनट (टारगेट 1–15 मिनट) | कुछ सेकंड | 24 घंटे लग सकते हैं | पहले टोकन के लिए कम समय |
| भरोसेमंद है | ज़्यादा / मीडियम-ज़्यादा | पूरी कोशिश (कम अहमियत वाला) | ज़्यादा (अहमियत वाला) | ज़्यादा (थ्रूपुट के लिए) | लागू नहीं |
| इंटरफ़ेस | सिंक्रोनस | सिंक्रोनस | सिंक्रोनस | एसिंक्रोनस | सेव की गई स्थिति |
| इस्तेमाल का सबसे अच्छा उदाहरण | ऐप्लिकेशन के सामान्य वर्कफ़्लो | सीक्वेंशियल चेन (जिनके लिए तुरंत कार्रवाई की ज़रूरत न हो) | प्रोडक्शन, उपयोगकर्ता के लिए बने ऐप्लिकेशन | बड़े डेटासेट, ऑफ़लाइन आकलन | एक ही फ़ाइल के लिए बार-बार क्वेरी करना |
इन्फ़रेंस सेवा के लेवल (सिंक्रोनस)
जनरेशन के स्टैंडर्ड कॉल में service_tier पैरामीटर पास करके, भरोसेमंद होने के लिए ऑप्टिमाइज़ किए गए और लागत के लिए ऑप्टिमाइज़ किए गए सिंक्रोनस ट्रैफ़िक के बीच स्विच किया जा सकता है.
स्टैंडर्ड इन्फ़रेंस (डिफ़ॉल्ट)
सीक्वेंशियल कॉन्टेंट जनरेट करने के लिए, स्टैंडर्ड लेवल डिफ़ॉल्ट विकल्प है. इसमें, अतिरिक्त प्रीमियम या लंबी कतारों के बिना, सामान्य रिस्पॉन्स टाइम मिलता है.
- भरोसेमंद है: स्टैंडर्ड अहमियत
- कीमत: स्टैंडर्ड कीमत.
- इसके लिए सबसे सही विकल्प: रोज़ाना इस्तेमाल होने वाले ज़्यादातर इंटरैक्टिव ऐप्लिकेशन.
प्राथमिकता वाला इन्फ़रेंस (लेटेंसी के लिए ऑप्टिमाइज़ किया गया)
प्राथमिकता वाली प्रोसेसिंग, आपके अनुरोधों को ज़्यादा अहमियत वाली कंप्यूटिंग कतारों पर भेजती है. यह ट्रैफ़िक, अहमियत वाला होता है. इसका मतलब है कि इसे दूसरे लेवल से कभी भी रोका नहीं जा सकता. साथ ही, यह सबसे ज़्यादा भरोसेमंद होता है. अगर आपने प्राथमिकता वाली प्रोसेसिंग की डाइनैमिक सीमाओं को पार कर लिया है, तो सिस्टम गड़बड़ी दिखाने के बजाय, अनुरोध को स्टैंडर्ड प्रोसेसिंग पर डाउनग्रेड कर देगा.
- भरोसेमंद है: सबसे ज़्यादा अहमियत
- कीमत: स्टैंडर्ड दरों से 75% से 100% ज़्यादा.
- इसके लिए सबसे सही विकल्प: ग्राहक सेवा के लिए चैटबॉट, रीयल-टाइम में धोखाधड़ी का पता लगाना, और कारोबार के लिए अहम को-पायलट.
Flex इन्फ़रेंस (लागत के लिए ऑप्टिमाइज़ किया गया)
Flex इन्फ़रेंस में, स्टैंडर्ड दरों के मुकाबले 50% की छूट मिलती है. ऐसा इसलिए होता है, क्योंकि इसमें ऑफ़-पीक कंप्यूटिंग क्षमता का इस्तेमाल किया जाता है. अनुरोधों को सिंक्रोनस तरीके से प्रोसेस किया जाता है. इसका मतलब है कि बैच ऑब्जेक्ट मैनेज करने के लिए, आपको कोड फिर से लिखने की ज़रूरत नहीं होती. यह "कम अहमियत वाला" ट्रैफ़िक होता है. इसलिए, अगर सिस्टम में स्टैंडर्ड ट्रैफ़िक बढ़ता है, तो अनुरोधों को रोका जा सकता है.
- भरोसेमंद है: अहमियत की कोई गारंटी नहीं, कम अहमियत वाला
- कीमत: स्टैंडर्ड कीमत का 50% (टोकन के हिसाब से बिल किया जाता है).
- इसके लिए सबसे सही विकल्प: एजेंटिक वर्कफ़्लो (जिसमें कॉल N+1, कॉल N के आउटपुट पर निर्भर करता है), बैकग्राउंड में सीआरएम अपडेट, और ऑफ़लाइन आकलन.
बैच एपीआई (बल्क, एसिंक्रोनस)
बैच एपीआई को, बड़ी संख्या में अनुरोधों को एसिंक्रोनस तरीके से प्रोसेस करने के लिए डिज़ाइन किया गया है. इसकी लागत, स्टैंडर्ड लागत का 50% होती है. अनुरोधों को इन-लाइन डिक्शनरी के तौर पर या JSONL इनपुट फ़ाइल (दो जीबी तक) का इस्तेमाल करके सबमिट किया जा सकता है. यह, बैकग्राउंड थ्रूपुट कतारों का इस्तेमाल करके अनुरोधों को प्रोसेस करता है. इसका टारगेट टर्नअराउंड टाइम 24 घंटे होता है.
- भरोसेमंद है: कम अहमियत वाला, लेकिन इसमें 24 घंटे में अपने-आप फिर से कोशिश करने और कतार में लगाने का सिस्टम मौजूद है
- कीमत: स्टैंडर्ड कीमत का 50%
- इसके लिए सबसे सही विकल्प: बड़े डेटासेट को पहले से प्रोसेस करना, समय-समय पर रिग्रेशन टेस्ट सुइट चलाना, और बड़ी संख्या में इमेज या एम्बेडिंग जनरेट करना.
कॉन्टेक्स्ट कैश मेमोरी में सेव करना (इनपुट की बचत)
कॉन्टेक्स्ट कैश मेमोरी में सेव करने की सुविधा का इस्तेमाल तब किया जाता है, जब छोटे अनुरोधों में, शुरुआती कॉन्टेक्स्ट को बार-बार रेफ़र किया जाता है.
- अपने-आप कैश मेमोरी में सेव करना: यह सुविधा, Gemini 2.5 और उसके बाद के मॉडल पर अपने-आप चालू हो जाती है. अगर आपका अनुरोध, सामान्य प्रॉम्प्ट प्रीफ़िक्स के आधार पर मौजूदा कैश मेमोरी में सेव किए गए डेटा से मेल खाता है, तो सिस्टम लागत में बचत करता है.
- मैन्युअल तरीके से कैश मेमोरी में सेव करना: टाइम-टू-लिव (टीटीएल) के साथ, कैश मेमोरी में सेव किया गया ऑब्जेक्ट मैन्युअल तरीके से बनाया जा सकता है. कैश मेमोरी में सेव किए गए टोकन को, बाद के अनुरोधों के लिए रेफ़र किया जा सकता है. इससे, एक ही कॉर्पस पेलोड को बार-बार पास करने से बचा जा सकता है.
- कीमत: कैश मेमोरी में सेव किए गए टोकन की संख्या और स्टोरेज की अवधि (टीटीएल) के आधार पर बिल किया जाता है.
- इसके लिए सबसे सही विकल्प: ऐसे चैटबॉट जिनमें सिस्टम के लिए ज़्यादा निर्देश दिए गए हों, लंबी वीडियो फ़ाइलों का बार-बार विश्लेषण करना या दस्तावेज़ों के बड़े सेट के लिए क्वेरी करना.