Gemini API, ऑप्टिमाइज़ेशन के कई तरीके उपलब्ध कराता है. इनकी मदद से, अपने वर्कलोड की ज़रूरतों के हिसाब से स्पीड, लागत, और भरोसेमंद तरीके से काम करने की क्षमता को बैलेंस किया जा सकता है. चाहे आपको रीयल-टाइम में बातचीत करने वाले बॉट बनाने हों या ऑफ़लाइन डेटा प्रोसेसिंग की पाइपलाइन चलाने हों, सही पैराडाइम चुनने से लागत में काफ़ी कमी आ सकती है या परफ़ॉर्मेंस बेहतर हो सकती है.
| सुविधा | स्टैंडर्ड | Flex | प्राथमिकता | बैच | कैश मेमोरी में सेव करना |
|---|---|---|---|---|---|
| कीमत | पूरी कीमत | 50% की छूट | स्टैंडर्ड से 75% से 100% ज़्यादा | 50% की छूट | टोकन स्टोरेज के लिए, इस्तेमाल के हिसाब से शुल्क |
| लेटेंसी | सेकंड से मिनट | मिनट (1 से 15 मिनट का टारगेट) | कम (सेकंड) | 24 घंटे तक | टाइम-टू-फ़र्स्ट-टोकन कम होता है |
| भरोसेमंद होना | ज़्यादा / सामान्य से ज़्यादा | सबसे अच्छी कोशिश (शेड किया जा सकता है) | ज़्यादा (नहीं बदले जा सकने वाले) | ज़्यादा (थ्रूपुट के लिए) | लागू नहीं |
| इंटरफ़ेस | सिंक्रोनस | सिंक्रोनस | सिंक्रोनस | एसिंक्रोनस | सेव की गई स्थिति |
| इस्तेमाल का सबसे सही उदाहरण | ऐप्लिकेशन के सामान्य वर्कफ़्लो | कम ज़रूरी, क्रम से की जाने वाली चेन | उपयोगकर्ताओं के लिए उपलब्ध ऐप्लिकेशन | बड़े डेटासेट, ऑफ़लाइन आकलन | एक ही फ़ाइल पर बार-बार क्वेरी करना |
अनुमान लगाने की सेवा के टियर (सिंक्रोनस)
अपने स्टैंडर्ड जनरेशन कॉल में service_tier पैरामीटर पास करके, लेटेंसी के लिए ऑप्टिमाइज़ किए गए और लागत के लिए ऑप्टिमाइज़ किए गए सिंक्रोनस ट्रैफ़िक के बीच स्विच किया जा सकता है.
स्टैंडर्ड अनुमान (डिफ़ॉल्ट)
क्रम से कॉन्टेंट जनरेट करने के लिए, स्टैंडर्ड टियर डिफ़ॉल्ट विकल्प होता है. यह बिना किसी अतिरिक्त प्रीमियम या लंबी कतार के, सामान्य समय में जवाब देता है.
- लेटेंसी: कुछ सेकंड से लेकर कुछ मिनट तक.
- कीमत: स्टैंडर्ड प्राइसिंग.
- इसके लिए सबसे अच्छा है: रोज़ाना इस्तेमाल होने वाले ज़्यादातर इंटरैक्टिव ऐप्लिकेशन.
प्राथमिकता के आधार पर अनुमान लगाना (लेटेंसी के लिए ऑप्टिमाइज़ किया गया)
प्राथमिकता के आधार पर प्रोसेस करने की सुविधा से, आपके अनुरोधों को कंप्यूटिंग के लिए सबसे ज़रूरी कतारों में भेजा जाता है. इस ट्रैफ़िक को कभी भी कम नहीं किया जा सकता. इसका मतलब है कि इसे अन्य टियर से कभी भी नहीं रोका जाता. साथ ही, यह सबसे ज़्यादा भरोसेमंद होता है. अगर डाइनैमिक प्राथमिकता की सीमाओं का उल्लंघन किया जाता है, तो सिस्टम गड़बड़ी दिखाने के बजाय, अनुरोध को स्टैंडर्ड प्रोसेसिंग पर डाउनग्रेड कर देगा.
- लेटेंसी: बहुत कम (मिलीसेकंड से लेकर सेकंड तक).
- कीमत: स्टैंडर्ड दरों से 75% से 100% ज़्यादा.
- सबसे सही विकल्प: लाइव ग्राहक चैटबॉट, रीयल-टाइम में धोखाधड़ी का पता लगाने वाले टूल, और कारोबार के लिए ज़रूरी कोपायलट.
फ़्लेक्सिबल इन्फ़्रेंस (लागत के हिसाब से ऑप्टिमाइज़ किया गया)
फ़्लेक्स इन्फ़्रेंस में, स्टैंडर्ड दरों की तुलना में 50% की छूट मिलती है. ऐसा इसलिए होता है, क्योंकि इसमें कंप्यूटिंग के लिए, ऑफ़-पीक समय में उपलब्ध क्षमता का इस्तेमाल किया जाता है. अनुरोधों को सिंक्रोनस तरीके से प्रोसेस किया जाता है. इसका मतलब है कि बैच ऑब्जेक्ट को मैनेज करने के लिए, आपको कोड फिर से लिखने की ज़रूरत नहीं है. यह "शेड किया जा सकने वाला" ट्रैफ़िक है. इसलिए, अगर सिस्टम में ट्रैफ़िक में अचानक बढ़ोतरी होती है, तो अनुरोधों को रोका जा सकता है.
- लेटेंसी: इसकी कोई गारंटी नहीं है. हालांकि, हमारा टारगेट 1 से 15 मिनट का है.
- कीमत: स्टैंडर्ड कीमत का 50% (हर टोकन के हिसाब से बिल किया जाता है).
- इसके लिए सबसे सही: कई चरणों वाले एजेंटिक वर्कफ़्लो, जहां कॉल N+1, कॉल N के आउटपुट पर निर्भर करता है. साथ ही, बैकग्राउंड में सीआरएम अपडेट और ऑफ़लाइन आकलन.
बैच एपीआई (बल्क, असिंक्रोनस)
Batch API को एक साथ कई अनुरोधों को प्रोसेस करने के लिए डिज़ाइन किया गया है. यह काम एसिंक्रोनस तरीके से होता है. इसके लिए, सामान्य शुल्क का 50% लिया जाता है. अनुरोधों को इन-लाइन डिक्शनरी के तौर पर सबमिट किया जा सकता है. इसके अलावा, JSONL इनपुट फ़ाइल (दो जीबी तक) का इस्तेमाल करके भी अनुरोध सबमिट किए जा सकते हैं. यह अनुरोधों को प्रोसेस करने के लिए, बैकग्राउंड थ्रूपुट कतारों का इस्तेमाल करता है. इसका टारगेट टर्नअराउंड समय 24 घंटे है.
- लेटेंसी: ज़्यादा (24 घंटे तक).
- कीमत: स्टैंडर्ड कीमत का 50%.
- इसके लिए सबसे सही है: बड़े डेटासेट की प्री-प्रोसेसिंग, समय-समय पर रिग्रेशन टेस्ट सुइट चलाना, और बड़ी संख्या में इमेज या एम्बेड जनरेट करना.
कॉन्टेक्स्ट को कैश मेमोरी में सेव करना (इनपुट सेव करना)
कॉन्टेक्स्ट को कैश मेमोरी में सेव करने की सुविधा का इस्तेमाल तब किया जाता है, जब शुरुआती कॉन्टेक्स्ट को छोटे अनुरोधों में बार-बार रेफ़र किया जाता है.
- इंप्लिसिट कैश मेमोरी: यह सुविधा, Gemini 2.5 और इसके बाद के मॉडल पर अपने-आप चालू हो जाती है. अगर आपका अनुरोध, प्रॉम्प्ट के सामान्य प्रीफ़िक्स के आधार पर मौजूदा कैश मेमोरी से मेल खाता है, तो सिस्टम लागत में हुई बचत को आगे बढ़ा देता है.
- एक्सप्लिसिट कैशिंग: आपके पास किसी खास टाइम-टू-लिव (टीटीएल) के साथ, कैश ऑब्जेक्ट को मैन्युअल तरीके से बनाने का विकल्प होता है. एक बार टोकन बन जाने के बाद, बाद के अनुरोधों के लिए कैश मेमोरी में सेव किए गए टोकन का इस्तेमाल किया जाता है. इससे एक ही कॉर्पस पेलोड को बार-बार पास करने से बचा जा सकता है.
- कीमत: बिलिंग, कैश मेमोरी के टोकन की संख्या और स्टोरेज की अवधि (टीटीएल) के आधार पर की जाती है.
- इनके लिए सबसे सही: ऐसे चैटबॉट जिनमें सिस्टम के लिए कई निर्देश दिए गए हों, लंबी वीडियो फ़ाइलों का बार-बार विश्लेषण करना हो या बड़े दस्तावेज़ सेट के ख़िलाफ़ क्वेरी करनी हो.