Gemini API की मदद से ऑप्टिमाइज़ेशन और अनुमान लगाना

Gemini API, ऑप्टिमाइज़ेशन के कई तरीके उपलब्ध कराता है. इनकी मदद से, अपने वर्कलोड की ज़रूरतों के हिसाब से स्पीड, लागत, और भरोसेमंद तरीके से काम करने की क्षमता को बैलेंस किया जा सकता है. चाहे आपको रीयल-टाइम में बातचीत करने वाले बॉट बनाने हों या ऑफ़लाइन डेटा प्रोसेसिंग की पाइपलाइन चलाने हों, सही पैराडाइम चुनने से लागत में काफ़ी कमी आ सकती है या परफ़ॉर्मेंस बेहतर हो सकती है.

सुविधा स्टैंडर्ड Flex प्राथमिकता बैच कैश मेमोरी में सेव करना
कीमत पूरी कीमत 50% की छूट स्टैंडर्ड से 75% से 100% ज़्यादा 50% की छूट टोकन स्टोरेज के लिए, इस्तेमाल के हिसाब से शुल्क
लेटेंसी सेकंड से मिनट मिनट (1 से 15 मिनट का टारगेट) कम (सेकंड) 24 घंटे तक टाइम-टू-फ़र्स्ट-टोकन कम होता है
भरोसेमंद होना ज़्यादा / सामान्य से ज़्यादा सबसे अच्छी कोशिश (शेड किया जा सकता है) ज़्यादा (नहीं बदले जा सकने वाले) ज़्यादा (थ्रूपुट के लिए) लागू नहीं
इंटरफ़ेस सिंक्रोनस सिंक्रोनस सिंक्रोनस एसिंक्रोनस सेव की गई स्थिति
इस्तेमाल का सबसे सही उदाहरण ऐप्लिकेशन के सामान्य वर्कफ़्लो कम ज़रूरी, क्रम से की जाने वाली चेन उपयोगकर्ताओं के लिए उपलब्ध ऐप्लिकेशन बड़े डेटासेट, ऑफ़लाइन आकलन एक ही फ़ाइल पर बार-बार क्वेरी करना

अनुमान लगाने की सेवा के टियर (सिंक्रोनस)

अपने स्टैंडर्ड जनरेशन कॉल में service_tier पैरामीटर पास करके, लेटेंसी के लिए ऑप्टिमाइज़ किए गए और लागत के लिए ऑप्टिमाइज़ किए गए सिंक्रोनस ट्रैफ़िक के बीच स्विच किया जा सकता है.

स्टैंडर्ड अनुमान (डिफ़ॉल्ट)

क्रम से कॉन्टेंट जनरेट करने के लिए, स्टैंडर्ड टियर डिफ़ॉल्ट विकल्प होता है. यह बिना किसी अतिरिक्त प्रीमियम या लंबी कतार के, सामान्य समय में जवाब देता है.

  • लेटेंसी: कुछ सेकंड से लेकर कुछ मिनट तक.
  • कीमत: स्टैंडर्ड प्राइसिंग.
  • इसके लिए सबसे अच्छा है: रोज़ाना इस्तेमाल होने वाले ज़्यादातर इंटरैक्टिव ऐप्लिकेशन.

प्राथमिकता के आधार पर अनुमान लगाना (लेटेंसी के लिए ऑप्टिमाइज़ किया गया)

प्राथमिकता के आधार पर प्रोसेस करने की सुविधा से, आपके अनुरोधों को कंप्यूटिंग के लिए सबसे ज़रूरी कतारों में भेजा जाता है. इस ट्रैफ़िक को कभी भी कम नहीं किया जा सकता. इसका मतलब है कि इसे अन्य टियर से कभी भी नहीं रोका जाता. साथ ही, यह सबसे ज़्यादा भरोसेमंद होता है. अगर डाइनैमिक प्राथमिकता की सीमाओं का उल्लंघन किया जाता है, तो सिस्टम गड़बड़ी दिखाने के बजाय, अनुरोध को स्टैंडर्ड प्रोसेसिंग पर डाउनग्रेड कर देगा.

  • लेटेंसी: बहुत कम (मिलीसेकंड से लेकर सेकंड तक).
  • कीमत: स्टैंडर्ड दरों से 75% से 100% ज़्यादा.
  • सबसे सही विकल्प: लाइव ग्राहक चैटबॉट, रीयल-टाइम में धोखाधड़ी का पता लगाने वाले टूल, और कारोबार के लिए ज़रूरी कोपायलट.

फ़्लेक्सिबल इन्फ़्रेंस (लागत के हिसाब से ऑप्टिमाइज़ किया गया)

फ़्लेक्स इन्फ़्रेंस में, स्टैंडर्ड दरों की तुलना में 50% की छूट मिलती है. ऐसा इसलिए होता है, क्योंकि इसमें कंप्यूटिंग के लिए, ऑफ़-पीक समय में उपलब्ध क्षमता का इस्तेमाल किया जाता है. अनुरोधों को सिंक्रोनस तरीके से प्रोसेस किया जाता है. इसका मतलब है कि बैच ऑब्जेक्ट को मैनेज करने के लिए, आपको कोड फिर से लिखने की ज़रूरत नहीं है. यह "शेड किया जा सकने वाला" ट्रैफ़िक है. इसलिए, अगर सिस्टम में ट्रैफ़िक में अचानक बढ़ोतरी होती है, तो अनुरोधों को रोका जा सकता है.

  • लेटेंसी: इसकी कोई गारंटी नहीं है. हालांकि, हमारा टारगेट 1 से 15 मिनट का है.
  • कीमत: स्टैंडर्ड कीमत का 50% (हर टोकन के हिसाब से बिल किया जाता है).
  • इसके लिए सबसे सही: कई चरणों वाले एजेंटिक वर्कफ़्लो, जहां कॉल N+1, कॉल N के आउटपुट पर निर्भर करता है. साथ ही, बैकग्राउंड में सीआरएम अपडेट और ऑफ़लाइन आकलन.

बैच एपीआई (बल्क, असिंक्रोनस)

Batch API को एक साथ कई अनुरोधों को प्रोसेस करने के लिए डिज़ाइन किया गया है. यह काम एसिंक्रोनस तरीके से होता है. इसके लिए, सामान्य शुल्क का 50% लिया जाता है. अनुरोधों को इन-लाइन डिक्शनरी के तौर पर सबमिट किया जा सकता है. इसके अलावा, JSONL इनपुट फ़ाइल (दो जीबी तक) का इस्तेमाल करके भी अनुरोध सबमिट किए जा सकते हैं. यह अनुरोधों को प्रोसेस करने के लिए, बैकग्राउंड थ्रूपुट कतारों का इस्तेमाल करता है. इसका टारगेट टर्नअराउंड समय 24 घंटे है.

  • लेटेंसी: ज़्यादा (24 घंटे तक).
  • कीमत: स्टैंडर्ड कीमत का 50%.
  • इसके लिए सबसे सही है: बड़े डेटासेट की प्री-प्रोसेसिंग, समय-समय पर रिग्रेशन टेस्ट सुइट चलाना, और बड़ी संख्या में इमेज या एम्बेड जनरेट करना.

कॉन्टेक्स्ट को कैश मेमोरी में सेव करना (इनपुट सेव करना)

कॉन्टेक्स्ट को कैश मेमोरी में सेव करने की सुविधा का इस्तेमाल तब किया जाता है, जब शुरुआती कॉन्टेक्स्ट को छोटे अनुरोधों में बार-बार रेफ़र किया जाता है.

  • इंप्लिसिट कैश मेमोरी: यह सुविधा, Gemini 2.5 और इसके बाद के मॉडल पर अपने-आप चालू हो जाती है. अगर आपका अनुरोध, प्रॉम्प्ट के सामान्य प्रीफ़िक्स के आधार पर मौजूदा कैश मेमोरी से मेल खाता है, तो सिस्टम लागत में हुई बचत को आगे बढ़ा देता है.
  • एक्सप्लिसिट कैशिंग: आपके पास किसी खास टाइम-टू-लिव (टीटीएल) के साथ, कैश ऑब्जेक्ट को मैन्युअल तरीके से बनाने का विकल्प होता है. एक बार टोकन बन जाने के बाद, बाद के अनुरोधों के लिए कैश मेमोरी में सेव किए गए टोकन का इस्तेमाल किया जाता है. इससे एक ही कॉर्पस पेलोड को बार-बार पास करने से बचा जा सकता है.
  • कीमत: बिलिंग, कैश मेमोरी के टोकन की संख्या और स्टोरेज की अवधि (टीटीएल) के आधार पर की जाती है.
  • इनके लिए सबसे सही: ऐसे चैटबॉट जिनमें सिस्टम के लिए कई निर्देश दिए गए हों, लंबी वीडियो फ़ाइलों का बार-बार विश्लेषण करना हो या बड़े दस्तावेज़ सेट के ख़िलाफ़ क्वेरी करनी हो.