Gemini API की मदद से ऑप्टिमाइज़ेशन और अनुमान लगाना

Gemini API, ऑप्टिमाइज़ेशन के कई तरीके उपलब्ध कराता है. इनकी मदद से, अपने वर्कलोड की ज़रूरतों के हिसाब से स्पीड, लागत, और भरोसेमंद तरीके से काम करने की क्षमता को बैलेंस किया जा सकता है. चाहे आपको रीयल-टाइम में बातचीत करने वाले बॉट बनाने हों या ऑफ़लाइन डेटा प्रोसेसिंग की पाइपलाइन चलाने हों, सही पैराडाइम चुनने से लागत में काफ़ी कमी आ सकती है या परफ़ॉर्मेंस बेहतर हो सकती है.

सुविधा स्टैंडर्ड Flex प्राथमिकता बैच कैश मेमोरी में सेव करना
कीमत पूरी कीमत 50% की छूट स्टैंडर्ड से 75% से 100% ज़्यादा 50% की छूट 90% की छूट + टोकन के लिए स्टोरेज का प्रोरेटेड शुल्क
लेटेंसी सेकंड से मिनट मिनट (1 से 15 मिनट का टारगेट) सेकंड 24 घंटे तक टाइम-टू-फ़र्स्ट-टोकन कम होता है
भरोसेमंद होना ज़्यादा / सामान्य से ज़्यादा पूरी कोशिश (शेड किया जा सकता है) ज़्यादा (नहीं झड़ने वाले) ज़्यादा (थ्रूपुट के लिए) लागू नहीं
इंटरफ़ेस सिंक्रोनस सिंक्रोनस सिंक्रोनस एसिंक्रोनस सेव की गई स्थिति
इस्तेमाल का सबसे सही उदाहरण ऐप्लिकेशन के सामान्य वर्कफ़्लो कम ज़रूरी, क्रम से की जाने वाली चेन उपयोगकर्ताओं के लिए उपलब्ध ऐप्लिकेशन बड़े डेटासेट, ऑफ़लाइन आकलन एक ही फ़ाइल के लिए बार-बार क्वेरी करना

अनुमान लगाने की सेवा के टियर (सिंक्रोनस)

अपने स्टैंडर्ड जनरेशन कॉल में service_tier पैरामीटर पास करके, रिलायबिलिटी-ऑप्टिमाइज़ किए गए और लागत-ऑप्टिमाइज़ किए गए सिंक्रोनस ट्रैफ़िक के बीच स्विच किया जा सकता है.

स्टैंडर्ड अनुमान (डिफ़ॉल्ट)

क्रम से कॉन्टेंट जनरेट करने के लिए, स्टैंडर्ड टियर डिफ़ॉल्ट विकल्प होता है. यह बिना किसी अतिरिक्त प्रीमियम या लंबी कतार के, सामान्य समय में जवाब देता है.

  • भरोसेमंद: सामान्य
  • कीमत: स्टैंडर्ड कीमत.
  • इसके लिए सबसे अच्छा है: रोज़ाना इस्तेमाल होने वाले ज़्यादातर इंटरैक्टिव ऐप्लिकेशन.

प्राथमिकता के आधार पर अनुमान लगाना (लेटेंसी के लिए ऑप्टिमाइज़ किया गया)

प्राथमिकता के आधार पर प्रोसेस करने की सुविधा से, आपके अनुरोधों को कंप्यूटिंग की सबसे ज़रूरी कतारों में भेजा जाता है. इस ट्रैफ़िक को कभी भी कम नहीं किया जा सकता. इसका मतलब है कि इसे अन्य टियर से कभी भी नहीं रोका जाता. साथ ही, यह सबसे ज़्यादा भरोसेमंद होता है. अगर डाइनैमिक प्राथमिकता की सीमाओं का उल्लंघन किया जाता है, तो सिस्टम गड़बड़ी दिखाने के बजाय, अनुरोध को स्टैंडर्ड प्रोसेसिंग पर डाउनग्रेड कर देगा.

  • भरोसेमंद: सबसे ज़्यादा ज़रूरी
  • कीमत: स्टैंडर्ड दरों से 75% से 100% ज़्यादा.
  • सबसे सही विकल्प: ग्राहक सेवा के लिए चैटबॉट, रीयल-टाइम में धोखाधड़ी का पता लगाने वाले टूल, और कारोबार के लिए ज़रूरी कोपायलट.

फ़्लेक्सिबल इन्फ़्रेंस (लागत के हिसाब से ऑप्टिमाइज़ किया गया)

फ़्लेक्स इन्फ़रेंस की सुविधा, स्टैंडर्ड दरों की तुलना में 50% की छूट देती है. ऐसा इसलिए, क्योंकि यह सुविधा कंप्यूटिंग के लिए, ऑफ़-पीक समय में उपलब्ध क्षमता का इस्तेमाल करती है. अनुरोधों को सिंक्रोनस तरीके से प्रोसेस किया जाता है. इसका मतलब है कि बैच ऑब्जेक्ट को मैनेज करने के लिए, आपको कोड फिर से लिखने की ज़रूरत नहीं है. यह "शेड किए जा सकने वाले" ट्रैफ़िक के तौर पर माना जाता है. इसलिए, अगर सिस्टम में स्टैंडर्ड ट्रैफ़िक बढ़ता है, तो अनुरोधों को रोका जा सकता है.

  • भरोसेमंद: गारंटी नहीं है, कम हो सकती है
  • कीमत: स्टैंडर्ड कीमत का 50% (हर टोकन के हिसाब से बिल किया जाता है).
  • इसके लिए सबसे सही: कई चरणों वाले एजेंटिक वर्कफ़्लो, जहां कॉल N+1, कॉल N के आउटपुट पर निर्भर करता है. साथ ही, बैकग्राउंड में सीआरएम अपडेट और ऑफ़लाइन आकलन.

बैच एपीआई (बल्क, असिंक्रोनस)

Batch API को एक साथ कई अनुरोधों को प्रोसेस करने के लिए डिज़ाइन किया गया है. यह काम, स्टैंडर्ड शुल्क के 50% पर किया जाता है. अनुरोधों को इन-लाइन डिक्शनरी के तौर पर सबमिट किया जा सकता है. इसके अलावा, JSONL इनपुट फ़ाइल (दो जीबी तक) का इस्तेमाल करके भी अनुरोध सबमिट किए जा सकते हैं. यह अनुरोधों को प्रोसेस करने के लिए, बैकग्राउंड थ्रूपुट कतारों का इस्तेमाल करता है. इसका टारगेट टर्नअराउंड टाइम 24 घंटे है.

  • भरोसेमंद: यह सुविधा उपलब्ध नहीं है. हालांकि, 24 घंटे में अपने-आप फिर से कोशिश करने और क्यूइंग सिस्टम की सुविधा उपलब्ध है
  • कीमत: स्टैंडर्ड कीमत का 50%.
  • इसके लिए सबसे सही: बड़े डेटासेट की प्री-प्रोसेसिंग, समय-समय पर रिग्रेशन टेस्ट सुइट चलाना, और बड़ी संख्या में इमेज या एम्बेड जनरेट करना.

कॉन्टेक्स्ट को कैश मेमोरी में सेव करना (इनपुट सेव करना)

कॉन्टेक्स्ट को कैश मेमोरी में सेव करने की सुविधा का इस्तेमाल तब किया जाता है, जब शुरुआती कॉन्टेक्स्ट को छोटे अनुरोधों में बार-बार रेफ़र किया जाता है.

  • इंप्लिसिट कैश मेमोरी: यह सुविधा, Gemini 2.5 और इसके बाद के मॉडल पर अपने-आप चालू हो जाती है. अगर आपका अनुरोध, प्रॉम्प्ट के सामान्य प्रीफ़िक्स के आधार पर मौजूदा कैश मेमोरी से मेल खाता है, तो सिस्टम लागत में हुई बचत को आगे बढ़ा देता है.
  • एक्सप्लिसिट कैशिंग: मैन्युअल तरीके से, टाइम-टू-लिव (टीटीएल) के साथ कैश ऑब्जेक्ट बनाया जा सकता है. एक बार टोकन बन जाने के बाद, बाद के अनुरोधों के लिए कैश मेमोरी में सेव किए गए टोकन का इस्तेमाल किया जाता है. इससे एक ही कॉर्पस पेलोड को बार-बार पास करने से बचा जा सकता है.
  • कीमत: बिलिंग, कैश मेमोरी के टोकन की संख्या और स्टोरेज की अवधि (टीटीएल) के आधार पर की जाती है.
  • इनके लिए सबसे सही: ऐसे चैटबॉट जिनके लिए सिस्टम के निर्देशों की ज़रूरत होती है, लंबी वीडियो फ़ाइलों का बार-बार विश्लेषण करना होता है या बड़े दस्तावेज़ सेट के ख़िलाफ़ क्वेरी करनी होती है.