प्राथमिकता के आधार पर अनुमान लगाना
Gemini Priority API, अनुमान लगाने के लिए प्रीमियम टियर है. इसे कारोबार के लिए ज़रूरी वर्कलोड के लिए डिज़ाइन किया गया है. इसके लिए, कम इंतज़ार के समय और सबसे ज़्यादा भरोसेमंद नतीजे पाने की ज़रूरत होती है. इसके लिए, प्रीमियम कीमत चुकानी पड़ती है. प्रायोरिटी टियर के ट्रैफ़िक को स्टैंडर्ड एपीआई और फ़्लेक्स टियर के ट्रैफ़िक से ज़्यादा प्राथमिकता दी जाती है.
प्राथमिकता के आधार पर अनुमान लगाने की सुविधा, Interactions API के सभी एंडपॉइंट पर उपलब्ध है.
'प्राथमिकता' फ़ील्ड का इस्तेमाल करने का तरीका
प्राथमिकता वाले टियर का इस्तेमाल करने के लिए, अपने अनुरोध में service_tier फ़ील्ड को priority पर सेट करें. अगर फ़ील्ड मौजूद नहीं है, तो डिफ़ॉल्ट टियर स्टैंडर्ड होता है.
Python
from google import genai
client = genai.Client()
try:
interaction = client.interactions.create(
model="gemini-3-flash-preview",
input="Triage this critical customer support ticket immediately.",
service_tier='priority'
)
# Validate for graceful downgrade
# Note: Checking headers might vary by SDK implementation, this is illustrative
# if interaction.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
# print("Warning: Priority limit exceeded, processed at Standard tier.")
print(interaction.steps[-1].content[0].text)
except Exception as e:
print(f"Error during API call: {e}")
JavaScript
import { GoogleGenAI } from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const interaction = await ai.interactions.create({
model: "gemini-3-flash-preview",
input: "Triage this critical customer support ticket immediately.",
serviceTier: "priority"
});
// Validate for graceful downgrade
// if (interaction.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
// console.log("Warning: Priority limit exceeded, processed at Standard tier.");
// }
console.log(interaction.steps.at(-1).content[0].text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
REST
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "Content-Type: application/json" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-d '{
"model": "gemini-3-flash-preview",
"input": "Triage this critical customer support ticket immediately.",
"service_tier": "priority"
}'
प्राथमिकता का अनुमान लगाने की सुविधा कैसे काम करती है
प्राथमिकता के आधार पर अनुमान लगाने की सुविधा, अनुरोधों को कंप्यूटिंग की ज़्यादा ज़रूरी कतारों पर भेजती है. इससे, लोगों के लिए उपलब्ध ऐप्लिकेशन के लिए अनुमान लगाने की सुविधा, भरोसेमंद और तेज़ी से काम करती है. इसका मुख्य तरीका यह है कि सर्वर-साइड पर, डाइनैमिक सीमाओं से ज़्यादा ट्रैफ़िक के लिए, स्टैंडर्ड प्रोसेसिंग पर डाउनग्रेड किया जाता है. इससे अनुरोध को पूरा न करने के बजाय, ऐप्लिकेशन की स्थिरता बनी रहती है.
| सुविधा | प्राथमिकता | स्टैंडर्ड | Flex | बैच |
|---|---|---|---|---|
| कीमत | स्टैंडर्ड से 75 से 100% ज़्यादा | फ़ुल टिकट | 50% की छूट | 50% की छूट |
| लेटेंसी | सेकंड | सेकंड से मिनट | मिनट (1 से 15 मिनट का टारगेट) | 24 घंटे तक |
| भरोसेमंद होना | ज़्यादा (नहीं बदले जा सकने वाले) | ज़्यादा / सामान्य से ज़्यादा | सबसे अच्छी कोशिश (शेड किया जा सकता है) | ज़्यादा (थ्रूपुट के लिए) |
| इंटरफ़ेस | सिंक्रोनस | सिंक्रोनस | सिंक्रोनस | एसिंक्रोनस |
मुख्य फ़ायदे
- कम समय में जवाब मिलना: इसे इंटरैक्टिव और उपयोगकर्ता के लिए उपलब्ध एआई टूल के लिए डिज़ाइन किया गया है, ताकि ये टूल कुछ ही सेकंड में जवाब दे सकें.
- ज़्यादा भरोसेमंद: ट्रैफ़िक को सबसे ज़्यादा प्राथमिकता दी जाती है और इसे किसी भी हाल में कम नहीं किया जा सकता.
- ग्रेसफ़ुल डिग्रेडेशन: डाइनैमिक सीमाओं से ज़्यादा ट्रैफ़िक बढ़ने पर, उसे प्रोसेस करने के लिए स्टैंडर्ड टियर पर अपने-आप डाउनग्रेड कर दिया जाता है. इससे सेवा में रुकावट नहीं आती.
- कम रुकावट: यह स्टैंडर्ड और फ़्लेक्स टियर की तरह ही, सिंक्रोनस
createतरीके का इस्तेमाल करता है.
उपयोग के उदाहरण
प्रायॉरिटी प्रोसेसिंग, कारोबार के लिए ज़रूरी उन वर्कफ़्लो के लिए सबसे सही है जहां परफ़ॉर्मेंस और भरोसेमंद होना सबसे ज़रूरी है.
- इंटरैक्टिव एआई ऐप्लिकेशन: ग्राहक सेवा के लिए चैटबॉट और कोपायलट. इनमें उपयोगकर्ता प्रीमियम चुकाते हैं और उन्हें तेज़ी से और लगातार जवाब मिलने की उम्मीद होती है.
- रीयल-टाइम में फ़ैसले लेने वाले इंजन: ऐसे सिस्टम जिनके लिए भरोसेमंद और कम समय में नतीजे पाना ज़रूरी होता है. जैसे, लाइव टिकट की प्राथमिकता तय करना या धोखाधड़ी का पता लगाना.
- पैसे चुकाकर इस्तेमाल की जाने वाली सुविधाओं के लिए ग्राहक सहायता: ऐसे डेवलपर जिन्हें पैसे चुकाकर इस्तेमाल की जाने वाली सुविधाओं के लिए, सेवा स्तर के लक्ष्यों (एसएलओ) को पूरा करने की गारंटी देनी होती है.
तय सीमाएं
प्रायोरिटी के साथ इस्तेमाल करने पर, दर से जुड़ी अपनी सीमाएं लागू होती हैं. भले ही, इस्तेमाल को इंटरैक्टिव ट्रैफ़िक की दर से जुड़ी कुल सीमाओं में गिना जाता हो. प्राथमिकता का अनुमान लगाने के लिए, डिफ़ॉल्ट रूप से तय की गई दर की सीमाएं मॉडल / टियर के लिए, दर की स्टैंडर्ड सीमा का 0.3 गुना होती हैं
ग्रेसफ़ुल डाउनग्रेड लॉजिक
अगर नेटवर्क में ज़्यादा ट्रैफ़िक होने की वजह से, प्राथमिकता वाले अनुरोधों की सीमाएं पार हो जाती हैं, तो ज़्यादा अनुरोधों को 503 या 429 गड़बड़ी के साथ फ़ेल करने के बजाय, अपने-आप और आसानी से स्टैंडर्ड प्रोसेसिंग पर डाउनग्रेड कर दिया जाता है. डाउनग्रेड किए गए अनुरोधों के लिए, स्टैंडर्ड दर के हिसाब से बिल भेजा जाता है. इसके लिए, Priority प्रीमियम दर लागू नहीं होती.
क्लाइंट की ज़िम्मेदारी
- जवाब की निगरानी करना: डेवलपर को एपीआई के जवाब में
x-gemini-service-tierहेडर की निगरानी करनी चाहिए, ताकि यह पता लगाया जा सके कि अनुरोधों को बार-बारstandardपर डाउनग्रेड किया जा रहा है या नहीं. - फिर से कोशिश करना: क्लाइंट को, स्टैंडर्ड गड़बड़ियों के लिए फिर से कोशिश करने का लॉजिक/एक्सपोनेंशियल बैकऑफ़ लागू करना होगा. जैसे,
DEADLINE_EXCEEDED.
कीमत
प्राथमिकता के आधार पर अनुमान लगाने की सुविधा की कीमत, स्टैंडर्ड एपीआई से 75 से 100% ज़्यादा होती है. साथ ही, इसके लिए हर टोकन के हिसाब से बिल भेजा जाता है.
इन मॉडल के साथ काम करता है
इन मॉडल में, प्राथमिकता के आधार पर अनुमान लगाने की सुविधा काम करती है:
| मॉडल | प्राथमिकता के आधार पर अनुमान लगाना |
|---|---|
| Gemini 3.1 Flash-Lite | ✔️ |
| Gemini 3.1 Flash-Lite की झलक | ✔️ |
| Gemini 3.1 Pro की झलक | ✔️ |
| Gemini 3 Flash की झलक | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |
आगे क्या करना है
- लागत कम करने के लिए, फ़्लेक्स इन्फ़रेंस का इस्तेमाल करें.
- टोकन: टोकन के बारे में जानें.