प्रायॉरिटी इन्फ़रेंस
Gemini Priority API, प्रीमियम इन्फ़रेंस टियर है. इसे कारोबार के लिए ज़रूरी उन वर्कलोड के लिए डिज़ाइन किया गया है जिनके लिए कम इंतज़ार का समय और सबसे ज़्यादा भरोसेमंद परफ़ॉर्मेंस की ज़रूरत होती है. इसके लिए, प्रीमियम कीमत चुकानी पड़ती है. प्रायॉरिटी टियर के ट्रैफ़िक को, स्टैंडर्ड एपीआई और Flex टियर के ट्रैफ़िक से ज़्यादा प्राथमिकता दी जाती है.
प्रायॉरिटी इन्फ़रेंस, इंटरैक्शन एपीआई के सभी एंडपॉइंट पर उपलब्ध है.
प्रायॉरिटी का इस्तेमाल करने का तरीका
प्रायॉरिटी टियर का इस्तेमाल करने के लिए, अपने अनुरोध में service_tier फ़ील्ड को priority पर सेट करें. अगर फ़ील्ड को छोड़ दिया जाता है, तो डिफ़ॉल्ट टियर स्टैंडर्ड होता है.
Python
# This will only work for SDK newer than 2.0.0
from google import genai
client = genai.Client()
try:
interaction = client.interactions.create(
model="gemini-3-flash-preview",
input="Triage this critical customer support ticket immediately.",
service_tier='priority'
)
# Validate for graceful downgrade
# Note: Checking headers might vary by SDK implementation, this is illustrative
# if interaction.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
# print("Warning: Priority limit exceeded, processed at Standard tier.")
print(interaction.steps[-1].content[0].text)
except Exception as e:
print(f"Error during API call: {e}")
JavaScript
// This will only work for SDK newer than 2.0.0
import { GoogleGenAI } from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const interaction = await ai.interactions.create({
model: "gemini-3-flash-preview",
input: "Triage this critical customer support ticket immediately.",
service_tier: "priority"
});
// Validate for graceful downgrade
// if (interaction.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
// console.log("Warning: Priority limit exceeded, processed at Standard tier.");
// }
console.log(interaction.steps.at(-1).content[0].text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
REST
# Specifies the API revision to avoid breaking changes when they become default
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "Content-Type: application/json" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Api-Revision: 2026-05-20" \
-d '{
"model": "gemini-3-flash-preview",
"input": "Triage this critical customer support ticket immediately.",
"service_tier": "priority"
}'
प्रायॉरिटी इन्फ़रेंस कैसे काम करता है
प्रायॉरिटी इन्फ़रेंस, अनुरोधों को हाई-क्रिटिकैलिटी कंप्यूटिंग क्यू में भेजता है. इससे, उपयोगकर्ता के लिए बने ऐप्लिकेशन के लिए, अनुमान के मुताबिक और तेज़ परफ़ॉर्मेंस मिलती है. इसका मुख्य तरीका यह है कि डाइनैमिक सीमाओं से ज़्यादा ट्रैफ़िक होने पर, सर्वर-साइड पर स्टैंडर्ड प्रोसेसिंग में डाउनग्रेड किया जाता है. इससे अनुरोध को फ़ेल करने के बजाय, ऐप्लिकेशन की स्थिरता बनी रहती है.
| सुविधा | प्रायॉरिटी | स्टैंडर्ड | Flex | बैच |
|---|---|---|---|---|
| कीमत | स्टैंडर्ड से 75-100% ज़्यादा | फ़ुल टिकट | 50% की छूट | 50% की छूट |
| Latency | सेकंड | सेकंड से मिनट | मिनट (1–15 मिनट का टारगेट) | 24 घंटे लग सकते हैं |
| भरोसेमंद परफ़ॉर्मेंस | ज़्यादा (इसे कम नहीं किया जा सकता) | ज़्यादा / मीडियम-ज़्यादा | पूरी कोशिश (इसे कम किया जा सकता है) | ज़्यादा (थ्रूपुट के लिए) |
| इंटरफ़ेस | सिंक्रोनस | सिंक्रोनस | सिंक्रोनस | एसिंक्रोनस |
मुख्य फ़ायदे
- कम इंतज़ार का समय: इसे इंटरैक्टिव, उपयोगकर्ता के लिए बने एआई टूल के लिए, दूसरे रिस्पॉन्स टाइम के लिए डिज़ाइन किया गया है.
- ज़्यादा भरोसेमंद परफ़ॉर्मेंस: ट्रैफ़िक को सबसे ज़्यादा प्राथमिकता दी जाती है और इसे कम नहीं किया जा सकता.
- अनुकूल गिरावट: डाइनैमिक सीमाओं से ज़्यादा ट्रैफ़िक स्पाइक होने पर, इसे प्रोसेस करने के लिए स्टैंडर्ड टियर में अपने-आप डाउनग्रेड कर दिया जाता है. इससे, सेवा में रुकावट नहीं आती.
- कम मुश्किल: स्टैंडर्ड और Flex टियर की तरह ही, सिंक्रोनस
createतरीके का इस्तेमाल करता है.
इस्तेमाल के उदाहरण
प्रायॉरिटी प्रोसेसिंग, कारोबार के लिए ज़रूरी उन वर्कफ़्लो के लिए सबसे सही है जिनमें परफ़ॉर्मेंस और भरोसेमंद परफ़ॉर्मेंस सबसे अहम होती है.
- इंटरैक्टिव एआई ऐप्लिकेशन: ग्राहक सेवा के चैटबॉट और कोपायलट. इनमें उपयोगकर्ता प्रीमियम चुकाते हैं और उन्हें तेज़ और लगातार जवाब मिलने की उम्मीद होती है.
- रीयल-टाइम डिसिजन इंजन: ऐसे सिस्टम जिनमें ज़्यादा भरोसेमंद और कम इंतज़ार के समय वाले नतीजों की ज़रूरत होती है. जैसे, लाइव टिकट ट्राइएज या धोखाधड़ी का पता लगाना.
- प्रीमियम ग्राहकों के लिए सुविधाएं: ऐसे डेवलपर जिन्हें पैसे चुकाने वाले ग्राहकों के लिए, बेहतर सर्विस लेवल ऑब्जेक्टिव (एसएलओ) की गारंटी देनी होती है.
दर की सीमाएं
प्रायॉरिटी के इस्तेमाल के लिए, दर की अपनी सीमाएं होती हैं. हालांकि, इसके इस्तेमाल को इंटरैक्टिव ट्रैफ़िक की दर की कुल सीमाओं में गिना जाता है. प्रायॉरिटी इन्फ़रेंस के लिए, दर की डिफ़ॉल्ट सीमाएं मॉडल / टियर के लिए, दर की स्टैंडर्ड सीमा का 0.3 गुना होती हैं
अनुकूल डाउनग्रेड लॉजिक
अगर कंजेशन की वजह से, प्रायॉरिटी की सीमाएं पार हो जाती हैं, तो ओवरफ़्लो अनुरोधों को अपने-आप और आसानी से स्टैंडर्ड प्रोसेसिंग में डाउनग्रेड कर दिया जाता है. ऐसा 503 या 429 गड़बड़ी के साथ फ़ेल होने के बजाय किया जाता है. डाउनग्रेड किए गए अनुरोधों के लिए, प्रायॉरिटी की प्रीमियम दर के बजाय, स्टैंडर्ड दर के हिसाब से बिल भेजा जाता है.
क्लाइंट की ज़िम्मेदारी
- जवाब की निगरानी करना: डेवलपर को एपीआई के जवाब में,
x-gemini-service-tierहेडर की निगरानी करनी चाहिए, ताकि यह पता लगाया जा सके कि अनुरोधों को बार-बारstandardमें डाउनग्रेड किया जा रहा है या नहीं. - फिर से कोशिश करना: क्लाइंट को,
स्टैंडर्ड गड़बड़ियों के लिए, फिर से कोशिश करने का लॉजिक/एक्सपोनेंशियल बैकऑफ़ लागू करना होगा, जैसे
DEADLINE_EXCEEDED.
कीमत
प्रायॉरिटी इन्फ़रेंस की कीमत, स्टैंडर्ड एपीआई से 75-100% ज़्यादा होती है. इसके लिए, हर टोकन के हिसाब से बिल भेजा जाता है.
काम करने वाले मॉडल
प्रायॉरिटी इन्फ़रेंस के साथ ये मॉडल काम करते हैं:
| मॉडल | प्रायॉरिटी इन्फ़रेंस |
|---|---|
| Gemini 3.1 Flash-Lite | ✔️ |
| Gemini 3.1 Flash-Lite का प्रीव्यू | ✔️ |
| Gemini 3.1 Pro का प्रीव्यू | ✔️ |
| Gemini 3 Flash का प्रीव्यू | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |
आगे क्या करना है
- लागत कम करने के लिए, Flex इन्फ़रेंस.
- टोकन: टोकन के बारे में जानें.