Gemini Priority API, प्रीमियम इन्फ़रंस टियर है. इसे कारोबार के लिए ज़रूरी उन वर्कलोड के लिए डिज़ाइन किया गया है जिनमें इंतज़ार का समय कम होना चाहिए और सबसे ज़्यादा भरोसेमंद परफ़ॉर्मेंस मिलनी चाहिए. इसके लिए, प्रीमियम कीमत चुकानी पड़ती है. प्राथमिकता वाले टियर के ट्रैफ़िक को, स्टैंडर्ड एपीआई और Flex टियर के ट्रैफ़िक से ज़्यादा प्राथमिकता दी जाती है.
प्राथमिकता वाला अनुमान, Interactions API के सभी एंडपॉइंट पर उपलब्ध है.
प्राथमिकता वाले टियर का इस्तेमाल करने का तरीका
प्राथमिकता वाले टियर का इस्तेमाल करने के लिए, अपने अनुरोध में service_tier फ़ील्ड को priority पर सेट करें. अगर फ़ील्ड को छोड़ दिया जाता है, तो डिफ़ॉल्ट टियर स्टैंडर्ड होता है.
Python
from google import genai
client = genai.Client()
interaction = client.interactions.create(
model="gemini-3.5-flash",
input="Triage this critical customer support ticket immediately.",
service_tier='priority'
)
print(interaction.output_text)
JavaScript
import { GoogleGenAI } from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
const interaction = await ai.interactions.create({
model: "gemini-3.5-flash",
input: "Triage this critical customer support ticket immediately.",
service_tier: "priority"
});
console.log(interaction.output_text);
}
await main();
REST
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "Content-Type: application/json" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-d '{
"model": "gemini-3.5-flash",
"input": "Triage this critical customer support ticket immediately.",
"service_tier": "priority"
}'
प्राथमिकता वाला इन्फ़रंस कैसे काम करता है
प्राथमिकता वाला इन्फ़रंस, अनुरोधों को हाई-क्रिटिकैलिटी वाले कंप्यूट क्यू में भेजता है. इससे, उपयोगकर्ता के लिए बने ऐप्लिकेशन के लिए, अनुमान के मुताबिक और तेज़ परफ़ॉर्मेंस मिलती है. इसका मुख्य तरीका यह है कि डाइनैमिक सीमाओं से ज़्यादा ट्रैफ़िक होने पर, सर्वर-साइड पर स्टैंडर्ड प्रोसेसिंग पर डाउनग्रेड किया जाता है. इससे, अनुरोध को पूरा न करने के बजाय, ऐप्लिकेशन की स्थिरता बनी रहती है.
| सुविधा | प्राथमिकता | स्टैंडर्ड | Flex | बैच |
|---|---|---|---|---|
| कीमत | स्टैंडर्ड से 75-100% ज़्यादा | फ़ुल टिकट | 50% की छूट | 50% की छूट |
| इंतज़ार का समय | सेकंड | सेकंड से मिनट | मिनट (1–15 मिनट का टारगेट) | 24 घंटे लग सकते हैं |
| भरोसेमंद परफ़ॉर्मेंस | ज़्यादा (इसे कम नहीं किया जा सकता) | ज़्यादा / मीडियम-ज़्यादा | पूरी कोशिश (इसे कम किया जा सकता है) | ज़्यादा (थ्रूपुट के लिए) |
| इंटरफ़ेस | सिंक्रोनस | सिंक्रोनस | सिंक्रोनस | एसिंक्रोनस |
मुख्य फ़ायदे
- इंतज़ार का समय कम होना: इसे इंटरैक्टिव, उपयोगकर्ता के लिए बने एआई टूल के लिए, दूसरे रिस्पॉन्स टाइम के लिए डिज़ाइन किया गया है.
- भरोसेमंद परफ़ॉर्मेंस: ट्रैफ़िक को सबसे ज़्यादा प्राथमिकता दी जाती है और इसे कम नहीं किया जा सकता.
- अनुकूल गिरावट: डाइनैमिक सीमाओं से ज़्यादा ट्रैफ़िक होने पर, उसे प्रोसेस करने के लिए, स्टैंडर्ड टियर पर अपने-आप डाउनग्रेड कर दिया जाता है. इससे, सेवा में रुकावट नहीं आती.
- कम मुश्किल: यह स्टैंडर्ड और Flex टियर की तरह ही, सिंक्रोनस
createतरीके का इस्तेमाल करता है.
इस्तेमाल के उदाहरण
प्राथमिकता वाली प्रोसेसिंग, कारोबार के लिए ज़रूरी उन वर्कफ़्लो के लिए सबसे सही है जिनमें परफ़ॉर्मेंस और भरोसेमंद परफ़ॉर्मेंस सबसे अहम होती है.
- इंटरैक्टिव एआई ऐप्लिकेशन: ग्राहक सेवा के चैटबॉट और कोपायलट. इनमें उपयोगकर्ता प्रीमियम चुकाते हैं और उन्हें तेज़ और लगातार जवाब मिलने की उम्मीद होती है.
- रीयल-टाइम डिसिजन इंजन: ऐसे सिस्टम जिनमें भरोसेमंद और कम इंतज़ार के समय वाले नतीजों की ज़रूरत होती है. जैसे, लाइव टिकट ट्राइएज या धोखाधड़ी का पता लगाना.
- प्रीमियम ग्राहकों के लिए सुविधाएं: ऐसे डेवलपर जिन्हें पैसे चुकाने वाले ग्राहकों के लिए, बेहतर सर्विस लेवल ऑब्जेक्टिव (एसएलओ) की गारंटी देनी होती है.
दर की सीमाएं
प्राथमिकता वाले टियर के इस्तेमाल के लिए, दर की अपनी सीमाएं होती हैं. हालांकि, इसके इस्तेमाल को, इंटरैक्टिव ट्रैफ़िक की दर की कुल सीमाओं में गिना जाता है. प्राथमिकता वाले अनुमान के लिए, दर की डिफ़ॉल्ट सीमाएं मॉडल / टियर के लिए, दर की स्टैंडर्ड सीमा का 0.3 गुना होती हैं
अनुकूल डाउनग्रेड लॉजिक
अगर कंजेशन की वजह से, प्राथमिकता वाले टियर की सीमाएं पार हो जाती हैं, तो ओवरफ़्लो वाले अनुरोधों को अपने-आप और आसानी से स्टैंडर्ड प्रोसेसिंग पर डाउनग्रेड कर दिया जाता है. ऐसा 503 या 429 गड़बड़ी के साथ अनुरोध को पूरा न करने के बजाय किया जाता है. डाउनग्रेड किए गए अनुरोधों के लिए, प्राथमिकता वाले प्रीमियम रेट के बजाय, स्टैंडर्ड रेट के हिसाब से बिल भेजा जाता है.
क्लाइंट की ज़िम्मेदारी
- जवाब की निगरानी करना: डेवलपर को एपीआई के जवाब में,
x-gemini-service-tierहेडर की निगरानी करनी चाहिए, ताकि यह पता लगाया जा सके कि अनुरोधों को अक्सरstandardपर डाउनग्रेड किया जा रहा है या नहीं. - फिर से कोशिश करना: क्लाइंट को,
स्टैंडर्ड गड़बड़ियों के लिए, फिर से कोशिश करने का लॉजिक/एक्सपोनेंशियल बैकऑफ़ लागू करना होगा, जैसे
DEADLINE_EXCEEDED.
कीमत
प्राथमिकता वाले इन्फ़रंस की कीमत, स्टैंडर्ड एपीआई से 75-100% ज़्यादा होती है. इसका बिल, टोकन के हिसाब से भेजा जाता है.
काम करने वाले मॉडल
प्राथमिकता वाले इन्फ़रंस के लिए, ये मॉडल काम करते हैं:
| मॉडल | प्राथमिकता वाला इन्फ़रंस |
|---|---|
| Gemini 3.5 Flash | ✔️ |
| Gemini 3.1 Flash-Lite | ✔️ |
| Gemini 3.1 Pro का प्रीव्यू | ✔️ |
| Gemini 3 Flash का प्रीव्यू | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |
आगे क्या करना है
- लागत कम करने के लिए, Flex इन्फ़रंस का इस्तेमाल करना.
- टोकन: टोकन के बारे में जानकारी.