Gemini Priority API, अनुमान लगाने के लिए प्रीमियम टियर है. इसे कारोबार के लिए ज़रूरी वर्कलोड के लिए डिज़ाइन किया गया है. इसके लिए, कम समय में जवाब देने और सबसे ज़्यादा भरोसेमंद होने की ज़रूरत होती है. इसके लिए, प्रीमियम कीमत चुकानी पड़ती है. प्राथमिकता वाले टियर के ट्रैफ़िक को स्टैंडर्ड एपीआई और फ़्लेक्स टियर के ट्रैफ़िक से ज़्यादा प्राथमिकता दी जाती है.
प्राथमिकता के आधार पर अनुमान लगाने की सुविधा, GenerateContent API और Interactions API एंडपॉइंट के Tier 2 और Tier 3 उपयोगकर्ताओं के लिए उपलब्ध है.
'प्राथमिकता' फ़ील्ड का इस्तेमाल करने का तरीका
प्रायॉरिटी टियर का इस्तेमाल करने के लिए, अनुरोध के मुख्य हिस्से में मौजूद service_tier फ़ील्ड को SERVICE_TIER_PRIORITY पर सेट करें. अगर फ़ील्ड मौजूद नहीं है, तो डिफ़ॉल्ट टियर स्टैंडर्ड होता है.
Python
from google import genai
client = genai.Client()
try:
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents="Triage this critical customer support ticket immediately.",
config={'service_tier': 'SERVICE_TIER_PRIORITY'},
)
# Validate for graceful downgrade
if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
print("Warning: Priority limit exceeded, processed at Standard tier.")
print(response.text)
except Exception as e:
# Standard error handling (e.g., DEADLINE_EXCEEDED)
print(f"Error during API call: {e}")
JavaScript
JavaScript में, डाउनग्रेड करने की प्रोसेस को क्लाइंट लाइब्रेरी अपने-आप मैनेज करती है. अगर क्षमता से ज़्यादा डेटा भेजा जाता है, तो गड़बड़ी का मैसेज दिखेगा या उसे स्टैंडर्ड टियर में प्रोसेस किया जाएगा. जवाब देने वाला ऑब्जेक्ट, हेडर को सीधे तौर पर नहीं दिखाता है, ताकि यह पता लगाया जा सके कि जवाब को डाउनग्रेड किया गया है या नहीं.
import {GoogleGenAI} from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const result = await ai.models.generateContent({
model: "gemini-3-flash-preview",
contents: "Triage this critical customer support ticket immediately.",
config: {serviceTier: "priority"},
});
// Validate for graceful downgrade
if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
console.log("Warning: Priority limit exceeded, processed at Standard tier.");
}
console.log(result.text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
ऐप पर जाएं
Go में, क्लाइंट लाइब्रेरी अपने-आप डाउनग्रेड हो जाती है. अगर क्षमता से ज़्यादा डेटा भेजा जाता है, तो गड़बड़ी का मैसेज दिखेगा या उसे स्टैंडर्ड टियर में प्रोसेस किया जाएगा. जवाब देने वाला ऑब्जेक्ट, हेडर को सीधे तौर पर नहीं दिखाता है. इसलिए, यह नहीं पता चलता कि कुकी को डाउनग्रेड किया गया है या नहीं.
package main
import (
"context"
"fmt"
"log"
"google.golang.org/genai"
)
func main() {
ctx := context.Background()
client, err := genai.NewClient(ctx, nil)
if err != nil {
log.Fatal(err)
}
defer client.Close()
resp, err := client.Models.GenerateContent(
ctx,
"gemini-3-flash-preview",
genai.Text("Triage this critical customer support ticket immediately."),
&genai.GenerateContentConfig{
ServiceTier: "priority",
},
)
if err != nil {
log.Fatalf("Error during API call: %v", err)
}
// Validate for graceful downgrade
if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
}
fmt.Println(resp.Text())
}
REST
curl \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
-d '{
"contents": [{
"parts":[{"text": "Analyze user sentiment in real time"}]
}],
"serviceTier": "PRIORITY"
}'
प्राथमिकता का अनुमान लगाने की सुविधा कैसे काम करती है
प्राथमिकता के आधार पर अनुमान लगाने की सुविधा, अनुरोधों को कंप्यूटिंग की ज़्यादा ज़रूरी कतारों पर भेजती है. इससे, लोगों के लिए उपलब्ध ऐप्लिकेशन के लिए अनुमान लगाने की सुविधा, भरोसेमंद और तेज़ी से काम करती है. इसका मुख्य तरीका यह है कि अगर ट्रैफ़िक, डाइनैमिक सीमाओं से ज़्यादा हो जाता है, तो सर्वर-साइड पर स्टैंडर्ड प्रोसेसिंग पर डाउनग्रेड कर दिया जाता है. इससे यह पक्का होता है कि अनुरोध पूरा न होने के बजाय, ऐप्लिकेशन सही तरीके से काम करता रहे.
| सुविधा | प्राथमिकता | स्टैंडर्ड | Flex | बैच |
|---|---|---|---|---|
| कीमत | स्टैंडर्ड से 75 से 100% ज़्यादा | फ़ुल टिकट | 50% की छूट | 50% की छूट |
| लेटेंसी | कम (सेकंड) | सेकंड से मिनट | मिनट (1 से 15 मिनट का टारगेट) | 24 घंटे तक |
| भरोसेमंद होना | ज़्यादा (नहीं बदले जा सकने वाले) | ज़्यादा / सामान्य से ज़्यादा | सबसे अच्छी कोशिश (शेड किया जा सकता है) | ज़्यादा (थ्रूपुट के लिए) |
| इंटरफ़ेस | सिंक्रोनस | सिंक्रोनस | सिंक्रोनस | एसिंक्रोनस |
मुख्य फ़ायदे
- कम समय में जवाब मिलता है: इसे इंटरैक्टिव और उपयोगकर्ता के लिए उपलब्ध एआई टूल के लिए डिज़ाइन किया गया है. इससे मिलीसेकंड में जवाब मिलता है.
- ज़्यादा भरोसेमंद: ट्रैफ़िक को सबसे ज़्यादा प्राथमिकता दी जाती है और इसे किसी भी हाल में कम नहीं किया जा सकता.
- ग्रेसफ़ुल डिग्रेडेशन: डाइनैमिक सीमाओं से ज़्यादा ट्रैफ़िक बढ़ने पर, उसे प्रोसेस करने के लिए स्टैंडर्ड टियर पर अपने-आप डाउनग्रेड कर दिया जाता है. इससे सेवा में रुकावट नहीं आती.
- कम रुकावट: यह स्टैंडर्ड और फ़्लेक्स टियर की तरह ही, सिंक्रोनस
generateContentतरीके का इस्तेमाल करता है.
उपयोग के उदाहरण
प्रायॉरिटी प्रोसेसिंग, कारोबार के लिए ज़रूरी उन वर्कफ़्लो के लिए सबसे सही है जहां परफ़ॉर्मेंस और भरोसेमंद होना सबसे ज़रूरी है.
- इंटरैक्टिव एआई ऐप्लिकेशन: ग्राहक सेवा के लिए चैटबॉट और कोपायलट. इनमें उपयोगकर्ता प्रीमियम चुकाते हैं और उन्हें तेज़ और सटीक जवाब मिलने की उम्मीद होती है.
- रीयल-टाइम में फ़ैसले लेने वाले इंजन: ऐसे सिस्टम जिनके लिए भरोसेमंद और कम समय में नतीजे पाना ज़रूरी होता है. जैसे, लाइव टिकट की प्राथमिकता तय करना या धोखाधड़ी का पता लगाना.
- पैसे चुकाकर इस्तेमाल की जाने वाली सुविधाओं के लिए ग्राहक सहायता: ऐसे डेवलपर जिन्हें पैसे चुकाकर इस्तेमाल की जाने वाली सुविधाओं के लिए, सेवा स्तर के लक्ष्यों (एसएलओ) को पूरा करने की गारंटी देनी होती है.
तय सीमाएं
प्रायोरिटी के साथ इस्तेमाल करने पर, दर से जुड़ी अपनी सीमाएं लागू होती हैं. भले ही, इस्तेमाल को इंटरैक्टिव ट्रैफ़िक की दर से जुड़ी कुल सीमाओं में गिना जाता हो. प्राथमिकता के आधार पर अनुमान लगाने के लिए, दर की डिफ़ॉल्ट सीमाएं मॉडल / टियर के लिए दर की स्टैंडर्ड सीमा का 0.3 गुना होती हैं
ग्रेसफ़ुल डाउनग्रेड लॉजिक
अगर नेटवर्क में ज़्यादा ट्रैफ़िक की वजह से, प्राथमिकता वाली सीमाएं पार हो जाती हैं, तो अनुरोधों को 503 या 429 गड़बड़ी के साथ फ़ेल करने के बजाय, अपने-आप और आसानी से स्टैंडर्ड प्रोसेसिंग पर डाउनग्रेड कर दिया जाता है. डाउनग्रेड किए गए अनुरोधों के लिए, स्टैंडर्ड दर के हिसाब से बिल भेजा जाता है. इसके लिए, Priority प्रीमियम दर लागू नहीं होती.
क्लाइंट की ज़िम्मेदारी
- जवाब की निगरानी करना: डेवलपर को एपीआई के जवाब के मुख्य हिस्से में मौजूद
service_tierवैल्यू की निगरानी करनी चाहिए. इससे यह पता चलेगा कि अनुरोधों को बार-बारstandardपर डाउनग्रेड किया जा रहा है या नहीं. - फिर से कोशिश करना: क्लाइंट को स्टैंडर्ड गड़बड़ियों के लिए, फिर से कोशिश करने का लॉजिक/एक्सपोनेंशियल बैकऑफ़ लागू करना होगा. जैसे,
DEADLINE_EXCEEDED.
कीमत
प्राथमिकता के आधार पर अनुमान लगाने की सुविधा, स्टैंडर्ड एपीआई की तुलना में 75 से 100% ज़्यादा महंगी है. इसके लिए, हर टोकन के हिसाब से बिल भेजा जाता है.
इन मॉडल के साथ काम करता है
इन मॉडल में प्रायॉरिटी इन्फ़रेंस की सुविधा काम करती है:
| मॉडल | प्राथमिकता के आधार पर अनुमान लगाना |
|---|---|
| Gemini 3.1 Flash-Lite की झलक | ✔️ |
| Gemini 3.1 Pro की झलक | ✔️ |
| Gemini 3 Flash की झलक | ✔️ |
| Gemini 3 Pro Image की झलक | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash की इमेज | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |
आगे क्या करना है
Gemini के अन्य अनुमान और ऑप्टिमाइज़ेशन विकल्पों के बारे में पढ़ें:
- लागत में 50% की कमी के लिए, फ़्लेक्स इन्फ़रेंस.
- एसिंक्रोनस प्रोसेसिंग के लिए बैच एपीआई. इससे 24 घंटे में प्रोसेसिंग पूरी हो जाती है.
- इनपुट टोकन की लागत कम करने के लिए, कॉन्टेक्स्ट कैश मेमोरी का इस्तेमाल किया जाता है.