Gemini Priority API, अनुमान लगाने के लिए प्रीमियम लेवल की सुविधा है. इसे कारोबार के लिए ज़रूरी उन वर्कलोड के लिए डिज़ाइन किया गया है जिनमें कम इंतज़ार का समय और सबसे ज़्यादा भरोसेमंद परफ़ॉर्मेंस की ज़रूरत होती है. इसके लिए, प्रीमियम कीमत चुकानी पड़ती है. प्रायॉरिटी लेवल के ट्रैफ़िक को, स्टैंडर्ड एपीआई और Flex लेवल के ट्रैफ़िक से ज़्यादा प्राथमिकता दी जाती है.
प्रायॉरिटी अनुमान लगाने की सुविधा, GenerateContent API और Interactions API के एंडपॉइंट पर, Tier 2 & Tier 3 के उपयोगकर्ताओं के लिए उपलब्ध है.
प्रायॉरिटी का इस्तेमाल करना
प्रायॉरिटी लेवल का इस्तेमाल करने के लिए, अनुरोध के मुख्य हिस्से में मौजूद service_tier फ़ील्ड को priority पर सेट करें. अगर फ़ील्ड को छोड़ दिया जाता है, तो डिफ़ॉल्ट लेवल स्टैंडर्ड होता है.
Python
from google import genai
client = genai.Client()
try:
response = client.models.generate_content(
model="gemini-3.5-flash",
contents="Triage this critical customer support ticket immediately.",
config={"service_tier": "priority"},
)
# Validate for graceful downgrade
if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
print("Warning: Priority limit exceeded, processed at Standard tier.")
print(response.text)
except Exception as e:
# Standard error handling (e.g., DEADLINE_EXCEEDED)
print(f"Error during API call: {e}")
JavaScript
import {GoogleGenAI} from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const result = await ai.models.generateContent({
model: "gemini-3.5-flash",
contents: "Triage this critical customer support ticket immediately.",
config: {serviceTier: "priority"},
});
// Validate for graceful downgrade
if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
console.log("Warning: Priority limit exceeded, processed at Standard tier.");
}
console.log(result.text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
ऐप पर जाएं
package main
import (
"context"
"fmt"
"log"
"google.golang.org/genai"
)
func main() {
ctx := context.Background()
client, err := genai.NewClient(ctx, nil)
if err != nil {
log.Fatal(err)
}
defer client.Close()
resp, err := client.Models.GenerateContent(
ctx,
"gemini-3.5-flash",
genai.Text("Triage this critical customer support ticket immediately."),
&genai.GenerateContentConfig{
ServiceTier: "priority",
},
)
if err != nil {
log.Fatalf("Error during API call: %v", err)
}
// Validate for graceful downgrade
if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
}
fmt.Println(resp.Text())
}
REST
curl -X POST "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent?key=$GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts":[{"text": "Analyze user sentiment in real time"}]
}],
"service_tier": "priority"
}'
प्रायॉरिटी अनुमान लगाने की सुविधा कैसे काम करती है
प्रायॉरिटी अनुमान लगाने की सुविधा, अनुरोधों को ज़्यादा अहमियत वाली कंप्यूटिंग क्यू में भेजती है. इससे, उपयोगकर्ता के लिए बने ऐप्लिकेशन के लिए, अनुमान के मुताबिक और तेज़ परफ़ॉर्मेंस मिलती है. इसका मुख्य तरीका यह है कि डाइनैमिक सीमाओं से ज़्यादा ट्रैफ़िक होने पर, सर्वर-साइड पर स्टैंडर्ड प्रोसेसिंग में डाउनग्रेड किया जाता है. इससे अनुरोध को पूरा न करने के बजाय, ऐप्लिकेशन की स्थिरता बनी रहती है.
| सुविधा | प्रायॉरिटी | स्टैंडर्ड | Flex | बैच |
|---|---|---|---|---|
| कीमत | स्टैंडर्ड से 75-100% ज़्यादा | फ़ुल टिकट | 50% की छूट | 50% की छूट |
| Latency | सेकंड | सेकंड से मिनट | मिनट (1–15 मिनट का टारगेट) | 24 घंटे लग सकते हैं |
| भरोसेमंद परफ़ॉर्मेंस | ज़्यादा (इसे कम नहीं किया जा सकता) | ज़्यादा / मीडियम-ज़्यादा | पूरी कोशिश (इसे कम किया जा सकता है) | ज़्यादा (थ्रूपुट के लिए) |
| इंटरफ़ेस | सिंक्रोनस | सिंक्रोनस | सिंक्रोनस | एसिंक्रोनस |
मुख्य फ़ायदे
- कम इंतज़ार का समय: इसे इंटरैक्टिव, उपयोगकर्ता के लिए बने एआई टूल के लिए, दूसरे रिस्पॉन्स टाइम के लिए डिज़ाइन किया गया है.
- ज़्यादा भरोसेमंद परफ़ॉर्मेंस: ट्रैफ़िक को सबसे ज़्यादा अहमियत दी जाती है और इसे कम नहीं किया जा सकता.
- अनुकूल गिरावट: डाइनैमिक सीमाओं से ज़्यादा ट्रैफ़िक बढ़ने पर, इसे प्रोसेस करने के लिए, स्टैंडर्ड लेवल पर अपने-आप डाउनग्रेड कर दिया जाता है. इससे, सेवा में रुकावट नहीं आती.
- कम मुश्किल: स्टैंडर्ड और Flex लेवल की तरह ही, सिंक्रोनस
generateContentतरीके का इस्तेमाल करता है.
इस्तेमाल के उदाहरण
प्रायॉरिटी प्रोसेसिंग, कारोबार के लिए ज़रूरी उन वर्कफ़्लो के लिए सबसे सही है जिनमें परफ़ॉर्मेंस और भरोसेमंद परफ़ॉर्मेंस सबसे अहम होती है.
- इंटरैक्टिव एआई ऐप्लिकेशन: ग्राहक सेवा के चैटबॉट और कोपायलट, जहां उपयोगकर्ता प्रीमियम चुकाते हैं और उन्हें तेज़ और लगातार जवाब मिलने की उम्मीद होती है.
- रीयल-टाइम डिसिजन इंजन: ऐसे सिस्टम जिनमें भरोसेमंद और कम इंतज़ार के समय वाले नतीजों की ज़रूरत होती है. जैसे, लाइव टिकट ट्राइएज या धोखाधड़ी का पता लगाना.
- प्रीमियम ग्राहकों के लिए सुविधाएं: ऐसे डेवलपर जिन्हें पैसे चुकाने वाले ग्राहकों के लिए, बेहतर सर्विस लेवल ऑब्जेक्टिव (एसएलओ) की गारंटी देनी होती है.
दर की सीमाएं
प्रायॉरिटी के इस्तेमाल के लिए, दर की अपनी सीमाएं होती हैं. हालांकि, इस्तेमाल को इंटरैक्टिव ट्रैफ़िक की दर की कुल सीमाओं में गिना जाता है. प्रायॉरिटी अनुमान लगाने की सुविधा के लिए, दर की डिफ़ॉल्ट सीमाएं मॉडल / लेवल के लिए, स्टैंडर्ड दर की सीमा का 0.3 गुना होती हैं
अनुकूल डाउनग्रेड लॉजिक
अगर कंजेशन की वजह से, प्रायॉरिटी की सीमाएं पार हो जाती हैं, तो ओवरफ़्लो अनुरोधों को 503 या 429 गड़बड़ी के साथ पूरा न करने के बजाय, अपने-आप और अनुकूल तरीके से स्टैंडर्ड प्रोसेसिंग में डाउनग्रेड कर दिया जाता है. डाउनग्रेड किए गए अनुरोधों के लिए, प्रायॉरिटी की प्रीमियम दर के बजाय, स्टैंडर्ड दर से बिल भेजा जाता है.
क्लाइंट की ज़िम्मेदारी
- जवाब की निगरानी करना: डेवलपर को एपीआई के जवाब में मौजूद
x-gemini-service-tierहेडर की निगरानी करनी चाहिए, ताकि यह पता लगाया जा सके कि अनुरोधों को अक्सर में डाउनग्रेड किया जा रहा है या नहींstandard. - फिर से कोशिश करना: क्लाइंट को,
स्टैंडर्ड गड़बड़ियों के लिए, फिर से कोशिश करने का लॉजिक/एक्सपोनेंशियल बैकऑफ़ लागू करना होगा, जैसे
DEADLINE_EXCEEDED.
कीमत
प्रायॉरिटी अनुमान लगाने की सुविधा की कीमत, स्टैंडर्ड एपीआई से 75-100% ज़्यादा होती है. इसके लिए, हर टोकन के हिसाब से बिल भेजा जाता है.
काम करने वाले मॉडल
इन मॉडल में, प्रायॉरिटी अनुमान लगाने की सुविधा काम करती है:
| मॉडल | प्रायॉरिटी अनुमान लगाने की सुविधा |
|---|---|
| Gemini 3.5 Flash | ✔️ |
| Gemini 3.1 Flash-Lite | ✔️ |
| Gemini 3.1 Pro का प्रीव्यू | ✔️ |
| Gemini 3 Flash का प्रीव्यू | ✔️ |
| Gemini 3 Pro Image का प्रीव्यू | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash Image | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |
आगे क्या करना है
Gemini के अनुमान लगाने और ऑप्टिमाइज़ेशन के अन्य विकल्पों के बारे में पढ़ें:
- लागत में 50% की कमी के लिए, Flex अनुमान लगाने की सुविधा.
- बैच एपीआई, 24 घंटे के अंदर एसिंक्रोनस प्रोसेसिंग के लिए.
- इनपुट टोकन की लागत कम करने के लिए, कॉन्टेक्स्ट कैशिंग.