Interactions API अब सामान्य तौर पर उपलब्ध है. हमारा सुझाव है कि सभी नई सुविधाओं और मॉडल का ऐक्सेस पाने के लिए, इस एपीआई का इस्तेमाल करें.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

प्राथमिकता के आधार पर अनुमान लगाना

जानकारी: Interactions API में, प्राथमिकता वाले इन्फ़रंस टियर की मदद से, इंतज़ार के समय को ऑप्टिमाइज़ करने का तरीका जानें

Gemini Priority API, प्रीमियम इन्फ़रंस टियर है. इसे कारोबार के लिए ज़रूरी उन वर्कलोड के लिए डिज़ाइन किया गया है जिनके लिए कम इंतज़ार का समय और ज़्यादा भरोसेमंद परफ़ॉर्मेंस की ज़रूरत होती है. इसके लिए, प्रीमियम कीमत चुकानी पड़ती है. प्रायॉरिटी टियर के ट्रैफ़िक को, स्टैंडर्ड एपीआई और Flex टियर के ट्रैफ़िक से ज़्यादा प्राथमिकता दी जाती है.

प्रायॉरिटी इन्फ़रंस, Interactions API के सभी एंडपॉइंट पर उपलब्ध है.

प्रायॉरिटी का इस्तेमाल करने का तरीका

प्रायॉरिटी टियर का इस्तेमाल करने के लिए, अपने अनुरोध में service_tier फ़ील्ड को priority पर सेट करें. अगर फ़ील्ड को छोड़ दिया जाता है, तो डिफ़ॉल्ट टियर स्टैंडर्ड होता है.

Python

from google import genai

client = genai.Client()

interaction = client.interactions.create(
    model="gemini-3.5-flash",
    input="Triage this critical customer support ticket immediately.",
    service_tier='priority'
)
print(interaction.output_text)

JavaScript

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
    const interaction = await ai.interactions.create({
        model: "gemini-3.5-flash",
        input: "Triage this critical customer support ticket immediately.",
        service_tier: "priority"
    });
    console.log(interaction.output_text);
}

await main();

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "Content-Type: application/json" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -d '{
    "model": "gemini-3.5-flash",
    "input": "Triage this critical customer support ticket immediately.",
    "service_tier": "priority"
  }'

प्रायॉरिटी इन्फ़रंस कैसे काम करता है

प्रायॉरिटी इन्फ़रंस, अनुरोधों को ज़्यादा अहमियत वाली कंप्यूटिंग क्यू में भेजता है. इससे, उपयोगकर्ता के लिए बने ऐप्लिकेशन के लिए, अनुमान के मुताबिक और तेज़ परफ़ॉर्मेंस मिलती है. इसका मुख्य तरीका यह है कि डाइनैमिक सीमाओं से ज़्यादा ट्रैफ़िक होने पर, सर्वर-साइड पर स्टैंडर्ड प्रोसेसिंग में डाउनग्रेड किया जाता है. इससे, अनुरोध को पूरा न कर पाने के बजाय, ऐप्लिकेशन की स्थिरता बनी रहती है.

सुविधा	प्रायॉरिटी	स्टैंडर्ड	Flex	बैच
कीमत	स्टैंडर्ड से 75-100% ज़्यादा	फ़ुल टिकट	50% की छूट	50% की छूट
इंतज़ार का समय	सेकंड	सेकंड से मिनट	मिनट (1–15 मिनट का टारगेट)	24 घंटे लग सकते हैं
भरोसेमंद परफ़ॉर्मेंस	ज़्यादा (इसे कम नहीं किया जा सकता)	ज़्यादा / मीडियम-ज़्यादा	पूरी कोशिश (इसे कम किया जा सकता है)	ज़्यादा (थ्रूपुट के लिए)
इंटरफ़ेस	सिंक्रोनस	सिंक्रोनस	सिंक्रोनस	एसिंक्रोनस

मुख्य फ़ायदे

कम इंतज़ार का समय: इसे इंटरैक्टिव, उपयोगकर्ता के लिए बने एआई टूल के लिए, दूसरे रिस्पॉन्स टाइम के लिए डिज़ाइन किया गया है.
ज़्यादा भरोसेमंद परफ़ॉर्मेंस: ट्रैफ़िक को सबसे ज़्यादा अहमियत दी जाती है और इसे कम नहीं किया जा सकता.
अनुकूल गिरावट: डाइनैमिक सीमाओं से ज़्यादा ट्रैफ़िक स्पाइक होने पर, इसे प्रोसेस करने के लिए स्टैंडर्ड टियर में अपने-आप डाउनग्रेड कर दिया जाता है. इससे, सेवा में रुकावट नहीं आती.
कम मुश्किल: स्टैंडर्ड और Flex टियर की तरह ही, सिंक्रोनस create तरीके का इस्तेमाल करता है.

इस्तेमाल के उदाहरण

प्रायॉरिटी प्रोसेसिंग, कारोबार के लिए ज़रूरी उन वर्कफ़्लो के लिए सबसे सही है जिनमें परफ़ॉर्मेंस और भरोसेमंद परफ़ॉर्मेंस सबसे अहम होती है.

इंटरैक्टिव एआई ऐप्लिकेशन: ग्राहक सेवा के चैटबॉट और कोपायलट, जहां उपयोगकर्ता प्रीमियम चुकाते हैं और उन्हें तेज़ और लगातार जवाब मिलने की उम्मीद होती है.
रीयल-टाइम डिसिजन इंजन: ऐसे सिस्टम जिनमें ज़्यादा भरोसेमंद और कम इंतज़ार के समय वाले नतीजों की ज़रूरत होती है. जैसे, लाइव टिकट ट्राइएज या धोखाधड़ी का पता लगाना.
प्रीमियम ग्राहक सुविधाएं: ऐसे डेवलपर जिन्हें पैसे चुकाने वाले ग्राहकों के लिए, बेहतर सर्विस लेवल ऑब्जेक्टिव (एसएलओ) की गारंटी देनी होती है.

दर की सीमाएं

प्रायॉरिटी के इस्तेमाल की अपनी दर की सीमाएं होती हैं. हालांकि, इसके इस्तेमाल को इंटरैक्टिव ट्रैफ़िक की दर की कुल सीमाओं में गिना जाता है. प्रायॉरिटी इन्फ़रंस के लिए, दर की डिफ़ॉल्ट सीमाएं मॉडल / टियर के लिए, स्टैंडर्ड दर की सीमा का 0.3 गुना होती हैं

अनुकूल डाउनग्रेड लॉजिक

अगर कंजेशन की वजह से, प्रायॉरिटी की सीमाएं पार हो जाती हैं, तो ओवरफ़्लो अनुरोधों को अपने-आप और आसानी से स्टैंडर्ड प्रोसेसिंग में डाउनग्रेड कर दिया जाता है. ऐसा 503 या 429 गड़बड़ी के साथ अनुरोध को पूरा न कर पाने के बजाय किया जाता है. डाउनग्रेड किए गए अनुरोधों के लिए, प्रायॉरिटी की प्रीमियम दर के बजाय, स्टैंडर्ड दर के हिसाब से बिल भेजा जाता है.

क्लाइंट की ज़िम्मेदारी

जवाब की निगरानी करना: डेवलपर को एपीआई के जवाब में, x-gemini-service-tier हेडर की निगरानी करनी चाहिए, ताकि यह पता लगाया जा सके कि अनुरोधों को बार-बार standard में डाउनग्रेड किया जा रहा है या नहीं.
फिर से कोशिश करना: क्लाइंट को स्टैंडर्ड गड़बड़ियों के लिए, फिर से कोशिश करने का लॉजिक/एक्सपोनेंशियल बैकऑफ़ लागू करना होगा. जैसे, DEADLINE_EXCEEDED.

कीमत

प्रायॉरिटी इन्फ़रंस की कीमत, स्टैंडर्ड एपीआई से 75-100% ज़्यादा होती है. इसके लिए, हर टोकन के हिसाब से बिल भेजा जाता है.

काम करने वाले मॉडल

प्रायॉरिटी इन्फ़रंस के लिए, ये मॉडल काम करते हैं:

मॉडल	प्रायॉरिटी इन्फ़रंस
Gemini 3.5 Flash	✔️
Gemini 3.1 Flash-Lite	✔️
Gemini 3.1 Pro का प्रीव्यू	✔️
Gemini 3 Flash का प्रीव्यू	✔️
Gemini 2.5 Pro	✔️
Gemini 2.5 Flash	✔️
Gemini 2.5 Flash-Lite	✔️

आगे क्या करना है

लागत कम करने के लिए, Flex इन्फ़रंस का इस्तेमाल करना.
टोकन: टोकन के बारे में जानकारी.