জেমিনি প্রায়োরিটি এপিআই হলো একটি প্রিমিয়াম ইনফারেন্স টায়ার, যা এমন সব ব্যবসায়িক-গুরুত্বপূর্ণ ওয়ার্কলোডের জন্য ডিজাইন করা হয়েছে যেখানে একটি প্রিমিয়াম মূল্যে কম ল্যাটেন্সি এবং সর্বোচ্চ নির্ভরযোগ্যতা প্রয়োজন। প্রায়োরিটি টায়ারের ট্র্যাফিককে স্ট্যান্ডার্ড এপিআই এবং ফ্লেক্স টায়ারের ট্র্যাফিকের চেয়ে বেশি অগ্রাধিকার দেওয়া হয়।
GenerateContent API এবং Interactions API এন্ডপয়েন্ট জুড়ে টিয়ার ২ এবং টিয়ার ৩ ব্যবহারকারীদের জন্য প্রায়োরিটি ইনফারেন্স উপলব্ধ।
অগ্রাধিকার কীভাবে ব্যবহার করবেন
প্রায়োরিটি টিয়ার ব্যবহার করতে, রিকোয়েস্ট বডিতে থাকা service_tier ফিল্ডটিকে priority তে সেট করুন। এই ফিল্ডটি বাদ দিলে ডিফল্ট টিয়ার হিসেবে standard ব্যবহৃত হয়।
পাইথন
from google import genai
client = genai.Client()
try:
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents="Triage this critical customer support ticket immediately.",
config={'service_tier': 'priority'},
)
# Validate for graceful downgrade
if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
print("Warning: Priority limit exceeded, processed at Standard tier.")
print(response.text)
except Exception as e:
# Standard error handling (e.g., DEADLINE_EXCEEDED)
print(f"Error during API call: {e}")
জাভাস্ক্রিপ্ট
import {GoogleGenAI} from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const result = await ai.models.generateContent({
model: "gemini-3-flash-preview",
contents: "Triage this critical customer support ticket immediately.",
config: {serviceTier: "priority"},
});
// Validate for graceful downgrade
if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
console.log("Warning: Priority limit exceeded, processed at Standard tier.");
}
console.log(result.text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
যান
package main
import (
"context"
"fmt"
"log"
"google.golang.org/genai"
)
func main() {
ctx := context.Background()
client, err := genai.NewClient(ctx, nil)
if err != nil {
log.Fatal(err)
}
defer client.Close()
resp, err := client.Models.GenerateContent(
ctx,
"gemini-3-flash-preview",
genai.Text("Triage this critical customer support ticket immediately."),
&genai.GenerateContentConfig{
ServiceTier: "priority",
},
)
if err != nil {
log.Fatalf("Error during API call: %v", err)
}
// Validate for graceful downgrade
if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
}
fmt.Println(resp.Text())
}
বিশ্রাম
curl \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
-d '{
"contents": [{
"parts":[{"text": "Analyze user sentiment in real time"}]
}],
"serviceTier": "PRIORITY"
}'
অগ্রাধিকার অনুমান কীভাবে কাজ করে
প্রায়োরিটি ইনফারেন্স অনুরোধগুলোকে উচ্চ-গুরুত্বপূর্ণ কম্পিউট কিউ-তে প্রেরণ করে, যা ব্যবহারকারী-মুখী অ্যাপ্লিকেশনগুলোর জন্য অনুমানযোগ্য ও দ্রুত পারফরম্যান্স প্রদান করে। এর প্রধান কার্যপ্রণালী হলো, ডাইনামিক সীমা অতিক্রমকারী ট্র্যাফিকের জন্য সার্ভার-সাইডে সাবলীলভাবে স্ট্যান্ডার্ড প্রসেসিং-এ ডাউনগ্রেড করা, যা অনুরোধটি ব্যর্থ না করে অ্যাপ্লিকেশনের স্থিতিশীলতা নিশ্চিত করে।
| বৈশিষ্ট্য | অগ্রাধিকার | মান | ফ্লেক্স | ব্যাচ |
|---|---|---|---|---|
| মূল্য নির্ধারণ | স্ট্যান্ডার্ডের চেয়ে ৭৫-১০০% বেশি | সম্পূর্ণ মূল্য | ৫০% ছাড় | ৫০% ছাড় |
| বিলম্ব | নিম্ন (সেকেন্ড) | সেকেন্ড থেকে মিনিট | মিনিট (লক্ষ্যমাত্রা ১-১৫ মিনিট) | ২৪ ঘন্টা পর্যন্ত |
| নির্ভরযোগ্যতা | উচ্চ (অ-ঝরে পড়া) | উচ্চ / মাঝারি-উচ্চ | সর্বোত্তম প্রচেষ্টা (বাদ দেওয়া যায়) | উচ্চ (থ্রুপুটের জন্য) |
| ইন্টারফেস | সিঙ্ক্রোনাস | সিঙ্ক্রোনাস | সিঙ্ক্রোনাস | অ্যাসিঙ্ক্রোনাস |
মূল সুবিধাগুলি
- স্বল্প লেটেন্সি : ইন্টারেক্টিভ ও ব্যবহারকারী-কেন্দ্রিক এআই টুলগুলোর জন্য মিলিসেকেন্ড-সেকেন্ডের রেসপন্স টাইম মাথায় রেখে ডিজাইন করা হয়েছে।
- উচ্চ নির্ভরযোগ্যতা : ট্র্যাফিককে সর্বোচ্চ গুরুত্ব সহকারে বিবেচনা করা হয় এবং এটি কঠোরভাবে বর্জনযোগ্য নয়।
- সুষ্ঠু অবনমন : ডায়নামিক সীমা অতিক্রমকারী ট্র্যাফিকের আকস্মিক বৃদ্ধি ব্যর্থ না হয়ে, প্রক্রিয়াকরণের জন্য স্বয়ংক্রিয়ভাবে স্ট্যান্ডার্ড স্তরে নেমে আসে, যা পরিষেবা বিভ্রাট প্রতিরোধ করে।
- ঝামেলাহীন : স্ট্যান্ডার্ড এবং ফ্লেক্স টায়ারের মতোই একই সিঙ্ক্রোনাস
generateContentমেথড ব্যবহার করে।
ব্যবহারের ক্ষেত্র
ব্যবসায়িক-গুরুত্বপূর্ণ ওয়ার্কফ্লোর জন্য প্রায়োরিটি প্রসেসিং আদর্শ, যেখানে পারফরম্যান্স এবং নির্ভরযোগ্যতা সবচেয়ে গুরুত্বপূর্ণ।
- ইন্টারেক্টিভ এআই অ্যাপ্লিকেশন : কাস্টমার সার্ভিস চ্যাটবট এবং কো-পাইলট, যেখানে ব্যবহারকারীরা অতিরিক্ত অর্থ প্রদান করেন এবং দ্রুত ও ধারাবাহিক প্রতিক্রিয়া আশা করেন।
- রিয়েল-টাইম ডিসিশন ইঞ্জিন : যেসব সিস্টেমের জন্য অত্যন্ত নির্ভরযোগ্য ও স্বল্প-বিলম্বের ফলাফল প্রয়োজন, যেমন লাইভ টিকেট ট্রায়াজিং বা জালিয়াতি শনাক্তকরণ।
- প্রিমিয়াম গ্রাহক বৈশিষ্ট্য : যে সকল ডেভেলপারকে অর্থ প্রদানকারী গ্রাহকদের জন্য উচ্চতর পরিষেবা স্তরের উদ্দেশ্য (SLO) নিশ্চিত করতে হয়।
হারের সীমা
প্রায়োরিটি কনসাম্পশনের নিজস্ব রেট লিমিট থাকে, যদিও এর ব্যবহার সামগ্রিক ইন্টারেক্টিভ ট্র্যাফিক রেট লিমিটের মধ্যে গণনা করা হয়। প্রায়োরিটি ইনফারেন্সের জন্য ডিফল্ট রেট লিমিট হলো মডেল/টিয়ারের স্ট্যান্ডার্ড রেট লিমিটের ০.৩ গুণ।
মার্জিত অবনমন যুক্তি
অতিরিক্ত চাপের কারণে প্রায়োরিটি সীমা অতিক্রম করলে, ওভারফ্লো অনুরোধগুলি 503 বা 429 ত্রুটি দেখিয়ে ব্যর্থ না হয়ে স্বয়ংক্রিয়ভাবে এবং সুষ্ঠুভাবে স্ট্যান্ডার্ড প্রক্রিয়াকরণে নামিয়ে আনা হয়। নামিয়ে আনা অনুরোধগুলির বিল স্ট্যান্ডার্ড হারে করা হয়, প্রায়োরিটি প্রিমিয়াম হারে নয়।
ক্লায়েন্টের দায়িত্ব
- প্রতিক্রিয়া পর্যবেক্ষণ : অনুরোধগুলি ঘন ঘন
standardস্তরে নামিয়ে আনা হচ্ছে কিনা তা শনাক্ত করতে ডেভেলপারদের এপিআই প্রতিক্রিয়া বডিতে থাকাservice_tierমানটি পর্যবেক্ষণ করা উচিত। - পুনরায় চেষ্টা : ক্লায়েন্টদের অবশ্যই
DEADLINE_EXCEEDEDমতো সাধারণ ত্রুটির জন্য পুনরায় চেষ্টার লজিক/এক্সপোনেনশিয়াল ব্যাকঅফ প্রয়োগ করতে হবে।
মূল্য নির্ধারণ
প্রায়োরিটি ইনফারেন্সের মূল্য স্ট্যান্ডার্ড এপিআই-এর চেয়ে ৭৫-১০০% বেশি এবং এটি টোকেন প্রতি বিল করা হয়।
সমর্থিত মডেল
নিম্নলিখিত মডেলগুলি প্রায়োরিটি ইনফারেন্স সমর্থন করে:
| মডেল | অগ্রাধিকার অনুমান |
|---|---|
| জেমিনি ৩.১ ফ্ল্যাশ-লাইট প্রিভিউ | ✔️ |
| জেমিনি ৩.১ প্রো প্রিভিউ | ✔️ |
| জেমিনি ৩ ফ্ল্যাশ প্রিভিউ | ✔️ |
| জেমিনি ৩ প্রো ছবির প্রিভিউ | ✔️ |
| জেমিনি ২.৫ প্রো | ✔️ |
| জেমিনি ২.৫ ফ্ল্যাশ | ✔️ |
| জেমিনি ২.৫ ফ্ল্যাশ ইমেজ | ✔️ |
| জেমিনি ২.৫ ফ্ল্যাশ-লাইট | ✔️ |
এরপর কী?
জেমিনির অন্যান্য ইনফারেন্স এবং অপটিমাইজেশন অপশনগুলো সম্পর্কে পড়ুন:
- ৫০% খরচ হ্রাসের জন্য ফ্লেক্স ইনফারেন্স ।
- ২৪ ঘন্টার মধ্যে অ্যাসিঙ্ক্রোনাস প্রক্রিয়াকরণের জন্য ব্যাচ এপিআই ।
- ইনপুট টোকেনের খরচ কমাতে কনটেক্সট ক্যাশিং ।