অগ্রাধিকার অনুমান
জেমিনি প্রায়োরিটি এপিআই হলো একটি প্রিমিয়াম ইনফারেন্স টায়ার, যা এমন সব ব্যবসায়িক-গুরুত্বপূর্ণ ওয়ার্কলোডের জন্য ডিজাইন করা হয়েছে যেখানে একটি প্রিমিয়াম মূল্যে কম ল্যাটেন্সি এবং সর্বোচ্চ নির্ভরযোগ্যতা প্রয়োজন। প্রায়োরিটি টায়ারের ট্র্যাফিককে স্ট্যান্ডার্ড এপিআই এবং ফ্লেক্স টায়ারের ট্র্যাফিকের চেয়ে বেশি অগ্রাধিকার দেওয়া হয়।
ইন্টারঅ্যাকশন এপিআই এন্ডপয়েন্টগুলো জুড়ে প্রায়োরিটি ইনফারেন্স উপলব্ধ।
অগ্রাধিকার কিভাবে ব্যবহার করবেন
প্রায়োরিটি টিয়ার ব্যবহার করতে, আপনার রিকোয়েস্টের service_tier ফিল্ডটি priority তে সেট করুন। এই ফিল্ডটি উল্লেখ না করা হলে ডিফল্ট টিয়ার হিসেবে standard ব্যবহৃত হবে।
পাইথন
from google import genai
client = genai.Client()
try:
interaction = client.interactions.create(
model="gemini-3-flash-preview",
input="Triage this critical customer support ticket immediately.",
service_tier='priority'
)
# Validate for graceful downgrade
# Note: Checking headers might vary by SDK implementation, this is illustrative
# if interaction.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
# print("Warning: Priority limit exceeded, processed at Standard tier.")
print(interaction.steps[-1].content[0].text)
except Exception as e:
print(f"Error during API call: {e}")
জাভাস্ক্রিপ্ট
import { GoogleGenAI } from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const interaction = await ai.interactions.create({
model: "gemini-3-flash-preview",
input: "Triage this critical customer support ticket immediately.",
serviceTier: "priority"
});
// Validate for graceful downgrade
// if (interaction.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
// console.log("Warning: Priority limit exceeded, processed at Standard tier.");
// }
console.log(interaction.steps.at(-1).content[0].text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
বিশ্রাম
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "Content-Type: application/json" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-d '{
"model": "gemini-3-flash-preview",
"input": "Triage this critical customer support ticket immediately.",
"service_tier": "priority"
}'
অগ্রাধিকার অনুমান কীভাবে কাজ করে
প্রায়োরিটি ইনফারেন্স অনুরোধগুলোকে উচ্চ-গুরুত্বপূর্ণ কম্পিউট কিউ-তে প্রেরণ করে, যা ব্যবহারকারী-মুখী অ্যাপ্লিকেশনগুলোর জন্য অনুমানযোগ্য ও দ্রুত পারফরম্যান্স প্রদান করে। এর প্রধান কার্যপ্রণালী হলো, ডাইনামিক সীমা অতিক্রমকারী ট্র্যাফিকের জন্য সার্ভার-সাইডে সাবলীলভাবে স্ট্যান্ডার্ড প্রসেসিং-এ ডাউনগ্রেড করা, যা অনুরোধটি ব্যর্থ না করে অ্যাপ্লিকেশনের স্থিতিশীলতা নিশ্চিত করে।
| বৈশিষ্ট্য | অগ্রাধিকার | মান | ফ্লেক্স | ব্যাচ |
|---|---|---|---|---|
| মূল্য নির্ধারণ | স্ট্যান্ডার্ডের চেয়ে ৭৫-১০০% বেশি | সম্পূর্ণ মূল্য | ৫০% ছাড় | ৫০% ছাড় |
| লেটেন্সি | সেকেন্ড | সেকেন্ড থেকে মিনিট | মিনিট (লক্ষ্যমাত্রা ১-১৫ মিনিট) | ২৪ ঘন্টা পর্যন্ত |
| নির্ভরযোগ্যতা | উচ্চ (অ-ঝরে পড়া) | উচ্চ / মাঝারি-উচ্চ | সর্বোত্তম প্রচেষ্টা (বাদ দেওয়া যায়) | উচ্চ (থ্রুপুটের জন্য) |
| ইন্টারফেস | সিঙ্ক্রোনাস | সিঙ্ক্রোনাস | সিঙ্ক্রোনাস | অ্যাসিঙ্ক্রোনাস |
মূল সুবিধাগুলি
- স্বল্প বিলম্ব : ইন্টারেক্টিভ, ব্যবহারকারী-মুখী এআই টুলগুলির জন্য সেকেন্ডের মধ্যে প্রতিক্রিয়া জানানোর উদ্দেশ্যে ডিজাইন করা হয়েছে।
- উচ্চ নির্ভরযোগ্যতা : ট্র্যাফিককে সর্বোচ্চ গুরুত্ব সহকারে বিবেচনা করা হয় এবং এটি কঠোরভাবে বর্জনযোগ্য নয়।
- সুষ্ঠু অবনমন : ডায়নামিক সীমা অতিক্রমকারী ট্র্যাফিকের আকস্মিক বৃদ্ধি ব্যর্থ না হয়ে, প্রক্রিয়াকরণের জন্য স্বয়ংক্রিয়ভাবে স্ট্যান্ডার্ড স্তরে নেমে আসে, যা পরিষেবা বিভ্রাট প্রতিরোধ করে।
- ঝামেলাহীন : স্ট্যান্ডার্ড এবং ফ্লেক্স টায়ারের মতোই একই সিঙ্ক্রোনাস
createমেথড ব্যবহার করে।
ব্যবহারের ক্ষেত্র
ব্যবসায়িক-গুরুত্বপূর্ণ ওয়ার্কফ্লোর জন্য প্রায়োরিটি প্রসেসিং আদর্শ, যেখানে পারফরম্যান্স এবং নির্ভরযোগ্যতা সবচেয়ে গুরুত্বপূর্ণ।
- ইন্টারেক্টিভ এআই অ্যাপ্লিকেশন : কাস্টমার সার্ভিস চ্যাটবট এবং কো-পাইলট, যেখানে ব্যবহারকারীরা অতিরিক্ত অর্থ প্রদান করেন এবং দ্রুত ও ধারাবাহিক প্রতিক্রিয়া আশা করেন।
- রিয়েল-টাইম ডিসিশন ইঞ্জিন : যেসব সিস্টেমের জন্য অত্যন্ত নির্ভরযোগ্য ও স্বল্প-বিলম্বের ফলাফল প্রয়োজন, যেমন লাইভ টিকেট বাছাই বা জালিয়াতি শনাক্তকরণ।
- প্রিমিয়াম গ্রাহক বৈশিষ্ট্য : যে সকল ডেভেলপারকে অর্থ প্রদানকারী গ্রাহকদের জন্য উচ্চতর পরিষেবা স্তরের উদ্দেশ্য (SLO) নিশ্চিত করতে হয়।
হারের সীমা
প্রায়োরিটি কনসাম্পশনের নিজস্ব রেট লিমিট থাকে, যদিও এর ব্যবহার সামগ্রিক ইন্টারেক্টিভ ট্র্যাফিক রেট লিমিটের মধ্যে গণনা করা হয়। প্রায়োরিটি ইনফারেন্সের জন্য ডিফল্ট রেট লিমিট হলো মডেল/টিয়ারের স্ট্যান্ডার্ড রেট লিমিটের ০.৩ গুণ।
মার্জিত অবনমন যুক্তি
অতিরিক্ত চাপের কারণে প্রায়োরিটি সীমা অতিক্রম করলে, ওভারফ্লো অনুরোধগুলি 503 বা 429 ত্রুটি দেখিয়ে ব্যর্থ না হয়ে স্বয়ংক্রিয়ভাবে এবং সুষ্ঠুভাবে স্ট্যান্ডার্ড প্রক্রিয়াকরণে নামিয়ে আনা হয়। নামিয়ে আনা অনুরোধগুলির বিল স্ট্যান্ডার্ড হারে করা হয়, প্রায়োরিটি প্রিমিয়াম হারে নয়।
ক্লায়েন্টের দায়িত্ব
- প্রতিক্রিয়া পর্যবেক্ষণ : অনুরোধগুলি ঘন ঘন
standardস্তরে নামিয়ে আনা হচ্ছে কিনা তা শনাক্ত করতে ডেভেলপারদের এপিআই প্রতিক্রিয়ায় থাকাx-gemini-service-tierহেডারটি পর্যবেক্ষণ করা উচিত। - পুনরায় চেষ্টা : ক্লায়েন্টদের অবশ্যই
DEADLINE_EXCEEDEDমতো সাধারণ ত্রুটির জন্য পুনরায় চেষ্টার লজিক/এক্সপোনেনশিয়াল ব্যাকঅফ প্রয়োগ করতে হবে।
মূল্য নির্ধারণ
প্রায়োরিটি ইনফারেন্সের মূল্য স্ট্যান্ডার্ড এপিআই-এর চেয়ে ৭৫-১০০% বেশি এবং এটি টোকেন প্রতি বিল করা হয়।
সমর্থিত মডেল
নিম্নলিখিত মডেলগুলি প্রায়োরিটি ইনফারেন্স সমর্থন করে:
| মডেল | অগ্রাধিকার অনুমান |
|---|---|
| জেমিনি ৩.১ ফ্ল্যাশ-লাইট | ✔️ |
| জেমিনি ৩.১ ফ্ল্যাশ-লাইট প্রিভিউ | ✔️ |
| জেমিনি ৩.১ প্রো প্রিভিউ | ✔️ |
| জেমিনি ৩ ফ্ল্যাশ প্রিভিউ | ✔️ |
| জেমিনি ২.৫ প্রো | ✔️ |
| জেমিনি ২.৫ ফ্ল্যাশ | ✔️ |
| জেমিনি ২.৫ ফ্ল্যাশ-লাইট | ✔️ |
এরপর কী?
- ব্যয় হ্রাসের জন্য ফ্লেক্স ইনফারেন্স ।
- টোকেন : টোকেন সম্পর্কে জানুন।