الاستنتاج ذو الأولوية
Gemini Priority API هي طبقة استنتاج مميزة مصمّمة لأحمال العمل الأساسية التي تتطلّب وقت استجابة أقل وموثوقية أعلى بسعر مميز. تحظى الزيارات إلى الطبقة ذات الأولوية بأولوية أعلى من الزيارات إلى واجهة برمجة التطبيقات العادية والطبقة المرنة.
يتوفّر الاستنتاج ذو الأولوية في جميع نقاط نهاية Interactions API.
كيفية استخدام الأولوية
لاستخدام الطبقة ذات الأولوية، اضبط الحقل service_tier في طلبك على priority. الطبقة التلقائية هي الطبقة العادية إذا تم حذف الحقل.
Python
from google import genai
client = genai.Client()
try:
interaction = client.interactions.create(
model="gemini-3-flash-preview",
input="Triage this critical customer support ticket immediately.",
service_tier='priority'
)
# Validate for graceful downgrade
# Note: Checking headers might vary by SDK implementation, this is illustrative
# if interaction.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
# print("Warning: Priority limit exceeded, processed at Standard tier.")
print(interaction.steps[-1].content[0].text)
except Exception as e:
print(f"Error during API call: {e}")
JavaScript
import { GoogleGenAI } from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const interaction = await ai.interactions.create({
model: "gemini-3-flash-preview",
input: "Triage this critical customer support ticket immediately.",
serviceTier: "priority"
});
// Validate for graceful downgrade
// if (interaction.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
// console.log("Warning: Priority limit exceeded, processed at Standard tier.");
// }
console.log(interaction.steps.at(-1).content[0].text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
راحة
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "Content-Type: application/json" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-d '{
"model": "gemini-3-flash-preview",
"input": "Triage this critical customer support ticket immediately.",
"service_tier": "priority"
}'
آلية عمل الاستنتاج ذي الأولوية
يوجّه الاستنتاج ذو الأولوية الطلبات إلى قوائم انتظار الحوسبة عالية الأهمية، ما يوفّر أداءً سريعًا يمكن التنبؤ به للتطبيقات التي يتفاعل معها المستخدمون. آليته الأساسية هي الرجوع السلس من جهة الخادم إلى المعالجة العادية للزيارات التي تتجاوز الحدود الديناميكية، ما يضمن استقرار التطبيق بدلاً من تعذُّر معالجة الطلب.
| الميزة | الأولوية | خطة "الرزمة العادية" | التعبير | مجمّعة |
|---|---|---|---|---|
| الأسعار | أكثر بنسبة %75 إلى %100 من خطة "الرزمة العادية" | السعر الكامل | خصم بنسبة% 50 | خصم بنسبة% 50 |
| وقت الاستجابة | الثواني | من الثواني إلى الدقائق | الدقائق (الهدف من دقيقة واحدة إلى 15 دقيقة) | ما يصل إلى 24 ساعة |
| الموثوقية | عالية (لا يمكن تقليلها) | عالية / متوسطة إلى عالية | بأفضل جهد (يمكن تقليلها) | عالية (بالنسبة إلى معدّل نقل البيانات) |
| الواجهة | متزامن | متزامن | متزامن | غير متزامن |
المزايا الرئيسية
- وقت استجابة منخفض: مصمّم لأوقات الاستجابة بالثواني لأدوات الذكاء الاصطناعي التفاعلية التي يتفاعل معها المستخدمون.
- موثوقية عالية: يتم التعامل مع الزيارات بأعلى درجة من الأهمية ولا يمكن تقليلها على الإطلاق.
- التكيّف مع الإصدارات الأقدم: يتم تلقائيًا الرجوع بالزيارات التي تتجاوز الحدود الديناميكية إلى الطبقة العادية للمعالجة بدلاً من تعذُّر معالجتها، ما يمنع انقطاع الخدمة.
- الحد الأدنى من المشاكل: تستخدِم الطريقتَين العادية والمرنة طريقة
createالمتزامنة نفسها.
حالات الاستخدام
تُعدّ المعالجة ذات الأولوية مثالية لسير العمل الأساسي الذي تكون فيه الأولوية للأداء والموثوقية.
- تطبيقات الذكاء الاصطناعي التفاعلية: روبوتات الدردشة ومساعدو خدمة العملاء حيث يدفع المستخدمون سعرًا مميزًا ويتوقعون استجابات سريعة ومتسقة.
- محركات اتخاذ القرارات في الوقت الفعلي: الأنظمة التي تتطلب نتائج موثوقة جدًا ومنخفضة وقت الاستجابة، مثل فرز التذاكر المباشر أو رصد الاحتيال.
- ميزات العملاء المميزين: المطوّرون الذين يحتاجون إلى ضمان أهداف أعلى على مستوى الخدمة للعملاء الذين يدفعون رسومًا.
حدود معدّل الاستخدام
تفرض المعالجة ذات الأولوية حدود معدّل الاستخدام الخاصة بها حتى إذا تم احتساب الاستهلاك ضمن حدود معدّل الاستخدام الإجمالية للزيارات التفاعلية. حدود معدّل الاستخدام التلقائية للاستنتاج ذي الأولوية هي 0.3 من حد معدّل الاستخدام العادي للطراز / الطبقة
منطق الرجوع السلس
إذا تم تجاوز حدود الأولوية بسبب الازدحام، يتم تلقائيًا وبشكل سلس الرجوع بالطلبات التي تتجاوز الحد إلى المعالجة العادية بدلاً من تعذُّر معالجتها مع ظهور الخطأ 503 أو 429. تتم فوترة الطلبات التي تم الرجوع بها بالسعر العادي، وليس بالسعر المميز للأولوية.
مسؤولية العميل
- مراقبة الاستجابة: على المطوّرين مراقبة
x-gemini-service-tierالعنوان في استجابة واجهة برمجة التطبيقات لرصد ما إذا كان يتم الرجوع بالطلبات بشكل متكرر إلىstandard. - إعادة المحاولات: على العملاء تنفيذ منطق إعادة المحاولة أو التراجع الأسي لـ
الأخطاء العادية، مثل
DEADLINE_EXCEEDED.
الأسعار
يتم تسعير الاستنتاج ذي الأولوية بنسبة %75 إلى %100 أكثر من واجهة برمجة التطبيقات العادية ويتم تحصيل الرسوم لكل رمز مميز.
الطُرز المتوافقة
تسمح الطُرز التالية بالاستنتاج ذي الأولوية:
| الطراز | الاستنتاج ذو الأولوية |
|---|---|
| Gemini 3.1 Flash-Lite | ✔️ |
| Gemini 3.1 Flash-Lite (إصدار تجريبي) | ✔️ |
| Gemini 3.1 Pro (إصدار تجريبي) | ✔️ |
| Gemini 3 Flash (إصدار تجريبي) | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |
الخطوات التالية
- الاستنتاج المرن لتقليل التكلفة
- الرموز المميّزة: فهم الرموز المميّزة