Gemini Priority API هو مستوى استنتاج متميّز مصمّم لأحمال العمل الحاسمة التي تتطلّب وقت استجابة أقل وموثوقية أعلى بسعر متميّز. تُمنح الأولوية لحركة المرور في مستوى "الأولوية" على حركة المرور في واجهة برمجة التطبيقات العادية ومستوى "التعبير".
يتوفّر الاستنتاج ذو الأولوية لمستخدمي المستوى 2 والمستوى 3 على نقاط نهاية GenerateContent API وInteractions API.
كيفية استخدام مستوى "الأولوية"
لاستخدام مستوى "الأولوية"، اضبط حقل service_tier في نص الطلب على priority. المستوى التلقائي هو "عادي" إذا تم حذف الحقل.
Python
from google import genai
client = genai.Client()
try:
response = client.models.generate_content(
model="gemini-3.5-flash",
contents="Triage this critical customer support ticket immediately.",
config={"service_tier": "priority"},
)
# Validate for graceful downgrade
if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
print("Warning: Priority limit exceeded, processed at Standard tier.")
print(response.text)
except Exception as e:
# Standard error handling (e.g., DEADLINE_EXCEEDED)
print(f"Error during API call: {e}")
JavaScript
import {GoogleGenAI} from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const result = await ai.models.generateContent({
model: "gemini-3.5-flash",
contents: "Triage this critical customer support ticket immediately.",
config: {serviceTier: "priority"},
});
// Validate for graceful downgrade
if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
console.log("Warning: Priority limit exceeded, processed at Standard tier.");
}
console.log(result.text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
انتقال
package main
import (
"context"
"fmt"
"log"
"google.golang.org/genai"
)
func main() {
ctx := context.Background()
client, err := genai.NewClient(ctx, nil)
if err != nil {
log.Fatal(err)
}
defer client.Close()
resp, err := client.Models.GenerateContent(
ctx,
"gemini-3.5-flash",
genai.Text("Triage this critical customer support ticket immediately."),
&genai.GenerateContentConfig{
ServiceTier: "priority",
},
)
if err != nil {
log.Fatalf("Error during API call: %v", err)
}
// Validate for graceful downgrade
if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
}
fmt.Println(resp.Text())
}
REST
curl -X POST "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent?key=$GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts":[{"text": "Analyze user sentiment in real time"}]
}],
"service_tier": "priority"
}'
آلية عمل الاستنتاج ذي الأولوية
يوجّه الاستنتاج ذو الأولوية الطلبات إلى قوائم انتظار الحوسبة عالية الأهمية، ما يوفّر أداءً سريعًا يمكن التنبؤ به للتطبيقات التي يتفاعل معها المستخدمون. آليته الأساسية هي الرجوع السلس من جهة الخادم إلى المعالجة العادية لحركة المرور التي تتجاوز الحدود الديناميكية، ما يضمن استقرار التطبيق بدلاً من تعذُّر معالجة الطلب.
| الميزة | الأولوية | خطة "الرزمة العادية" | التعبير | مجمّعة |
|---|---|---|---|---|
| الأسعار | أعلى بنسبة %75 إلى %100 من الخطة "الرزمة العادية" | السعر الكامل | خصم بنسبة% 50 | خصم بنسبة% 50 |
| وقت الاستجابة | الثواني | من الثواني إلى الدقائق | الدقائق (الهدف من دقيقة واحدة إلى 15 دقيقة) | ما يصل إلى 24 ساعة |
| الموثوقية | عالية (لا يمكن تقليلها) | عالية / متوسطة إلى عالية | بأفضل جهد (يمكن تقليلها) | عالية (لمعدّل نقل البيانات) |
| الواجهة | متزامن | متزامن | متزامن | غير متزامن |
المزايا الرئيسية
- وقت استجابة منخفض: مصمّم لأوقات الاستجابة بالثواني لأدوات الذكاء الاصطناعي التفاعلية التي يتفاعل معها المستخدمون.
- موثوقية عالية: يتم التعامل مع حركة المرور بأعلى درجة من الأهمية ولا يمكن تقليلها على الإطلاق.
- التكيّف مع الإصدارات الأقدم: يتم تلقائيًا الرجوع بحركة المرور التي تتجاوز الحدود الديناميكية إلى مستوى "الرزمة العادية" للمعالجة بدلاً من تعذُّرها، ما يمنع انقطاع الخدمة.
- الحد الأدنى من المشاكل: يستخدم الطريقة المتزامنة نفسها
generateContentالتي يستخدمها مستوى الرزمة العادية" ومستوى "التعبير".
حالات الاستخدام
تُعدّ المعالجة ذات الأولوية مثالية لسير العمل الحاسم الذي تكون فيه الأولوية للأداء والموثوقية.
- تطبيقات الذكاء الاصطناعي التفاعلية: روبوتات الدردشة ومساعدو خدمة العملاء الذين يدفع المستخدمون سعرًا متميّزًا ويتوقّعون استجابات سريعة ومتّسقة.
- محركات اتخاذ القرارات في الوقت الفعلي: الأنظمة التي تتطلّب نتائج موثوقة جدًا ومنخفضة وقت الاستجابة ، مثل فرز التذاكر المباشر أو كشف الاحتيال.
- ميزات العملاء المتميّزين: المطوّرون الذين يحتاجون إلى ضمان أهداف أعلى لمستوى الخدمة (SLOs) للعملاء الذين يدفعون.
حدود معدّل الاستخدام
يحتفظ الاستهلاك ذو الأولوية بحدود معدّل الاستخدام الخاصة به على الرغم من احتساب الاستهلاك ضمن حدود معدّل الاستخدام الإجمالية لحركة المرور التفاعلية. حدود معدّل الاستخدام التلقائية للاستنتاج ذي الأولوية هي 0.3 ضعف حد معدّل الاستخدام العادي للنموذج / المستوى
منطق الرجوع السلس
إذا تم تجاوز حدود "الأولوية" بسبب الازدحام، يتم تلقائيًا وبشكل سلس الرجوع بطلبات تجاوز الحد إلى المعالجة العادية بدلاً من تعذُّرها مع ظهور الخطأ 503 أو 429. تتم فوترة الطلبات التي تم الرجوع بها بالسعر العادي، وليس بالسعر المتميّز لمستوى "الأولوية".
مسؤولية العميل
- مراقبة الردود: على المطوّرين مراقبة
x-gemini-service-tierعنوان في ردّ واجهة برمجة التطبيقات للكشف عمّا إذا كان يتم الرجوع بالطلبات بشكل متكرّر إلىstandard. - إعادة المحاولات: على العملاء تنفيذ منطق إعادة المحاولة/التراجع الأسي لـ
الأخطاء العادية، مثل
DEADLINE_EXCEEDED.
الأسعار
يتم تسعير الاستنتاج ذي الأولوية بنسبة %75 إلى %100 أعلى من واجهة برمجة التطبيقات العادية ويتم تحصيل الرسوم لكل رمز مميّز.
النماذج المتوافقة
تسمح النماذج التالية بالاستنتاج ذي الأولوية:
| الطراز | الاستنتاج ذو الأولوية |
|---|---|
| Gemini 3.5 Flash | ✔️ |
| Gemini 3.1 Flash-Lite | ✔️ |
| Gemini 3.1 Pro Preview | ✔️ |
| Gemini 3 Flash Preview | ✔️ |
| Gemini 3 Pro Image Preview | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash Image | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |
الخطوات التالية
يمكنك الاطّلاع على خيارات الاستنتاج والتحسين الأخرى في Gemini:
- الاستنتاج في مستوى "التعبير" لخفض التكلفة بنسبة% 50
- Batch API للمعالجة غير المتزامنة في غضون 24 ساعة
- تخزين السياق مؤقتًا لتقليل تكاليف الرموز المميّزة للإدخال