Gemini Priority API هو مستوى استنتاج متميّز مصمّم لأحمال العمل الأساسية التي تتطلّب وقت استجابة أقل وموثوقية أعلى بسعر متميّز. تُمنح الأولوية لحركة المرور في مستوى "الأولوية" على حركة المرور في واجهة برمجة التطبيقات العادية ومستوى "المرونة".
يتوفّر الاستنتاج في مستوى "الأولوية" لمستخدمي المستوى 2 والمستوى 3 من خلال نقاط نهاية GenerateContent API وInteractions API.
كيفية استخدام مستوى "الأولوية"
لاستخدام مستوى "الأولوية"، اضبطوا حقل service_tier في نص الطلب على priority. المستوى التلقائي هو "عادي" إذا تم حذف الحقل.
Python
from google import genai
client = genai.Client()
try:
response = client.models.generate_content(
model="gemini-3.5-flash",
contents="Triage this critical customer support ticket immediately.",
config={"service_tier": "priority"},
)
# Validate for graceful downgrade
if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
print("Warning: Priority limit exceeded, processed at Standard tier.")
print(response.text)
except Exception as e:
# Standard error handling (e.g., DEADLINE_EXCEEDED)
print(f"Error during API call: {e}")
JavaScript
import {GoogleGenAI} from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const result = await ai.models.generateContent({
model: "gemini-3.5-flash",
contents: "Triage this critical customer support ticket immediately.",
config: {serviceTier: "priority"},
});
// Validate for graceful downgrade
if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
console.log("Warning: Priority limit exceeded, processed at Standard tier.");
}
console.log(result.text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
انتقال
package main
import (
"context"
"fmt"
"log"
"google.golang.org/genai"
)
func main() {
ctx := context.Background()
client, err := genai.NewClient(ctx, nil)
if err != nil {
log.Fatal(err)
}
defer client.Close()
resp, err := client.Models.GenerateContent(
ctx,
"gemini-3.5-flash",
genai.Text("Triage this critical customer support ticket immediately."),
&genai.GenerateContentConfig{
ServiceTier: "priority",
},
)
if err != nil {
log.Fatalf("Error during API call: %v", err)
}
// Validate for graceful downgrade
if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
}
fmt.Println(resp.Text())
}
REST
curl -X POST "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent?key=$GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts":[{"text": "Analyze user sentiment in real time"}]
}],
"service_tier": "priority"
}'
آلية عمل الاستنتاج في مستوى "الأولوية"
يوجّه الاستنتاج في مستوى "الأولوية" الطلبات إلى قوائم انتظار الحوسبة عالية الأهمية، ما يوفّر أداءً سريعًا يمكن التنبؤ به للتطبيقات التي يتفاعل معها المستخدمون. آليته الأساسية هي الرجوع السلس من جهة الخادم إلى المعالجة العادية لحركة المرور التي تتجاوز الحدود الديناميكية، ما يضمن استقرار التطبيق بدلاً من تعذُّر معالجة الطلب.
| الميزة | الأولوية | خطة "الرزمة العادية" | التعبير | مجمّعة |
|---|---|---|---|---|
| الأسعار | أعلى بنسبة %75 إلى %100 من الخطة "العادية" | السعر الكامل | خصم بنسبة% 50 | خصم بنسبة% 50 |
| وقت الاستجابة | الثواني | من الثواني إلى الدقائق | الدقائق (الهدف من دقيقة واحدة إلى 15 دقيقة) | ما يصل إلى 24 ساعة |
| الموثوقية | عالية (لا يمكن تقليلها) | عالية / متوسطة إلى عالية | بأفضل جهد (يمكن تقليلها) | عالية (لمعدّل نقل البيانات) |
| الواجهة | متزامن | متزامن | متزامن | غير متزامن |
المزايا الرئيسية
- وقت استجابة منخفض: مصمّم لأوقات الاستجابة بالثواني لأدوات الذكاء الاصطناعي التفاعلية التي يتفاعل معها المستخدمون.
- موثوقية عالية: يتم التعامل مع حركة المرور بأعلى درجة من الأهمية ولا يمكن تقليلها على الإطلاق.
- التكيّف مع الإصدارات الأقدم: يتم تلقائيًا الرجوع إلى مستوى "الرزمة العادية" لمعالجة الارتفاعات في حركة المرور التي تتجاوز الحدود الديناميكية بدلاً من تعذُّر معالجتها، ما يمنع انقطاع الخدمة.
- الحد الأدنى من المشاكل: يستخدم الطريقة المتزامنة نفسها
generateContentالتي يستخدمها مستوى "الرزمة العادية" ومستوى "المرونة".
حالات الاستخدام
تُعدّ المعالجة في مستوى "الأولوية" مثالية لسير العمل الأساسي الذي تكون فيه الأولوية للأداء والموثوقية.
- تطبيقات الذكاء الاصطناعي التفاعلية: روبوتات الدردشة و"المساعدون" لخدمة العملاء حيث يدفع المستخدمون سعرًا متميّزًا ويتوقّعون استجابات سريعة ومتّسقة.
- محركات اتخاذ القرارات في الوقت الفعلي: الأنظمة التي تتطلّب نتائج موثوقة جدًا ومنخفضة وقت الاستجابة ، مثل فرز التذاكر المباشر أو كشف الاحتيال.
- ميزات العملاء المتميّزين: المطوّرون الذين يحتاجون إلى ضمان أهداف أعلى على مستوى الخدمة للعملاء الذين يدفعون.
حدود معدّل الاستخدام
يحتفظ الاستهلاك في مستوى "الأولوية" بحدود معدّل الاستخدام الخاصة به على الرغم من احتساب الاستهلاك ضمن حدود معدّل الاستخدام الإجمالية لحركة المرور التفاعلية. حدود معدّل الاستخدام التلقائية للاستنتاج في مستوى "الأولوية" هي 0.3 من حد معدّل الاستخدام العادي للنموذج / المستوى
منطق الرجوع السلس
إذا تم تجاوز حدود مستوى "الأولوية" بسبب الازدحام، يتم تلقائيًا وبشكل سلس الرجوع إلى المعالجة في مستوى "الرزمة العادية" للطلبات التي تتجاوز الحد بدلاً من تعذُّر معالجتها مع ظهور الخطأ 503 أو 429. تتم فوترة الطلبات التي تم الرجوع إلى مستوى "الرزمة العادية" لمعالجتها بالسعر العادي، وليس بالسعر المتميّز لمستوى "الأولوية".
مسؤولية العميل
- مراقبة الردود: على المطوّرين مراقبة
x-gemini-service-tierالعنوان في ردّ واجهة برمجة التطبيقات للكشف عمّا إذا كان يتم الرجوع بشكل متكرر إلىstandardلمعالجة الطلبات. - إعادة المحاولات: على العملاء تنفيذ منطق إعادة المحاولة/التأخير الأسي لـ
الأخطاء العادية، مثل
DEADLINE_EXCEEDED.
الأسعار
يتم تسعير الاستنتاج في مستوى "الأولوية" بنسبة %75 إلى %100 أعلى من واجهة برمجة التطبيقات العادية ويتم تحصيل الرسوم لكل رمز مميّز.
النماذج المتوافقة
تسمح النماذج التالية بالاستنتاج في مستوى "الأولوية":
| الطراز | الاستنتاج في مستوى "الأولوية" |
|---|---|
| Gemini 3.5 Flash | ✔️ |
| Gemini 3.1 Flash-Lite | ✔️ |
| Gemini 3.1 Pro Preview | ✔️ |
| Gemini 3 Flash Preview | ✔️ |
| Gemini 3 Pro Image Preview | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash Image | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |
الخطوات التالية
يمكنكم الاطّلاع على خيارات الاستنتاج والتحسين الأخرى في Gemini:
- الاستنتاج في مستوى "المرونة" لخفض التكلفة بنسبة% 50
- Batch API للمعالجة غير المتزامنة في غضون 24 ساعة
- التخزين المؤقت للسياق لتقليل تكاليف الرموز المميّزة للإدخال