Gemini Priority API هي فئة استنتاج مميّزة مصمَّمة لأحمال العمل الحاسمة الأهمية التي تتطلّب وقت استجابة أقل وموثوقية أعلى بسعر مميّز. تتم منح الأولوية لطلبات الفئة ذات الأولوية على طلبات واجهة برمجة التطبيقات العادية وطلبات فئة Flex.
تتوفّر ميزة "الاستنتاج حسب الأولوية" لمستخدمي المستوى 2 والمستوى 3 في جميع نقاط نهاية GenerateContent API وInteractions API.
كيفية استخدام ميزة "الأولوية"
لاستخدام فئة الأولوية، اضبط الحقل service_tier في نص الطلب على priority. فئة الخدمة التلقائية هي "عادية" في حال تم حذف الحقل.
Python
from google import genai
client = genai.Client()
try:
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents="Triage this critical customer support ticket immediately.",
config={"service_tier": "priority"},
)
# Validate for graceful downgrade
if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
print("Warning: Priority limit exceeded, processed at Standard tier.")
print(response.text)
except Exception as e:
# Standard error handling (e.g., DEADLINE_EXCEEDED)
print(f"Error during API call: {e}")
JavaScript
import {GoogleGenAI} from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const result = await ai.models.generateContent({
model: "gemini-3-flash-preview",
contents: "Triage this critical customer support ticket immediately.",
config: {serviceTier: "priority"},
});
// Validate for graceful downgrade
if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
console.log("Warning: Priority limit exceeded, processed at Standard tier.");
}
console.log(result.text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
Go
package main
import (
"context"
"fmt"
"log"
"google.golang.org/genai"
)
func main() {
ctx := context.Background()
client, err := genai.NewClient(ctx, nil)
if err != nil {
log.Fatal(err)
}
defer client.Close()
resp, err := client.Models.GenerateContent(
ctx,
"gemini-3-flash-preview",
genai.Text("Triage this critical customer support ticket immediately."),
&genai.GenerateContentConfig{
ServiceTier: "priority",
},
)
if err != nil {
log.Fatalf("Error during API call: %v", err)
}
// Validate for graceful downgrade
if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
}
fmt.Println(resp.Text())
}
REST
curl -X POST "https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent?key=$GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts":[{"text": "Analyze user sentiment in real time"}]
}],
"service_tier": "priority"
}'
طريقة عمل ميزة "الاستنتاج حسب الأولوية"
توجّه مسارات الاستنتاج ذات الأولوية الطلبات إلى قوائم انتظار الحوسبة ذات الأهمية العالية، ما يوفّر أداءً سريعًا يمكن توقّعه للتطبيقات التي تواجه المستخدمين. تتمثّل الآلية الأساسية في الرجوع إلى المعالجة العادية من جهة الخادم بشكل سلس عند تجاوز الحدود الديناميكية لحركة المرور، ما يضمن استقرار التطبيق بدلاً من تعذُّر تنفيذ الطلب.
| الميزة | الأولوية | خطة "الرزمة العادية" | التعبير | مجمّعة |
|---|---|---|---|---|
| الأسعار | أكثر بنسبة تتراوح بين 75% و100% من خطة Standard | السعر الكامل | خصم بنسبة% 50 | خصم بنسبة% 50 |
| وقت الاستجابة | الثواني | من ثوانٍ إلى دقائق | الدقائق (المدة المستهدَفة من دقيقة واحدة إلى 15 دقيقة) | ما يصل إلى 24 ساعة |
| الموثوقية | عالية (غير قابلة للإزالة) | مرتفع / مرتفع إلى حد ما | أفضل جهد (يمكن التخلي عنه) | عالية (لمعدّل نقل البيانات) |
| الواجهة | متزامن | متزامن | متزامن | غير متزامن |
المزايا الرئيسية
- وقت استجابة قصير: تم تصميمها لتوفير أوقات استجابة ثانية واحدة لأدوات الذكاء الاصطناعي التفاعلية التي تتواصل مع المستخدمين.
- موثوقية عالية: يتم التعامل مع عدد الزيارات بأعلى مستوى من الأهمية، ولا يمكن إيقافها بأي شكل من الأشكال.
- التكيّف مع الإصدارات الأقدم: يتم تلقائيًا خفض مستوى الزيادات الحادة في عدد الزيارات التي تتجاوز الحدود الديناميكية إلى المستوى العادي للمعالجة بدلاً من حدوث خطأ، ما يمنع انقطاع الخدمة.
- سهولة الاستخدام: تستخدم هذه الفئة طريقة
generateContentالمتزامنة نفسها التي تستخدمها الفئتان العادية وFlex.
حالات الاستخدام
تُعدّ المعالجة ذات الأولوية مثالية لسير العمل المهمة للنشاط التجاري والتي يكون فيها الأداء والموثوقية في غاية الأهمية.
- تطبيقات الذكاء الاصطناعي التفاعلية: روبوتات الدردشة ومساعدو الذكاء الاصطناعي في خدمة العملاء حيث يدفع المستخدمون رسومًا إضافية ويتوقّعون الحصول على ردود سريعة ومتّسقة.
- محركات اتخاذ القرار في الوقت الفعلي: الأنظمة التي تتطلّب نتائج موثوقة للغاية وبزمن استجابة منخفض، مثل تصنيف طلبات الدعم المباشر أو رصد الاحتيال
- ميزات العملاء المميزين: للمطوّرين الذين يحتاجون إلى ضمان تحقيق أهداف مستوى الخدمة (SLO) الأعلى للعملاء الذين يدفعون مقابل الخدمة.
حدود معدّل الاستخدام
تخضع الاستخدامات ذات الأولوية لحدود معدل خاصة بها، حتى إذا تم احتسابها ضمن حدود معدل الزيارات التفاعلية الإجمالية. حدود المعدّل التلقائية للاستنتاج ذي الأولوية هي 0.3x حد المعدّل العادي لكل نموذج / فئة
منطق الرجوع إلى إصدار سابق
في حال تجاوز حدود الأولوية بسبب الازدحام، يتم تلقائيًا وبشكل سلس خفض مستوى معالجة الطلبات الزائدة إلى "المعالجة العادية" بدلاً من حدوث خطأ 503 أو 429. يتم تحصيل رسوم من الطلبات التي تم تخفيض مستوى أولويتها بالمعدّل العادي، وليس بمعدّل Priority المميز.
مسؤولية العميل
- مراقبة الاستجابة: على المطوّرين مراقبة العنوان
x-gemini-service-tierفي استجابة واجهة برمجة التطبيقات لمعرفة ما إذا كان يتم خفض مستوى الطلبات بشكل متكرر إلىstandard. - عمليات إعادة المحاولة: على العملاء تنفيذ منطق إعادة المحاولة/الرقود الأسي الثنائي للأخطاء العادية، مثل
DEADLINE_EXCEEDED.
الأسعار
يتم تحديد سعر الاستنتاج ذي الأولوية بزيادة تتراوح بين %75 و%100 عن واجهة برمجة التطبيقات العادية، ويتم تحصيل الرسوم لكل رمز مميز.
النماذج المتوافقة
تتيح الطُرز التالية ميزة "الاستنتاج حسب الأولوية":
| الطراز | الاستدلال حسب الأولوية |
|---|---|
| Gemini 3.1 Flash-Lite | ✔️ |
| معاينة Gemini 3.1 Flash-Lite | ✔️ |
| إصدار تجريبي من Gemini 3.1 Pro | ✔️ |
| معاينة Gemini 3 Flash | ✔️ |
| معاينة الصور في Gemini 3 Pro | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash Image | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |
الخطوات التالية
اطّلِع على خيارات الاستنتاج والتحسين الأخرى في Gemini:
- الاستنتاج المرن لخفض التكلفة بنسبة% 50
- Batch API للمعالجة غير المتزامنة في غضون 24 ساعة
- التخزين المؤقت للسياق لتقليل تكاليف الرموز المميزة للإدخال