Gemini Priority API هي طبقة استنتاج مميزة مصمّمة لأحمال العمل الأساسية التي تتطلّب وقت استجابة أقل وموثوقية أعلى بسعر مميز. تحظى الزيارات إلى طبقة الأولوية بأولوية أعلى من الزيارات إلى واجهة برمجة التطبيقات العادية والطبقة المرنة.
يتوفّر الاستنتاج ذو الأولوية لمستخدمي الطبقة 2 والطبقة 3 من خلال نقطتَي نهاية GenerateContent API وInteractions API.
كيفية استخدام الأولوية
لاستخدام طبقة الأولوية، اضبط حقل service_tier في نص الطلب على priority. الطبقة التلقائية هي الطبقة العادية إذا تم حذف الحقل.
Python
from google import genai
client = genai.Client()
try:
response = client.models.generate_content(
model="gemini-3.5-flash",
contents="Triage this critical customer support ticket immediately.",
config={"service_tier": "priority"},
)
# Validate for graceful downgrade
if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
print("Warning: Priority limit exceeded, processed at Standard tier.")
print(response.text)
except Exception as e:
# Standard error handling (e.g., DEADLINE_EXCEEDED)
print(f"Error during API call: {e}")
JavaScript
import {GoogleGenAI} from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const result = await ai.models.generateContent({
model: "gemini-3.5-flash",
contents: "Triage this critical customer support ticket immediately.",
config: {serviceTier: "priority"},
});
// Validate for graceful downgrade
if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
console.log("Warning: Priority limit exceeded, processed at Standard tier.");
}
console.log(result.text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
انتقال
package main
import (
"context"
"fmt"
"log"
"google.golang.org/genai"
)
func main() {
ctx := context.Background()
client, err := genai.NewClient(ctx, nil)
if err != nil {
log.Fatal(err)
}
defer client.Close()
resp, err := client.Models.GenerateContent(
ctx,
"gemini-3.5-flash",
genai.Text("Triage this critical customer support ticket immediately."),
&genai.GenerateContentConfig{
ServiceTier: "priority",
},
)
if err != nil {
log.Fatalf("Error during API call: %v", err)
}
// Validate for graceful downgrade
if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
}
fmt.Println(resp.Text())
}
راحة
curl -X POST "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent?key=$GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts":[{"text": "Analyze user sentiment in real time"}]
}],
"service_tier": "priority"
}'
آلية عمل الاستنتاج ذي الأولوية
يوجّه الاستنتاج ذو الأولوية الطلبات إلى قوائم انتظار الحوسبة عالية الأهمية، ما يوفّر أداءً سريعًا يمكن التنبؤ به للتطبيقات التي يتفاعل معها المستخدمون. آليته الأساسية هي الرجوع السلس من جهة الخادم إلى المعالجة العادية للزيارات التي تتجاوز الحدود الديناميكية، ما يضمن استقرار التطبيق بدلاً من تعذُّر معالجة الطلب.
| الميزة | الأولوية | خطة "الرزمة العادية" | التعبير | مجمّعة |
|---|---|---|---|---|
| الأسعار | أكثر بنسبة %75 إلى %100 من خطة "الرزمة العادية" | السعر الكامل | خصم بنسبة% 50 | خصم بنسبة% 50 |
| وقت الاستجابة | الثواني | من الثواني إلى الدقائق | الدقائق (من دقيقة واحدة إلى 15 دقيقة كحد أقصى) | ما يصل إلى 24 ساعة |
| الموثوقية | عالية (لا يمكن تقليلها) | عالية / متوسطة عالية | بأفضل جهد (يمكن تقليلها) | عالية (لمعدّل نقل البيانات) |
| الواجهة | متزامن | متزامن | متزامن | غير متزامن |
المزايا الرئيسية
- وقت استجابة منخفض: مصمّم لأوقات الاستجابة بالثواني لأدوات الذكاء الاصطناعي التفاعلية التي يتفاعل معها المستخدمون.
- موثوقية عالية: يتم التعامل مع الزيارات بأعلى درجة من الأهمية ولا يمكن تقليلها على الإطلاق.
- التكيّف مع الإصدارات الأقدم: يتم تلقائيًا الرجوع إلى الطبقة العادية لمعالجة الزيارات التي تتجاوز الحدود الديناميكية بدلاً من تعذُّر معالجتها، ما يمنع انقطاع الخدمة.
- الحد الأدنى من المشاكل: تستخدم الطريقتان العادية والمرنة طريقة
generateContentالمتزامنة نفسها.
حالات الاستخدام
تُعد المعالجة ذات الأولوية مثالية لسير العمل الأساسي الذي تكون فيه الأولوية للأداء والموثوقية.
- تطبيقات الذكاء الاصطناعي التفاعلية: روبوتات الدردشة و"المساعدون" لخدمة العملاء حيث يدفع المستخدمون سعرًا مميزًا ويتوقعون استجابات سريعة ومتسقة.
- محركات اتخاذ القرارات في الوقت الفعلي: الأنظمة التي تتطلب نتائج موثوقة جدًا ومنخفضة وقت الاستجابة ، مثل فرز التذاكر المباشر أو كشف الاحتيال.
- ميزات العملاء المميزين: المطوّرون الذين يحتاجون إلى ضمان أهداف مستوى خدمة أعلى للعملاء الذين يدفعون رسومًا.
الحدود القصوى لمعدّل الاستخدام
تخضع عمليات الاستهلاك ذات الأولوية لحدود قصوى لمعدّل الاستخدام خاصة بها، على الرغم من احتساب عمليات الاستهلاك ضمن الحدود القصوى لمعدّل استخدام الزيارات التفاعلية بشكل عام. الحدود القصوى التلقائية لمعدّل استخدام الاستنتاج ذي الأولوية هي 0.3 ضعف الحد الأقصى لمعدّل الاستخدام العادي للطراز / الطبقة
منطق الرجوع السلس
إذا تم تجاوز الحدود القصوى للأولوية بسبب الازدحام، يتم تلقائيًا وبشكل سلس الرجوع إلى المعالجة العادية للطلبات التي تتجاوز الحد الأقصى بدلاً من تعذُّر معالجتها بسبب ظهور الخطأ 503 أو 429. تتم فوترة الطلبات التي تم الرجوع إلى معالجتها بالسعر العادي، وليس بالسعر المميز للأولوية.
مسؤولية العميل
- مراقبة الردود: على المطوّرين مراقبة
x-gemini-service-tierالعنوان في ردّ واجهة برمجة التطبيقات للكشف عمّا إذا كان يتم الرجوع بشكل متكرر إلىstandard. - إعادة المحاولات: على العملاء تنفيذ منطق إعادة المحاولة/التراجع الأسي لـ
الأخطاء العادية، مثل
DEADLINE_EXCEEDED.
الأسعار
يتم تسعير الاستنتاج ذي الأولوية بنسبة %75 إلى %100 أكثر من واجهة برمجة التطبيقات العادية ويتم تحصيل الرسوم لكل رمز مميز.
الطُرز المتوافقة
تسمح الطُرز التالية بالاستنتاج ذي الأولوية:
| الطراز | الاستنتاج ذو الأولوية |
|---|---|
| Gemini 3.5 Flash | ✔️ |
| Gemini 3.1 Flash-Lite | ✔️ |
| Gemini 3.1 Pro Preview | ✔️ |
| Gemini 3 Flash Preview | ✔️ |
| Gemini 3 Pro Image Preview | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash Image | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |
الخطوات التالية
يمكنك الاطّلاع على خيارات الاستنتاج والتحسين الأخرى في Gemini:
- الاستنتاج المرن لخفض التكلفة بنسبة% 50
- واجهة برمجة التطبيقات المجمّعة للمعالجة غير المتزامنة في غضون 24 ساعة
- التخزين المؤقت للسياق لتقليل تكاليف الرموز المميّزة للإدخال