الاستنتاج ذو الأولوية

‫Gemini Priority API هي طبقة استنتاج مميزة مصمّمة لأحمال العمل الأساسية التي تتطلب وقت استجابة أقل وموثوقية أعلى بسعر مميز. تحظى الزيارات إلى الطبقة ذات الأولوية بأولوية أعلى من الزيارات إلى واجهة برمجة التطبيقات العادية والطبقة المرنة.

يتوفّر الاستنتاج ذو الأولوية في جميع نقاط نهاية واجهة برمجة التطبيقات Interactions API.

كيفية استخدام الطبقة ذات الأولوية

لاستخدام الطبقة ذات الأولوية، اضبطوا حقل service_tier في طلبكم على priority. الطبقة التلقائية هي الطبقة العادية إذا تم حذف الحقل.

Python

from google import genai

client = genai.Client()

try:
    interaction = client.interactions.create(
        model="gemini-3.5-flash",
        input="Triage this critical customer support ticket immediately.",
        service_tier='priority'
    )

    print(interaction.output_text)

except Exception as e:
    print(f"Error during API call: {e}")

JavaScript

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const interaction = await ai.interactions.create({
          model: "gemini-3.5-flash",
          input: "Triage this critical customer support ticket immediately.",
          service_tier: "priority"
      });

      console.log(interaction.output_text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "Content-Type: application/json" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Api-Revision: 2026-05-20" \
  -d '{
    "model": "gemini-3.5-flash",
    "input": "Triage this critical customer support ticket immediately.",
    "service_tier": "priority"
  }'

آلية عمل الاستنتاج ذي الأولوية

يوجّه الاستنتاج ذو الأولوية الطلبات إلى قوائم انتظار الحوسبة عالية الأهمية، ما يوفّر أداءً سريعًا يمكن التنبؤ به للتطبيقات التي يستخدمها المستهلكون. آليته الأساسية هي الرجوع السلس من جهة الخادم إلى المعالجة العادية للزيارات التي تتجاوز الحدود الديناميكية، ما يضمن استقرار التطبيق بدلاً من تعذُّر معالجة الطلب.

الميزة الأولوية خطة "الرزمة العادية" المرونة مجمّعة
الأسعار أكثر بنسبة %75 إلى %100 من خطة "الرزمة العادية" السعر الكامل خصم بنسبة% 50 خصم بنسبة% 50
وقت الاستجابة الثواني من الثواني إلى الدقائق الدقائق (الهدف من دقيقة واحدة إلى 15 دقيقة) ما يصل إلى 24 ساعة
الموثوقية عالية (غير قابلة للتخفيض) عالية / متوسطة إلى عالية بأفضل جهد (قابلة للتخفيض) عالية (لمعدّل نقل البيانات)
الواجهة متزامنة متزامنة متزامنة غير متزامنة

المزايا الرئيسية

  • وقت استجابة منخفض: مصمّمة لأوقات الاستجابة بالثواني لأدوات الذكاء الاصطناعي التفاعلية التي يستخدمها المستهلكون.
  • موثوقية عالية: يتم التعامل مع الزيارات بأعلى درجة من الأهمية ولا يمكن تخفيضها على الإطلاق.
  • التكيّف مع الإصدارات الأقدم: يتم تلقائيًا تخفيض الزيارات التي تتجاوز الحدود الديناميكية إلى الطبقة العادية للمعالجة بدلاً من تعذُّر معالجتها، ما يمنع انقطاع الخدمة.
  • الحد الأدنى من المشاكل: تستخدم الطريقة المتزامنة نفسها create المستخدَمة في الطبقتَين العادية والمرنة.

حالات الاستخدام

تُعد المعالجة ذات الأولوية مثالية لسير العمل الأساسي حيث يكون الأداء والموثوقية في غاية الأهمية.

  • تطبيقات الذكاء الاصطناعي التفاعلية: روبوتات الدردشة و"المساعدون" لخدمة العملاء حيث يدفع المستخدمون سعرًا مميزًا ويتوقعون استجابات سريعة ومتسقة.
  • محركات اتخاذ القرارات في الوقت الفعلي: الأنظمة التي تتطلب نتائج موثوقة للغاية ومنخفضة وقت الاستجابة، مثل فرز التذاكر المباشر أو رصد الاحتيال.
  • ميزات العملاء المميزين: المطوّرون الذين يحتاجون إلى ضمان أهداف أعلى على مستوى الخدمة للعملاء الذين يدفعون رسومًا.

حدود معدّل الاستخدام

تفرض الطبقة ذات الأولوية حدود معدّل الاستخدام الخاصة بها حتى إذا تم احتساب الاستهلاك ضمن حدود معدّل الاستخدام الإجمالية للزيارات التفاعلية. حدود معدّل الاستخدام التلقائية للاستنتاج ذي الأولوية هي 0.3 ضعف حد معدّل الاستخدام العادي للطراز / الطبقة

منطق الرجوع السلس

إذا تم تجاوز حدود الطبقة ذات الأولوية بسبب الازدحام، يتم تلقائيًا وبشكل سلس تخفيض الطلبات التي تتجاوز الحد إلى المعالجة العادية بدلاً من تعذُّر معالجتها بسبب الخطأ 503 أو 429. تتم فوترة الطلبات التي تم تخفيضها بالسعر العادي، وليس بالسعر المميز للطبقة ذات الأولوية.

مسؤولية العميل

  • مراقبة الردود: على المطوّرين مراقبة x-gemini-service-tier العنوان في ردّ واجهة برمجة التطبيقات لرصد ما إذا كان يتم تخفيض الطلبات بشكل متكرر إلى standard.
  • إعادة المحاولات: على العملاء تنفيذ منطق إعادة المحاولة/التراجع الأسي لـ الأخطاء العادية، مثل DEADLINE_EXCEEDED.

الأسعار

يتم تسعير الاستنتاج ذي الأولوية بنسبة %75 إلى %100 أكثر من واجهة برمجة التطبيقات العادية ويتم تحصيل الرسوم لكل رمز مميز.

الطُرز المتوافقة

تسمح الطُرز التالية بالاستنتاج ذي الأولوية:

الطراز الاستنتاج ذو الأولوية
‫Gemini 3.5 Flash ✔️
‫Gemini 3.1 Flash-Lite ✔️
‫Gemini 3.1 Pro (إصدار تجريبي) ✔️
‫Gemini 3 Flash (إصدار تجريبي) ✔️
‫Gemini 2.5 Pro ✔️
‫Gemini 2.5 Flash ✔️
‫Gemini 2.5 Flash-Lite ✔️

الخطوات التالية