الاستنتاج ذو الأولوية

واجهة برمجة التطبيقات Gemini Priority API هي مستوى استنتاج متميّز مصمّم لأحمال العمل الأساسية للمؤسسة التي تتطلّب وقت استجابة أقل وموثوقية أعلى بسعر متميّز. تحظى الزيارات في المستوى ذي الأولوية بأولوية أعلى من الزيارات في واجهة برمجة التطبيقات العادية والمستوى المرن.

يتوفّر الاستنتاج ذو الأولوية في جميع نقاط نهاية واجهة برمجة التطبيقات Interactions API.

كيفية استخدام المستوى ذي الأولوية

لاستخدام المستوى ذي الأولوية، اضبطوا الحقل service_tier في طلبكم على priority. المستوى التلقائي هو المستوى العادي إذا تم حذف الحقل.

Python

# This will only work for SDK newer than 2.0.0
from google import genai

client = genai.Client()

try:
    interaction = client.interactions.create(
        model="gemini-3-flash-preview",
        input="Triage this critical customer support ticket immediately.",
        service_tier='priority'
    )

    # Validate for graceful downgrade
    # Note: Checking headers might vary by SDK implementation, this is illustrative
    # if interaction.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
    #     print("Warning: Priority limit exceeded, processed at Standard tier.")

    print(interaction.steps[-1].content[0].text)

except Exception as e:
    print(f"Error during API call: {e}")

JavaScript

// This will only work for SDK newer than 2.0.0
import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const interaction = await ai.interactions.create({
          model: "gemini-3-flash-preview",
          input: "Triage this critical customer support ticket immediately.",
          service_tier: "priority"
      });

      // Validate for graceful downgrade
      // if (interaction.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
      //     console.log("Warning: Priority limit exceeded, processed at Standard tier.");
      // }

      console.log(interaction.steps.at(-1).content[0].text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

راحة

# Specifies the API revision to avoid breaking changes when they become default
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "Content-Type: application/json" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Api-Revision: 2026-05-20" \
  -d '{
    "model": "gemini-3-flash-preview",
    "input": "Triage this critical customer support ticket immediately.",
    "service_tier": "priority"
  }'

آلية عمل الاستنتاج ذي الأولوية

يوجّه الاستنتاج ذو الأولوية الطلبات إلى قوائم انتظار الحوسبة ذات الأهمية العالية، ما يوفّر أداءً سريعًا يمكن التنبؤ به للتطبيقات التي يستخدمها المستهلكون. آليته الأساسية هي الرجوع السلس من جهة الخادم إلى المعالجة العادية للزيارات التي تتجاوز الحدود الديناميكية، ما يضمن استقرار التطبيق بدلاً من تعذُّر معالجة الطلب.

الميزة الأولوية خطة "الرزمة العادية" التعبير مجمّعة
الأسعار أكثر بنسبة %75 إلى %100 من خطة "الرزمة العادية" السعر الكامل خصم بنسبة% 50 خصم بنسبة% 50
وقت الاستجابة الثواني من الثواني إلى الدقائق الدقائق (الهدف من دقيقة واحدة إلى 15 دقيقة) ما يصل إلى 24 ساعة
الموثوقية عالية (غير قابلة للتقليل) عالية / متوسطة إلى عالية بأفضل جهد (قابلة للتقليل) عالية (بالنسبة إلى معدّل نقل البيانات)
الواجهة متزامن متزامن متزامن غير متزامن

المزايا الرئيسية

  • وقت استجابة منخفض: مصمّم لأوقات الاستجابة بالثواني لأدوات الذكاء الاصطناعي التفاعلية التي يستخدمها المستهلكون.
  • موثوقية عالية: يتم التعامل مع الزيارات بأعلى درجة من الأهمية وهي غير قابلة للتقليل على الإطلاق.
  • التكيّف مع الإصدارات الأقدم: يتم تلقائيًا الرجوع إلى المستوى العادي لمعالجة الارتفاعات المفاجئة في الزيارات التي تتجاوز الحدود الديناميكية بدلاً من تعذُّر معالجتها، ما يمنع انقطاع الخدمة.
  • الحد الأدنى من المشاكل: يستخدم الطريقة المتزامنة نفسها create التي يستخدمها المستوى العادي والمستوى المرن.

حالات الاستخدام

تُعدّ المعالجة ذات الأولوية مثالية لسير العمل الأساسي للمؤسسة حيث يكون الأداء والموثوقية في غاية الأهمية.

  • تطبيقات الذكاء الاصطناعي التفاعلية: روبوتات الدردشة ومساعدو خدمة العملاء حيث يدفع المستخدمون سعرًا متميّزًا ويتوقعون استجابات سريعة ومتّسقة.
  • محركات اتخاذ القرارات في الوقت الفعلي: الأنظمة التي تتطلّب نتائج موثوقة جدًا ومنخفضة وقت الاستجابة ، مثل فرز التذاكر المباشر أو كشف الاحتيال.
  • ميزات العملاء المتميّزين: المطوّرون الذين يحتاجون إلى ضمان أهداف أعلى على مستوى الخدمة (SLO) للعملاء الذين يدفعون.

حدود معدّل الاستخدام

تفرض الأولوية حدود معدّل استخدام خاصة بها على الرغم من احتساب الاستهلاك ضمن حدود معدّل الاستخدام الإجمالية للزيارات التفاعلية. حدود معدّل الاستخدام التلقائية للاستنتاج ذي الأولوية هي 0.3 ضعف حد معدّل الاستخدام العادي للطراز / المستوى

منطق الرجوع السلس

إذا تم تجاوز حدود الأولوية بسبب الازدحام، يتم تلقائيًا وبشكل سلس الرجوع إلى المعالجة العادية للطلبات التي تتجاوز الحد بدلاً من تعذُّر معالجتها مع ظهور الخطأ 503 أو 429. تتم فوترة الطلبات التي تم الرجوع إليها بالسعر العادي، وليس بالسعر المتميّز للأولوية.

مسؤولية العميل

  • مراقبة الردود: على المطوّرين مراقبة x-gemini-service-tier العنوان في ردّ واجهة برمجة التطبيقات للكشف عمّا إذا كان يتم الرجوع بشكل متكرر إلى standard في الطلبات.
  • إعادة المحاولات: على العملاء تنفيذ منطق إعادة المحاولة/التراجع الأسي لـ الأخطاء العادية، مثل DEADLINE_EXCEEDED.

الأسعار

يتم تسعير الاستنتاج ذي الأولوية بنسبة %75 إلى %100 أكثر من واجهة برمجة التطبيقات العادية ويتم تحصيل الرسوم لكل رمز مميّز.

الطُرز المتوافقة

تسمح الطُرز التالية بالاستنتاج ذي الأولوية:

الطراز الاستنتاج ذو الأولوية
‫Gemini 3.1 Flash-Lite ‫✔️
‫Gemini 3.1 Flash-Lite (إصدار تجريبي) ‫✔️
‫Gemini 3.1 Pro (إصدار تجريبي) ‫✔️
‫Gemini 3 Flash (إصدار تجريبي) ‫✔️
‫Gemini 2.5 Pro ‫✔️
‫Gemini 2.5 Flash ‫✔️
‫Gemini 2.5 Flash-Lite ‫✔️

الخطوات التالية