الاستدلال حسب الأولوية

‫Gemini Priority API هي فئة استدلال مميزة مصمَّمة لأحمال العمل الحاسمة الأهمية التي تتطلّب وقت استجابة أقل وموثوقية أعلى بسعر مميز. تتم منح الأولوية لحركة بيانات فئة الأولوية على حركة بيانات واجهة برمجة التطبيقات العادية وفئة Flex.

تتوفّر ميزة "الاستنتاج حسب الأولوية" لمستخدمي المستوى 2 والمستوى 3 في جميع نقاط نهاية GenerateContent API وInteractions API.

كيفية استخدام ميزة "الأولوية"

لاستخدام فئة الأولوية، اضبط الحقل service_tier في نص الطلب على SERVICE_TIER_PRIORITY. فئة الخدمة التلقائية هي "عادية" في حال تم حذف الحقل.

Python

from google import genai

client = genai.Client()

try:
    response = client.models.generate_content(
        model="gemini-3-flash-preview",
        contents="Triage this critical customer support ticket immediately.",
        config={'service_tier': 'SERVICE_TIER_PRIORITY'},
    )

    # Validate for graceful downgrade
    if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
        print("Warning: Priority limit exceeded, processed at Standard tier.")

    print(response.text)

except Exception as e:
    # Standard error handling (e.g., DEADLINE_EXCEEDED)
    print(f"Error during API call: {e}")

JavaScript

في JavaScript، تتم معالجة الرجوع إلى إصدار سابق تلقائيًا من خلال مكتبة العميل. في حال تجاوز السعة، سيتم عرض رسالة خطأ أو ستتم المعالجة في الفئة العادية. لا يعرض عنصر الاستجابة العناوين مباشرةً للتحقّق من الرجوع إلى إصدار أقدم.

import {GoogleGenAI} from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const result = await ai.models.generateContent({
          model: "gemini-3-flash-preview",
          contents: "Triage this critical customer support ticket immediately.",
          config: {serviceTier: "priority"},
      });

      // Validate for graceful downgrade
      if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
          console.log("Warning: Priority limit exceeded, processed at Standard tier.");
      }

      console.log(result.text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

Go

في Go، تتولّى مكتبة العميل عملية الرجوع إلى إصدار سابق تلقائيًا. في حال تجاوز السعة، سيتم عرض رسالة خطأ أو ستتم المعالجة في الفئة العادية. لا يعرض عنصر الاستجابة العناوين مباشرةً للتحقّق من التخفيض.

package main

import (
    "context"
    "fmt"
    "log"
    "google.golang.org/genai"
)

func main() {
    ctx := context.Background()
    client, err := genai.NewClient(ctx, nil)
    if err != nil {
        log.Fatal(err)
    }
    defer client.Close()

    resp, err := client.Models.GenerateContent(
        ctx,
        "gemini-3-flash-preview",
        genai.Text("Triage this critical customer support ticket immediately."),
        &genai.GenerateContentConfig{
            ServiceTier: "priority",
        },
    )
    if err != nil {
        log.Fatalf("Error during API call: %v", err)
    }

    // Validate for graceful downgrade
    if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
        fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
    }

    fmt.Println(resp.Text())
}

REST

curl \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
-d '{
  "contents": [{
    "parts":[{"text": "Analyze user sentiment in real time"}]
  }],
  "serviceTier": "PRIORITY"
}'

طريقة عمل ميزة "الاستنتاج حسب الأولوية"

توجّه مسارات الاستنتاج ذات الأولوية الطلبات إلى قوائم انتظار الحوسبة ذات الأهمية العالية، ما يوفّر أداءً سريعًا يمكن توقّعه للتطبيقات التي تواجه المستخدمين. آليتها الأساسية هي الرجوع إلى المعالجة العادية من جهة الخادم بشكل سلس في حال تجاوز عدد الزيارات الحدود الديناميكية، ما يضمن استقرار التطبيق بدلاً من تعذُّر تنفيذ الطلب.

الميزة الأولوية خطة "الرزمة العادية" التعبير الدفعة
الأسعار أكثر من خطة Standard بنسبة تتراوح بين %75 و%100 السعر الكامل خصم بنسبة% 50 خصم بنسبة% 50
وقت الاستجابة منخفض (ثوانٍ) من ثوانٍ إلى دقائق الدقائق (المدة المستهدَفة من دقيقة واحدة إلى 15 دقيقة) ما يصل إلى 24 ساعة
الموثوقية عالية (غير قابلة للإزالة) مرتفع / مرتفع إلى حد ما أفضل جهد (يمكن إيقافه) عالية (لمعدّل نقل البيانات)
الواجهة متزامن متزامن متزامن بدون تزامن

المزايا الرئيسية

  • وقت استجابة قصير: تم تصميمها لتوفير أوقات استجابة تتراوح بين جزء من الثانية وعدة ثوانٍ لأدوات الذكاء الاصطناعي التفاعلية التي تتواصل مع المستخدمين.
  • موثوقية عالية: يتم التعامل مع عدد الزيارات بأعلى مستوى من الأهمية، ولا يمكن إيقافها بأي شكل من الأشكال.
  • التكيّف مع الإصدارات الأقدم: يتم تلقائيًا خفض مستوى الزيادات الحادة في عدد الزيارات التي تتجاوز الحدود الديناميكية إلى المستوى العادي للمعالجة بدلاً من حدوث خطأ، ما يمنع انقطاع الخدمة.
  • الاستخدام السلس: تستخدم هذه الفئة طريقة generateContent المتزامنة نفسها التي تستخدمها الفئتان العادية وFlex.

حالات الاستخدام

تُعدّ المعالجة ذات الأولوية مثالية لسير العمل المهمة للنشاط التجاري والتي يكون فيها الأداء والموثوقية في غاية الأهمية.

  • تطبيقات الذكاء الاصطناعي التفاعلية: روبوتات الدردشة ومساعدو الذكاء الاصطناعي في خدمة العملاء، حيث يدفع المستخدمون رسومًا إضافية ويتوقّعون الحصول على ردود سريعة ومتسقة.
  • محركات اتخاذ القرار في الوقت الفعلي: الأنظمة التي تتطلّب نتائج موثوقة للغاية وبزمن استجابة منخفض، مثل تصنيف طلبات الدعم المباشر أو رصد الاحتيال.
  • ميزات العملاء المميزين: للمطوّرين الذين يحتاجون إلى ضمان تحقيق أهداف مستوى الخدمة (SLO) الأعلى للعملاء الذين يدفعون مقابل الخدمة.

حدود معدّل الاستخدام

تخضع الاستخدامات ذات الأولوية لحدود معدل خاصة بها، حتى إذا تم احتسابها ضمن حدود معدل الزيارات التفاعلية الإجمالية. حدود المعدّل التلقائية للاستدلال حسب الأولوية هي 0.3x حد المعدّل العادي لكل نموذج / فئة

منطق الرجوع إلى إصدار سابق بسلاسة

في حال تجاوز حدود الأولوية بسبب الازدحام، يتم تلقائيًا وبشكل سلس خفض مستوى طلبات الفائض إلى المعالجة العادية بدلاً من حدوث خطأ 503 أو 429. يتم تحصيل رسوم من الطلبات التي تم تخفيض مستوى أولويتها بالمعدّل العادي، وليس بمعدّل Priority المميز.

مسؤولية العميل

  • مراقبة الاستجابة: على المطوّرين مراقبة القيمة service_tier في نص استجابة واجهة برمجة التطبيقات لرصد ما إذا كان يتم خفض مستوى الطلبات بشكل متكرّر إلى standard.
  • عمليات إعادة المحاولة: على العملاء تنفيذ منطق إعادة المحاولة/الرقود الأسي الثنائي للأخطاء العادية، مثل DEADLINE_EXCEEDED.

الأسعار

يتم تحديد سعر الاستنتاج ذي الأولوية بزيادة تتراوح بين %75 و%100 عن واجهة برمجة التطبيقات العادية، ويتم تحصيل الرسوم لكل رمز مميز.

النماذج المتوافقة

تتيح الطُرز التالية ميزة "الاستنتاج ذو الأولوية":

الطراز الاستدلال حسب الأولوية
معاينة Gemini 3.1 Flash-Lite ✔️
إصدار تجريبي من Gemini 3.1 Pro ✔️
معاينة Gemini 3 Flash ✔️
معاينة الصور في Gemini 3 Pro ✔️
‫Gemini 2.5 Pro ✔️
Gemini 2.5 Flash ✔️
Gemini 2.5 Flash Image ✔️
Gemini 2.5 Flash-Lite ✔️

الخطوات التالية

اطّلِع على خيارات الاستنتاج والتحسين الأخرى في Gemini: