الاستدلال حسب الأولوية

‫Gemini Priority API هي طبقة استنتاج مميزة مصمّمة لأحمال العمل الأساسية التي تتطلّب وقت استجابة أقل وموثوقية أعلى بسعر مميّز. تحظى الزيارات إلى طبقة الأولوية بأولوية أعلى من الزيارات إلى واجهة برمجة التطبيقات العادية وطبقة Flex.

يتوفّر الاستنتاج ذو الأولوية لمستخدمي الطبقة 2 والطبقة 3 من خلال نقطتَي نهاية GenerateContent API وInteractions API.

كيفية استخدام طبقة الأولوية

لاستخدام طبقة الأولوية، اضبط حقل service_tier في نص الطلب على priority. الطبقة التلقائية هي الطبقة العادية إذا تم حذف الحقل.

Python

from google import genai

client = genai.Client()

try:
    response = client.models.generate_content(
        model="gemini-3.5-flash",
        contents="Triage this critical customer support ticket immediately.",
        config={"service_tier": "priority"},
    )

    # Validate for graceful downgrade
    if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
        print("Warning: Priority limit exceeded, processed at Standard tier.")

    print(response.text)

except Exception as e:
    # Standard error handling (e.g., DEADLINE_EXCEEDED)
    print(f"Error during API call: {e}")

JavaScript

import {GoogleGenAI} from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const result = await ai.models.generateContent({
          model: "gemini-3.5-flash",
          contents: "Triage this critical customer support ticket immediately.",
          config: {serviceTier: "priority"},
      });

      // Validate for graceful downgrade
      if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
          console.log("Warning: Priority limit exceeded, processed at Standard tier.");
      }

      console.log(result.text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

انتقال

package main

import (
    "context"
    "fmt"
    "log"
    "google.golang.org/genai"
)

func main() {
    ctx := context.Background()
    client, err := genai.NewClient(ctx, nil)
    if err != nil {
        log.Fatal(err)
    }
    defer client.Close()

    resp, err := client.Models.GenerateContent(
        ctx,
        "gemini-3.5-flash",
        genai.Text("Triage this critical customer support ticket immediately."),
        &genai.GenerateContentConfig{
            ServiceTier: "priority",
        },
    )
    if err != nil {
        log.Fatalf("Error during API call: %v", err)
    }

    // Validate for graceful downgrade
    if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
        fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
    }

    fmt.Println(resp.Text())
}

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent?key=$GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
  "contents": [{
    "parts":[{"text": "Analyze user sentiment in real time"}]
  }],
  "service_tier": "priority"
}'

آلية عمل الاستنتاج ذي الأولوية

يوجّه الاستنتاج ذو الأولوية الطلبات إلى قوائم انتظار الحوسبة ذات الأهمية العالية، ما يوفّر أداءً سريعًا يمكن التنبؤ به للتطبيقات التي يتفاعل معها المستخدمون. تتمثل الآلية الأساسية في الرجوع بسلاسة إلى المعالجة العادية من جهة الخادم للزيارات التي تتجاوز الحدود الديناميكية، ما يضمن استقرار التطبيق بدلاً من تعذُّر معالجة الطلب.

الميزة الأولوية خطة "الرزمة العادية" التعبير مجمّعة
الأسعار أعلى بنسبة %75 إلى %100 من الخطة "الرزمة العادية" السعر الكامل خصم بنسبة% 50 خصم بنسبة% 50
وقت الاستجابة الثواني من الثواني إلى الدقائق الدقائق (الهدف من دقيقة واحدة إلى 15 دقيقة) ما يصل إلى 24 ساعة
الموثوقية عالية (غير قابلة للتخفيض) عالية / متوسطة إلى عالية بأفضل جهد (قابلة للتخفيض) عالية (لمعدّل نقل البيانات)
الواجهة متزامن متزامن متزامن غير متزامن

المزايا الرئيسية

  • وقت استجابة منخفض: مصمّمة لأوقات الاستجابة بالثواني لأدوات الذكاء الاصطناعي التفاعلية التي يتفاعل معها المستخدمون.
  • موثوقية عالية: يتم التعامل مع الزيارات بأعلى درجة من الأهمية وهي غير قابلة للتخفيض على الإطلاق.
  • التكيّف مع الإصدارات الأقدم: يتم تلقائيًا الرجوع بالزيارات التي تتجاوز الحدود الديناميكية إلى طبقة "الرزمة العادية" لمعالجتها بدلاً من تعذُّر معالجتها، ما يمنع انقطاع الخدمة.
  • الحد الأدنى من المشاكل: تستخدم الطريقتان "الرزمة العادية" وFlex طريقة generateContent المتزامنة نفسها.

حالات الاستخدام

تُعد المعالجة ذات الأولوية مثالية لسير العمل الأساسي الذي تكون فيه الأولوية للأداء والموثوقية.

  • تطبيقات الذكاء الاصطناعي التفاعلية: روبوتات الدردشة والمساعدون لخدمة العملاء حيث يدفع المستخدمون سعرًا مميّزًا ويتوقّعون استجابات سريعة ومتّسقة.
  • محركات اتخاذ القرارات في الوقت الفعلي: الأنظمة التي تتطلّب نتائج موثوقة جدًا ومنخفضة وقت الاستجابة ، مثل فرز التذاكر المباشر أو رصد الاحتيال.
  • ميزات العملاء المميّزين: المطوّرون الذين يحتاجون إلى ضمان أهداف أعلى لمستوى الخدمة (SLOs) للعملاء الذين يدفعون مقابل الخدمة.

حدود معدّل الاستخدام

تخضع عمليات الاستهلاك ذات الأولوية لحدود معدّل الاستخدام الخاصة بها على الرغم من احتساب عمليات الاستهلاك ضمن حدود معدّل الاستخدام الإجمالية للزيارات التفاعلية. حدود معدّل الاستخدام التلقائية للاستنتاج ذي الأولوية هي 0.3 من حد معدّل الاستخدام العادي للطراز / الطبقة

منطق الرجوع السلس

إذا تم تجاوز حدود الأولوية بسبب الازدحام، يتم تلقائيًا وبسلاسة الرجوع بطلبات تجاوز الحد إلى المعالجة العادية بدلاً من تعذُّر معالجتها بسبب الخطأ 503 أو 429. تتم فوترة الطلبات التي تم الرجوع بها بالسعر العادي، وليس بالسعر المميّز لطبقة الأولوية.

مسؤولية العميل

  • مراقبة الردود: على المطوّرين مراقبة عنوان x-gemini-service-tier في ردّ واجهة برمجة التطبيقات لرصد ما إذا كان يتم الرجوع بالطلبات بشكل متكرر إلى standard.
  • إعادة المحاولات: على العملاء تنفيذ منطق إعادة المحاولة/التراجع الأسي لـ الأخطاء العادية، مثل DEADLINE_EXCEEDED.

الأسعار

يتم تسعير الاستنتاج ذي الأولوية بنسبة %75 إلى %100 أعلى من واجهة برمجة التطبيقات العادية ويتم تحصيل الرسوم لكل رمز مميّز.

الطُرز المتوافقة

تسمح الطُرز التالية بالاستنتاج ذي الأولوية:

الطراز الاستنتاج ذو الأولوية
‫Gemini 3.5 Flash ‫✔️
‫Gemini 3.1 Flash-Lite ‫✔️
‫Gemini 3.1 Flash-Lite (معاينة) ‫✔️
‫Gemini 3.1 Pro (معاينة) ‫✔️
‫Gemini 3 Flash (معاينة) ‫✔️
‫Gemini 3 Pro Image (معاينة) ‫✔️
‫Gemini 2.5 Pro ‫✔️
‫Gemini 2.5 Flash ‫✔️
‫Gemini 2.5 Flash Image ‫✔️
‫Gemini 2.5 Flash-Lite ‫✔️

الخطوات التالية

يمكنك الاطّلاع على خيارات الاستنتاج والتحسين الأخرى في Gemini: