الاستدلال حسب الأولوية

‫Gemini Priority API هي طبقة استنتاج مميزة مصمّمة لأحمال العمل الأساسية التي تتطلّب وقت استجابة أقل وموثوقية أعلى بسعر مميز. تُمنح الأولوية لحركة المرور في الطبقة المميزة على حركة المرور في واجهة برمجة التطبيقات العادية والطبقة المرنة.

يتوفّر الاستنتاج المميز لمستخدمي الطبقة 2 والطبقة 3 من خلال نقطتَي نهاية GenerateContent API وInteractions API.

كيفية استخدام الأولوية

لاستخدام الطبقة المميزة، اضبط حقل service_tier في نص الطلب على priority. الطبقة التلقائية هي الطبقة العادية إذا تم حذف الحقل.

Python

from google import genai

client = genai.Client()

try:
    response = client.models.generate_content(
        model="gemini-3-flash-preview",
        contents="Triage this critical customer support ticket immediately.",
        config={"service_tier": "priority"},
    )

    # Validate for graceful downgrade
    if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
        print("Warning: Priority limit exceeded, processed at Standard tier.")

    print(response.text)

except Exception as e:
    # Standard error handling (e.g., DEADLINE_EXCEEDED)
    print(f"Error during API call: {e}")

JavaScript

import {GoogleGenAI} from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const result = await ai.models.generateContent({
          model: "gemini-3-flash-preview",
          contents: "Triage this critical customer support ticket immediately.",
          config: {serviceTier: "priority"},
      });

      // Validate for graceful downgrade
      if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
          console.log("Warning: Priority limit exceeded, processed at Standard tier.");
      }

      console.log(result.text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

انتقال

package main

import (
    "context"
    "fmt"
    "log"
    "google.golang.org/genai"
)

func main() {
    ctx := context.Background()
    client, err := genai.NewClient(ctx, nil)
    if err != nil {
        log.Fatal(err)
    }
    defer client.Close()

    resp, err := client.Models.GenerateContent(
        ctx,
        "gemini-3-flash-preview",
        genai.Text("Triage this critical customer support ticket immediately."),
        &genai.GenerateContentConfig{
            ServiceTier: "priority",
        },
    )
    if err != nil {
        log.Fatalf("Error during API call: %v", err)
    }

    // Validate for graceful downgrade
    if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
        fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
    }

    fmt.Println(resp.Text())
}

راحة

curl -X POST "https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent?key=$GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
  "contents": [{
    "parts":[{"text": "Analyze user sentiment in real time"}]
  }],
  "service_tier": "priority"
}'

آلية عمل الاستنتاج المميز

توجّه عملية الاستنتاج ذات الأولوية الطلبات إلى قوائم انتظار الحوسبة عالية الأهمية، ما يوفّر أداءً سريعًا يمكن التنبؤ به للتطبيقات الموجّهة للمستخدمين. آليتها الأساسية هي الرجوع السلس من جهة الخادم إلى المعالجة العادية لحركة المرور التي تتجاوز الحدود الديناميكية، ما يضمن استقرار التطبيق بدلاً من تعذُّر معالجة الطلب.

الميزة الأولوية خطة "الرزمة العادية" التعبير مجمّعة
الأسعار أكثر بنسبة %75 إلى %100 من رزمة عادية السعر الكامل خصم بنسبة% 50 خصم بنسبة% 50
وقت الاستجابة الثواني من الثواني إلى الدقائق الدقائق (الهدف من دقيقة واحدة إلى 15 دقيقة) ما يصل إلى 24 ساعة
الموثوقية عالية (لا يمكن تقليلها) عالية / متوسطة عالية بأفضل جهد (يمكن تقليلها) عالية (لمعدّل نقل البيانات)
الواجهة متزامن متزامن متزامن غير متزامن

المزايا الرئيسية

  • وقت استجابة منخفض: مصمّمة لأوقات الاستجابة بالثواني لأدوات الذكاء الاصطناعي التفاعلية التي يتفاعل معها المستخدمون.
  • موثوقية عالية: يتم التعامل مع حركة المرور بأعلى درجة من الأهمية ولا يمكن تقليلها على الإطلاق.
  • التكيّف مع الإصدارات الأقدم: يتم تلقائيًا الرجوع بحركة المرور التي تتجاوز الحدود الديناميكية إلى الطبقة العادية للمعالجة بدلاً من تعذُّر معالجتها، ما يمنع انقطاع الخدمة.
  • الاحتكاك المنخفض: تستخدم الطريقة المتزامنة نفسها generateContent المستخدَمة في الطبقتَين العادية والمرنة.

حالات الاستخدام

تُعدّ المعالجة المميزة مثالية لسير العمل الأساسي الذي تكون فيه الأولوية للأداء والموثوقية.

  • تطبيقات الذكاء الاصطناعي التفاعلية: روبوتات الدردشة والمساعدون لخدمة العملاء حيث يدفع المستخدمون سعرًا مميزًا ويتوقّعون استجابات سريعة ومتّسقة.
  • محركات اتخاذ القرارات في الوقت الفعلي: الأنظمة التي تتطلّب نتائج موثوقة جدًا ومنخفضة وقت الاستجابة ، مثل فرز التذاكر المباشر أو رصد الاحتيال.
  • ميزات العملاء المميزين: المطوّرون الذين يحتاجون إلى ضمان أهداف أعلى لمستوى الخدمة (SLOs) للعملاء الذين يدفعون رسومًا.

معدّلات الاستخدام

تخضع عملية الاستهلاك المميز لمعدّلات الاستخدام الخاصة بها، على الرغم من احتساب الاستهلاك ضمن معدّلات الاستخدام الإجمالية لحركة المرور التفاعلية. معدّلات الاستخدام التلقائية للاستنتاج المميز هي 0.3 من معدّل الاستخدام العادي للطراز / الطبقة

منطق الرجوع السلس

إذا تم تجاوز حدود الأولوية بسبب الازدحام، يتم تلقائيًا وبشكل سلس الرجوع بطلبات تجاوز الحد إلى المعالجة العادية بدلاً من تعذُّر معالجتها بسبب الخطأ 503 أو 429. تتم فوترة الطلبات التي تم الرجوع بها بالسعر العادي، وليس بالسعر المميز للطبقة المميزة.

مسؤولية العميل

  • مراقبة الردود: على المطوّرين مراقبة x-gemini-service-tier العنوان في ردّ واجهة برمجة التطبيقات لرصد ما إذا كان يتم الرجوع بالطلبات بشكل متكرّر إلى standard.
  • إعادة المحاولات: على العملاء تنفيذ منطق إعادة المحاولة/التراجع الأسي لـ الأخطاء العادية، مثل DEADLINE_EXCEEDED.

الأسعار

يتم تسعير الاستنتاج المميز بنسبة %75 إلى %100 أكثر من واجهة برمجة التطبيقات العادية ويتم تحصيل الرسوم لكل رمز مميز.

الطُرز المتوافقة

تسمح الطُرز التالية بالاستنتاج المميز:

الطراز الاستنتاج ذو الأولوية
‫Gemini 3.1 Flash-Lite ‫✔️
‫Gemini 3.1 Flash-Lite Preview ‫✔️
‫Gemini 3.1 Pro Preview ‫✔️
‫Gemini 3 Flash Preview ‫✔️
‫Gemini 3 Pro Image Preview ‫✔️
‫Gemini 2.5 Pro ‫✔️
‫Gemini 2.5 Flash ‫✔️
‫Gemini 2.5 Flash Image ‫✔️
‫Gemini 2.5 Flash-Lite ‫✔️

الخطوات التالية

يمكنك الاطّلاع على خيارات الاستنتاج والتحسين الأخرى في Gemini: