استنتاج اولویت

رابط برنامه‌نویسی Gemini Priority یک لایه استنتاج ممتاز است که برای بارهای کاری حیاتی کسب‌وکار طراحی شده است که به تأخیر کمتر و بالاترین قابلیت اطمینان با قیمت مناسب نیاز دارند. ترافیک لایه Priority بالاتر از ترافیک استاندارد API و لایه Flex اولویت‌بندی می‌شود.

استنتاج اولویت برای کاربران سطح ۲ و سطح ۳ در سراسر نقاط پایانی GenerateContent API و Interactions API در دسترس است.

نحوه استفاده از اولویت

برای استفاده از ردیف اولویت، فیلد service_tier را در بدنه درخواست روی priority تنظیم کنید. در صورت حذف فیلد، ردیف پیش‌فرض استاندارد است.

پایتون

from google import genai

client = genai.Client()

try:
    response = client.models.generate_content(
        model="gemini-3-flash-preview",
        contents="Triage this critical customer support ticket immediately.",
        config={'service_tier': 'priority'},
    )

    # Validate for graceful downgrade
    if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
        print("Warning: Priority limit exceeded, processed at Standard tier.")

    print(response.text)

except Exception as e:
    # Standard error handling (e.g., DEADLINE_EXCEEDED)
    print(f"Error during API call: {e}")

جاوا اسکریپت

import {GoogleGenAI} from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const result = await ai.models.generateContent({
          model: "gemini-3-flash-preview",
          contents: "Triage this critical customer support ticket immediately.",
          config: {serviceTier: "priority"},
      });

      // Validate for graceful downgrade
      if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
          console.log("Warning: Priority limit exceeded, processed at Standard tier.");
      }

      console.log(result.text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

برو

package main

import (
    "context"
    "fmt"
    "log"
    "google.golang.org/genai"
)

func main() {
    ctx := context.Background()
    client, err := genai.NewClient(ctx, nil)
    if err != nil {
        log.Fatal(err)
    }
    defer client.Close()

    resp, err := client.Models.GenerateContent(
        ctx,
        "gemini-3-flash-preview",
        genai.Text("Triage this critical customer support ticket immediately."),
        &genai.GenerateContentConfig{
            ServiceTier: "priority",
        },
    )
    if err != nil {
        log.Fatalf("Error during API call: %v", err)
    }

    // Validate for graceful downgrade
    if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
        fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
    }

    fmt.Println(resp.Text())
}

استراحت

curl \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
-d '{
  "contents": [{
    "parts":[{"text": "Analyze user sentiment in real time"}]
  }],
  "serviceTier": "PRIORITY"
}'

نحوه‌ی عملکرد استنتاج اولویت

استنتاج اولویت، درخواست‌ها را به صف‌های محاسباتی با حساسیت بالا هدایت می‌کند و عملکرد قابل پیش‌بینی و سریعی را برای برنامه‌های کاربردی کاربر ارائه می‌دهد. مکانیسم اصلی آن، یک تنزل تدریجی سمت سرور به پردازش استاندارد برای ترافیکی است که از محدودیت‌های پویا فراتر می‌رود و به جای شکست درخواست، پایداری برنامه را تضمین می‌کند.

ویژگی اولویت استاندارد فلکس دسته‌ای
قیمت‌گذاری ۷۵ تا ۱۰۰ درصد بیشتر از استاندارد قیمت کامل ۵۰٪ تخفیف ۵۰٪ تخفیف
تأخیر پایین (ثانیه) ثانیه به دقیقه دقیقه (هدف ۱ تا ۱۵ دقیقه) تا ۲۴ ساعت
قابلیت اطمینان زیاد (غیرقابل ریزش) زیاد / متوسط-زیاد بهترین تلاش (قابل کاهش) بالا (برای توان عملیاتی)
رابط همزمان همزمان همزمان ناهمزمان

مزایای کلیدی

  • تأخیر کم : برای زمان پاسخ میلی‌ثانیه‌ای برای ابزارهای هوش مصنوعی تعاملی و کاربرپسند طراحی شده است.
  • قابلیت اطمینان بالا : ترافیک با بالاترین حساسیت بررسی می‌شود و کاملاً غیرقابل قطع شدن است.
  • تنزل تدریجی : ترافیک‌های ناگهانی که از محدودیت‌های پویا تجاوز می‌کنند، به جای خرابی، به طور خودکار برای پردازش به سطح استاندارد تنزل می‌یابند و از قطع سرویس جلوگیری می‌کنند.
  • اصطکاک کم : از همان متد generateContent همزمان مانند لایه‌های استاندارد و Flex استفاده می‌کند.

موارد استفاده

پردازش اولویت‌دار برای گردش‌های کاری حیاتی کسب‌وکار که در آن‌ها عملکرد و قابلیت اطمینان از اهمیت بالایی برخوردار است، ایده‌آل است.

  • برنامه‌های کاربردی هوش مصنوعی تعاملی : چت‌بات‌های خدمات مشتری و کمک‌خلبان‌ها که در آن‌ها کاربران هزینه اضافی پرداخت می‌کنند و انتظار پاسخ‌های سریع و مداوم دارند.
  • موتورهای تصمیم‌گیری بلادرنگ : سیستم‌هایی که به نتایج بسیار قابل اعتماد و با تأخیر کم نیاز دارند، مانند اولویت‌بندی بلیط‌های زنده یا تشخیص تقلب.
  • ویژگی‌های مشتری ممتاز : توسعه‌دهندگانی که نیاز به تضمین اهداف سطح خدمات بالاتر (SLO) برای مشتریان پولی دارند.

محدودیت‌های نرخ

مصرف اولویت‌دار، محدودیت‌های نرخ خود را حفظ می‌کند، حتی اگر مصرف در محدودیت‌های نرخ ترافیک تعاملی کلی محاسبه شود. محدودیت‌های نرخ پیش‌فرض برای استنتاج اولویت‌دار ، 0.3 برابر محدودیت نرخ استاندارد برای مدل / لایه است.

منطق تنزل رتبه‌ی برازنده

اگر به دلیل ازدحام، از محدودیت‌های اولویت‌بندی شده تجاوز شود، درخواست‌های سرریز به طور خودکار و با ظرافت به پردازش استاندارد کاهش می‌یابند، به جای اینکه با خطای ۵۰۳ یا ۴۲۹ مواجه شوند. درخواست‌های کاهش یافته با نرخ استاندارد، نه نرخ حق بیمه اولویت‌بندی شده، محاسبه می‌شوند.

مسئولیت مشتری

  • نظارت بر پاسخ : توسعه‌دهندگان باید مقدار service_tier را در بدنه پاسخ API نظارت کنند تا تشخیص دهند که آیا درخواست‌ها مرتباً به standard تنزل می‌یابند یا خیر.
  • تلاش‌های مجدد : کلاینت‌ها باید منطق تلاش مجدد/برگشت نمایی را برای خطاهای استاندارد، مانند DEADLINE_EXCEEDED ، پیاده‌سازی کنند.

قیمت‌گذاری

استنتاج اولویت ۷۵ تا ۱۰۰ درصد بیشتر از API استاندارد قیمت‌گذاری شده و به ازای هر توکن محاسبه می‌شود.

مدل‌های پشتیبانی‌شده

مدل‌های زیر از استنتاج اولویت پشتیبانی می‌کنند:

مدل استنتاج اولویت
پیش‌نمایش Gemini 3.1 Flash-Lite ✔️
پیش‌نمایش Gemini 3.1 Pro ✔️
پیش‌نمایش فلش جمینی ۳ ✔️
پیش‌نمایش تصویر Gemini 3 Pro ✔️
جمینی ۲.۵ پرو ✔️
فلش جمینی ۲.۵ ✔️
تصویر فلش Gemini 2.5 ✔️
جمینی ۲.۵ فلش-لایت ✔️

قدم بعدی چیست؟

درباره سایر گزینه‌های استنتاج و بهینه‌سازی Gemini بخوانید: