استنتاج اولویت

رابط برنامه‌نویسی Gemini Priority یک لایه استنتاج ممتاز است که برای بارهای کاری حیاتی کسب‌وکار طراحی شده است که به تأخیر کمتر و بالاترین قابلیت اطمینان با قیمت مناسب نیاز دارند. ترافیک لایه Priority بالاتر از ترافیک استاندارد API و لایه Flex اولویت‌بندی می‌شود.

استنتاج اولویت در سراسر نقاط پایانی Interactions API در دسترس است.

نحوه استفاده از اولویت

برای استفاده از ردیف اولویت، فیلد service_tier را در درخواست خود روی priority تنظیم کنید. در صورت حذف این فیلد، ردیف پیش‌فرض استاندارد است.

پایتون

from google import genai

client = genai.Client()

try:
    interaction = client.interactions.create(
        model="gemini-3-flash-preview",
        input="Triage this critical customer support ticket immediately.",
        service_tier='priority'
    )

    # Validate for graceful downgrade
    # Note: Checking headers might vary by SDK implementation, this is illustrative
    # if interaction.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
    #     print("Warning: Priority limit exceeded, processed at Standard tier.")

    print(interaction.steps[-1].content[0].text)

except Exception as e:
    print(f"Error during API call: {e}")

جاوا اسکریپت

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const interaction = await ai.interactions.create({
          model: "gemini-3-flash-preview",
          input: "Triage this critical customer support ticket immediately.",
          serviceTier: "priority"
      });

      // Validate for graceful downgrade
      // if (interaction.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
      //     console.log("Warning: Priority limit exceeded, processed at Standard tier.");
      // }

      console.log(interaction.steps.at(-1).content[0].text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

استراحت

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "Content-Type: application/json" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -d '{
    "model": "gemini-3-flash-preview",
    "input": "Triage this critical customer support ticket immediately.",
    "service_tier": "priority"
  }'

نحوه‌ی عملکرد استنتاج اولویت

استنتاج اولویت، درخواست‌ها را به صف‌های محاسباتی با حساسیت بالا هدایت می‌کند و عملکرد قابل پیش‌بینی و سریعی را برای برنامه‌های کاربردی کاربر ارائه می‌دهد. مکانیسم اصلی آن، یک تنزل تدریجی سمت سرور به پردازش استاندارد برای ترافیکی است که از محدودیت‌های پویا فراتر می‌رود و به جای شکست درخواست، پایداری برنامه را تضمین می‌کند.

ویژگی اولویت استاندارد فلکس دسته‌ای
قیمت‌گذاری ۷۵ تا ۱۰۰ درصد بیشتر از استاندارد قیمت کامل ۵۰٪ تخفیف ۵۰٪ تخفیف
تأخیر ثانیه‌ها ثانیه به دقیقه دقیقه (هدف ۱ تا ۱۵ دقیقه) تا ۲۴ ساعت
قابلیت اطمینان زیاد (غیرقابل ریزش) زیاد / متوسط-زیاد بهترین تلاش (قابل کاهش) بالا (برای توان عملیاتی)
رابط همزمان همزمان همزمان ناهمزمان

مزایای کلیدی

  • تأخیر کم : برای زمان پاسخ دوم برای ابزارهای هوش مصنوعی تعاملی و کاربرپسند طراحی شده است.
  • قابلیت اطمینان بالا : ترافیک با بالاترین حساسیت بررسی می‌شود و کاملاً غیرقابل قطع شدن است.
  • تنزل تدریجی : ترافیک‌های ناگهانی که از محدودیت‌های پویا تجاوز می‌کنند، به جای خرابی، به طور خودکار برای پردازش به سطح استاندارد تنزل می‌یابند و از قطع سرویس جلوگیری می‌کنند.
  • اصطکاک کم : از همان روش create همزمان مانند لایه‌های استاندارد و Flex استفاده می‌کند.

موارد استفاده

پردازش اولویت‌دار برای گردش‌های کاری حیاتی در کسب‌وکار که در آن‌ها عملکرد و قابلیت اطمینان از اهمیت بالایی برخوردار است، ایده‌آل است.

  • برنامه‌های کاربردی هوش مصنوعی تعاملی : چت‌بات‌های خدمات مشتری و دستیاران کاربر که در آن‌ها کاربران هزینه اضافی پرداخت می‌کنند و انتظار پاسخ‌های سریع و مداوم دارند.
  • موتورهای تصمیم‌گیری بلادرنگ : سیستم‌هایی که به نتایج بسیار قابل اعتماد و با تأخیر کم نیاز دارند، مانند اولویت‌بندی بلیط‌های زنده یا تشخیص تقلب.
  • ویژگی‌های ویژه مشتریان : توسعه‌دهندگانی که نیاز به تضمین اهداف سطح خدمات بالاتر (SLO) برای مشتریان پولی دارند.

محدودیت‌های نرخ

مصرف اولویت‌دار، محدودیت‌های نرخ خود را حفظ می‌کند، حتی اگر مصرف در محدودیت‌های نرخ ترافیک تعاملی کلی محاسبه شود. محدودیت‌های نرخ پیش‌فرض برای استنتاج اولویت‌دار ، 0.3 برابر محدودیت نرخ استاندارد برای مدل / لایه است.

منطق تنزل رتبه‌ی برازنده

اگر به دلیل ازدحام، از محدودیت‌های اولویت‌بندی شده تجاوز شود، درخواست‌های سرریز به طور خودکار و با ظرافت به پردازش استاندارد کاهش می‌یابند، به جای اینکه با خطای ۵۰۳ یا ۴۲۹ مواجه شوند. درخواست‌های کاهش یافته با نرخ استاندارد، نه نرخ حق بیمه اولویت‌بندی شده، محاسبه می‌شوند.

مسئولیت مشتری

  • نظارت بر پاسخ : توسعه‌دهندگان باید هدر x-gemini-service-tier را در پاسخ API نظارت کنند تا تشخیص دهند که آیا درخواست‌ها مرتباً به standard تنزل می‌یابند یا خیر.
  • تلاش‌های مجدد : کلاینت‌ها باید منطق تلاش مجدد/برگشت نمایی را برای خطاهای استاندارد، مانند DEADLINE_EXCEEDED ، پیاده‌سازی کنند.

قیمت‌گذاری

استنتاج اولویت ۷۵ تا ۱۰۰ درصد بیشتر از API استاندارد قیمت‌گذاری شده و به ازای هر توکن محاسبه می‌شود.

مدل‌های پشتیبانی‌شده

مدل‌های زیر از استنتاج اولویت پشتیبانی می‌کنند:

مدل استنتاج اولویت
جمینی ۳.۱ فلش-لایت ✔️
پیش‌نمایش Gemini 3.1 Flash-Lite ✔️
پیش‌نمایش Gemini 3.1 Pro ✔️
پیش‌نمایش فلش جمینی ۳ ✔️
جمینی ۲.۵ پرو ✔️
فلش جمینی ۲.۵ ✔️
جمینی ۲.۵ فلش-لایت ✔️

قدم بعدی چیست؟