رابط برنامهنویسی Gemini Priority یک لایه استنتاج ممتاز است که برای بارهای کاری حیاتی کسبوکار طراحی شده است که به تأخیر کمتر و بالاترین قابلیت اطمینان با قیمت مناسب نیاز دارند. ترافیک لایه Priority بالاتر از ترافیک استاندارد API و لایه Flex اولویتبندی میشود.
استنتاج اولویت برای کاربران سطح ۲ و سطح ۳ در سراسر نقاط پایانی GenerateContent API و Interactions API در دسترس است.
نحوه استفاده از اولویت
برای استفاده از ردیف اولویت، فیلد service_tier را در بدنه درخواست روی priority تنظیم کنید. در صورت حذف فیلد، ردیف پیشفرض استاندارد است.
پایتون
from google import genai
client = genai.Client()
try:
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents="Triage this critical customer support ticket immediately.",
config={'service_tier': 'priority'},
)
# Validate for graceful downgrade
if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
print("Warning: Priority limit exceeded, processed at Standard tier.")
print(response.text)
except Exception as e:
# Standard error handling (e.g., DEADLINE_EXCEEDED)
print(f"Error during API call: {e}")
جاوا اسکریپت
import {GoogleGenAI} from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const result = await ai.models.generateContent({
model: "gemini-3-flash-preview",
contents: "Triage this critical customer support ticket immediately.",
config: {serviceTier: "priority"},
});
// Validate for graceful downgrade
if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
console.log("Warning: Priority limit exceeded, processed at Standard tier.");
}
console.log(result.text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
برو
package main
import (
"context"
"fmt"
"log"
"google.golang.org/genai"
)
func main() {
ctx := context.Background()
client, err := genai.NewClient(ctx, nil)
if err != nil {
log.Fatal(err)
}
defer client.Close()
resp, err := client.Models.GenerateContent(
ctx,
"gemini-3-flash-preview",
genai.Text("Triage this critical customer support ticket immediately."),
&genai.GenerateContentConfig{
ServiceTier: "priority",
},
)
if err != nil {
log.Fatalf("Error during API call: %v", err)
}
// Validate for graceful downgrade
if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
}
fmt.Println(resp.Text())
}
استراحت
curl \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
-d '{
"contents": [{
"parts":[{"text": "Analyze user sentiment in real time"}]
}],
"serviceTier": "PRIORITY"
}'
نحوهی عملکرد استنتاج اولویت
استنتاج اولویت، درخواستها را به صفهای محاسباتی با حساسیت بالا هدایت میکند و عملکرد قابل پیشبینی و سریعی را برای برنامههای کاربردی کاربر ارائه میدهد. مکانیسم اصلی آن، یک تنزل تدریجی سمت سرور به پردازش استاندارد برای ترافیکی است که از محدودیتهای پویا فراتر میرود و به جای شکست درخواست، پایداری برنامه را تضمین میکند.
| ویژگی | اولویت | استاندارد | فلکس | دستهای |
|---|---|---|---|---|
| قیمتگذاری | ۷۵ تا ۱۰۰ درصد بیشتر از استاندارد | قیمت کامل | ۵۰٪ تخفیف | ۵۰٪ تخفیف |
| تأخیر | پایین (ثانیه) | ثانیه به دقیقه | دقیقه (هدف ۱ تا ۱۵ دقیقه) | تا ۲۴ ساعت |
| قابلیت اطمینان | زیاد (غیرقابل ریزش) | زیاد / متوسط-زیاد | بهترین تلاش (قابل کاهش) | بالا (برای توان عملیاتی) |
| رابط | همزمان | همزمان | همزمان | ناهمزمان |
مزایای کلیدی
- تأخیر کم : برای زمان پاسخ میلیثانیهای برای ابزارهای هوش مصنوعی تعاملی و کاربرپسند طراحی شده است.
- قابلیت اطمینان بالا : ترافیک با بالاترین حساسیت بررسی میشود و کاملاً غیرقابل قطع شدن است.
- تنزل تدریجی : ترافیکهای ناگهانی که از محدودیتهای پویا تجاوز میکنند، به جای خرابی، به طور خودکار برای پردازش به سطح استاندارد تنزل مییابند و از قطع سرویس جلوگیری میکنند.
- اصطکاک کم : از همان متد
generateContentهمزمان مانند لایههای استاندارد و Flex استفاده میکند.
موارد استفاده
پردازش اولویتدار برای گردشهای کاری حیاتی کسبوکار که در آنها عملکرد و قابلیت اطمینان از اهمیت بالایی برخوردار است، ایدهآل است.
- برنامههای کاربردی هوش مصنوعی تعاملی : چتباتهای خدمات مشتری و کمکخلبانها که در آنها کاربران هزینه اضافی پرداخت میکنند و انتظار پاسخهای سریع و مداوم دارند.
- موتورهای تصمیمگیری بلادرنگ : سیستمهایی که به نتایج بسیار قابل اعتماد و با تأخیر کم نیاز دارند، مانند اولویتبندی بلیطهای زنده یا تشخیص تقلب.
- ویژگیهای مشتری ممتاز : توسعهدهندگانی که نیاز به تضمین اهداف سطح خدمات بالاتر (SLO) برای مشتریان پولی دارند.
محدودیتهای نرخ
مصرف اولویتدار، محدودیتهای نرخ خود را حفظ میکند، حتی اگر مصرف در محدودیتهای نرخ ترافیک تعاملی کلی محاسبه شود. محدودیتهای نرخ پیشفرض برای استنتاج اولویتدار ، 0.3 برابر محدودیت نرخ استاندارد برای مدل / لایه است.
منطق تنزل رتبهی برازنده
اگر به دلیل ازدحام، از محدودیتهای اولویتبندی شده تجاوز شود، درخواستهای سرریز به طور خودکار و با ظرافت به پردازش استاندارد کاهش مییابند، به جای اینکه با خطای ۵۰۳ یا ۴۲۹ مواجه شوند. درخواستهای کاهش یافته با نرخ استاندارد، نه نرخ حق بیمه اولویتبندی شده، محاسبه میشوند.
مسئولیت مشتری
- نظارت بر پاسخ : توسعهدهندگان باید مقدار
service_tierرا در بدنه پاسخ API نظارت کنند تا تشخیص دهند که آیا درخواستها مرتباً بهstandardتنزل مییابند یا خیر. - تلاشهای مجدد : کلاینتها باید منطق تلاش مجدد/برگشت نمایی را برای خطاهای استاندارد، مانند
DEADLINE_EXCEEDED، پیادهسازی کنند.
قیمتگذاری
استنتاج اولویت ۷۵ تا ۱۰۰ درصد بیشتر از API استاندارد قیمتگذاری شده و به ازای هر توکن محاسبه میشود.
مدلهای پشتیبانیشده
مدلهای زیر از استنتاج اولویت پشتیبانی میکنند:
| مدل | استنتاج اولویت |
|---|---|
| پیشنمایش Gemini 3.1 Flash-Lite | ✔️ |
| پیشنمایش Gemini 3.1 Pro | ✔️ |
| پیشنمایش فلش جمینی ۳ | ✔️ |
| پیشنمایش تصویر Gemini 3 Pro | ✔️ |
| جمینی ۲.۵ پرو | ✔️ |
| فلش جمینی ۲.۵ | ✔️ |
| تصویر فلش Gemini 2.5 | ✔️ |
| جمینی ۲.۵ فلش-لایت | ✔️ |
قدم بعدی چیست؟
درباره سایر گزینههای استنتاج و بهینهسازی Gemini بخوانید:
- استنتاج انعطافپذیر برای کاهش ۵۰ درصدی هزینه.
- API دستهای برای پردازش ناهمزمان در عرض ۲۴ ساعت.
- ذخیرهسازی متن برای کاهش هزینههای توکن ورودی.