Gemini Priority API הוא רמת פרימיום של הסקת מסקנות שנועדה לעומסי עבודה קריטיים לעסק שדורשים זמן אחזור נמוך ואמינות גבוהה ביותר, במחיר פרימיום. תעבורת נתונים ברמת עדיפות גבוהה מקבלת עדיפות גבוהה יותר מתעבורת נתונים של API רגיל ושל רמת Flex.
הסקת עדיפות זמינה למשתמשי Tier 2 ו-Tier 3 בנקודות הקצה של GenerateContent API ו-Interactions API.
איך משתמשים בעדיפות
כדי להשתמש ברמת העדיפות, מגדירים את השדה service_tier בגוף הבקשה ל-SERVICE_TIER_PRIORITY. אם לא מציינים את המסלול בשדה, ברירת המחדל היא המסלול הרגיל.
Python
from google import genai
client = genai.Client()
try:
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents="Triage this critical customer support ticket immediately.",
config={'service_tier': 'SERVICE_TIER_PRIORITY'},
)
# Validate for graceful downgrade
if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
print("Warning: Priority limit exceeded, processed at Standard tier.")
print(response.text)
except Exception as e:
# Standard error handling (e.g., DEADLINE_EXCEEDED)
print(f"Error during API call: {e}")
JavaScript
ב-JavaScript, ספריית הלקוח מטפלת אוטומטית בשדרוג לאחור. אם חורגים מהקיבולת, תופיע שגיאה או שהבקשה תעובד ברמה הרגילה. אובייקט התגובה לא חושף ישירות כותרות כדי לבדוק אם בוצעה הורדה.
import {GoogleGenAI} from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const result = await ai.models.generateContent({
model: "gemini-3-flash-preview",
contents: "Triage this critical customer support ticket immediately.",
config: {serviceTier: "priority"},
});
// Validate for graceful downgrade
if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
console.log("Warning: Priority limit exceeded, processed at Standard tier.");
}
console.log(result.text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
Go
ב-Go, ספריית הלקוח מטפלת באופן אוטומטי בשדרוג לאחור. אם חורגים מהקיבולת, תופיע שגיאה או שהבקשה תעובד ברמה הרגילה. אובייקט התגובה לא חושף ישירות את הכותרות כדי לבדוק אם יש שדרוג לאחור.
package main
import (
"context"
"fmt"
"log"
"google.golang.org/genai"
)
func main() {
ctx := context.Background()
client, err := genai.NewClient(ctx, nil)
if err != nil {
log.Fatal(err)
}
defer client.Close()
resp, err := client.Models.GenerateContent(
ctx,
"gemini-3-flash-preview",
genai.Text("Triage this critical customer support ticket immediately."),
&genai.GenerateContentConfig{
ServiceTier: "priority",
},
)
if err != nil {
log.Fatalf("Error during API call: %v", err)
}
// Validate for graceful downgrade
if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
}
fmt.Println(resp.Text())
}
REST
curl \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
-d '{
"contents": [{
"parts":[{"text": "Analyze user sentiment in real time"}]
}],
"serviceTier": "PRIORITY"
}'
איך פועל הסקת העדיפות
ההסקה לפי עדיפות מעבירה בקשות לתורים של מחשוב ברמת קריטיות גבוהה, ומציעה ביצועים מהירים וצפויים לאפליקציות שפונות למשתמשים. המנגנון העיקרי שלו הוא שדרוג לאחור בצד השרת לעיבוד רגיל של תנועה שחורגת מהמגבלות הדינמיות, כדי להבטיח את יציבות האפליקציה במקום לגרום לכשל בבקשה.
| תכונה | עדיפות | רגיל | Flex | Batch |
|---|---|---|---|---|
| תמחור | 75% עד 100% יותר מבתוכנית Standard | מחיר מלא | הנחה של 50% | הנחה של 50% |
| זמן אחזור | נמוך (שניות) | שניות לדקות | דקות (יעד של 15-1 דקות) | עד 24 שעות |
| אמינות | גבוהה (לא ניתן להסרה) | גבוהה / בינונית-גבוהה | האיכות הטובה ביותר (ניתן להשמטה) | גבוהה (לתפוקה) |
| ממשק | סינכרוני | סינכרוני | סינכרוני | אסינכרוני |
יתרונות עיקריים
- זמן אחזור נמוך: מיועד לזמני תגובה של אלפיות השנייה עבור כלי AI אינטראקטיביים שפונים למשתמשים.
- אמינות גבוהה: התנועה מטופלת ברמת קריטיות גבוהה ביותר, ולא ניתן להפחית אותה.
- הורדה הדרגתית של רמת השירות: אם יש עליות פתאומיות בתנועה שחורגות מהמגבלות הדינמיות, רמת השירות יורדת אוטומטית לרמה רגילה לצורך עיבוד, במקום שהעיבוד ייכשל. כך נמנעים שיבושים בשירות.
- הפעלה חלקה: משתמש באותה שיטת
generateContentסינכרון כמו בתוכניות הרגילה והגמישה.
תרחישים לדוגמה
עיבוד בעדיפות גבוהה מתאים במיוחד לתהליכי עבודה קריטיים לעסק שבהם הביצועים והאמינות הם בעלי חשיבות עליונה.
- אפליקציות אינטראקטיביות מבוססות-AI: צ'אט-בוטים וטייסים וירטואליים לשירות לקוחות שבהם המשתמשים משלמים מחיר פרימיום ומצפים לתשובות מהירות ועקביות.
- מנועי החלטות בזמן אמת: מערכות שנדרשים בהן תוצאות מהימנות עם זמן אחזור נמוך, כמו מיון כרטיסים בשידור חי או זיהוי הונאות.
- תכונות ללקוחות פרימיום: מפתחים שצריכים להבטיח יעדים גבוהים יותר למדידת רמת השירות (SLO) ללקוחות משלמים.
מגבלות קצב
לצריכה בעדיפות יש מגבלות קצב משלה, גם אם הצריכה נספרת במסגרת מגבלות הקצב הכוללות של תנועה אינטראקטיבית. מגבלות ברירת המחדל על קצב הבקשות להסקת עדיפות הן 0.3x ממגבלת הקצב הרגילה עבור המודל או הרמה
לוגיקה של שדרוג לאחור
אם חורגים מהמגבלות של עדיפות גבוהה בגלל עומס, הבקשות העודפות משודרגות אוטומטית בצורה חלקה לעיבוד רגיל במקום להיכשל עם שגיאה 503 או 429. בקשות ששודרגו לאחור מחויבות בתעריף הרגיל, ולא בתעריף הפרימיום של Priority.
באחריות הלקוח
- מעקב אחר תגובות: מפתחים צריכים לעקוב אחר הערך
service_tierבגוף התגובה של ה-API כדי לזהות אם הבקשות משודרגות לעיתים קרובות ל-standard. - ניסיונות חוזרים: לקוחות צריכים להטמיע לוגיקה של ניסיונות חוזרים או השהיה מעריכית לפני ניסיון חוזר (exponential backoff) לשגיאות רגילות, כמו
DEADLINE_EXCEEDED.
תמחור
המחיר של הסקת מסקנות בעדיפות גבוהה גבוה ב-75% עד 100% מהמחיר של ה-API הרגיל, והחיוב הוא לפי טוקן.
מודלים נתמכים
המודלים הבאים תומכים בהיקש לפי עדיפות:
| דגם | הסקת עדיפות |
|---|---|
| תצוגה מקדימה של Gemini 3.1 Flash-Lite | ✔️ |
| Gemini 3.1 Pro Preview | ✔️ |
| תצוגה מקדימה של Gemini 3 Flash | ✔️ |
| תצוגה מקדימה של תמונות ב-Gemini 3 Pro | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash Image | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |
המאמרים הבאים
מידע נוסף על אפשרויות אחרות של היקש ואופטימיזציה ב-Gemini:
- הסקת מסקנות לגבי גמישות כדי להפחית את העלות ב-50%.
- Batch API לעיבוד אסינכרוני תוך 24 שעות.
- שמירת מטמון של הקשר כדי להפחית את העלויות של טוקנים של קלט.