הסקת עדיפות
Gemini Priority API הוא רמה של הסקת מסקנות (inference) בתשלום, שמיועדת לעומסי עבודה קריטיים לעסק שדורשים זמן אחזור נמוך ואמינות גבוהה ביותר, במחיר פרימיום. תעבורת נתונים ברמת עדיפות גבוהה מקבלת עדיפות על פני תעבורת נתונים ב-API רגיל וברמת Flex.
הסקת מסקנות לפי עדיפות זמינה בכל נקודות הקצה של Interactions API.
איך משתמשים בעדיפות
כדי להשתמש ברמת העדיפות Priority, מגדירים את השדה service_tier בבקשה לערך priority. אם לא מציינים את המסלול בשדה, ברירת המחדל היא המסלול הרגיל.
Python
from google import genai
client = genai.Client()
try:
interaction = client.interactions.create(
model="gemini-3-flash-preview",
input="Triage this critical customer support ticket immediately.",
service_tier='priority'
)
# Validate for graceful downgrade
# Note: Checking headers might vary by SDK implementation, this is illustrative
# if interaction.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
# print("Warning: Priority limit exceeded, processed at Standard tier.")
print(interaction.steps[-1].content[0].text)
except Exception as e:
print(f"Error during API call: {e}")
JavaScript
import { GoogleGenAI } from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const interaction = await ai.interactions.create({
model: "gemini-3-flash-preview",
input: "Triage this critical customer support ticket immediately.",
serviceTier: "priority"
});
// Validate for graceful downgrade
// if (interaction.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
// console.log("Warning: Priority limit exceeded, processed at Standard tier.");
// }
console.log(interaction.steps.at(-1).content[0].text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
REST
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "Content-Type: application/json" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-d '{
"model": "gemini-3-flash-preview",
"input": "Triage this critical customer support ticket immediately.",
"service_tier": "priority"
}'
איך פועל הסקת העדיפות
הסקת עדיפות מפנה בקשות לתורים של מחשוב ברמת קריטיות גבוהה, ומציעה ביצועים מהירים וצפויים לאפליקציות שפונות למשתמשים. המנגנון העיקרי שלו הוא שדרוג לאחור בצד השרת לעיבוד רגיל של תנועה שחורגת מהמגבלות הדינמיות, כדי להבטיח את יציבות האפליקציה במקום שהבקשה תיכשל.
| תכונה | עדיפות | רגיל | Flex | Batch |
|---|---|---|---|---|
| תמחור | 75% עד 100% יותר מבתוכנית Standard | מחיר מלא | הנחה של 50% | הנחה של 50% |
| זמן אחזור | שניות | שניות לדקות | דקות (יעד של 15-1 דקות) | עד 24 שעות |
| אמינות | גבוהה (לא נושרת) | גבוהה / בינונית-גבוהה | האיכות הטובה ביותר (ניתן להפחית את האיכות) | גבוהה (לתפוקה) |
| ממשק | סינכרוני | סינכרוני | סינכרוני | אסינכרוני |
יתרונות עיקריים
- זמן אחזור נמוך: מיועד לזמני תגובה של שנייה אחת עבור כלים אינטראקטיביים של AI שפונים למשתמשים.
- אמינות גבוהה: התנועה מטופלת ברמת קריטיות גבוהה ביותר, ולא ניתן להפחית אותה.
- הורדה הדרגתית של רמת השירות: אם יש עליות פתאומיות בתנועה שחורגות מהמגבלות הדינמיות, רמת השירות יורדת אוטומטית לרמה רגילה לצורך עיבוד, במקום שהעיבוד ייכשל. כך נמנעים שיבושים בשירות.
- הפעלה חלקה: משתמש באותה שיטת
createסינכרון כמו בתוכניות הרגילה והגמישה.
תרחישים לדוגמה
עיבוד בעדיפות גבוהה מתאים במיוחד לתהליכי עבודה קריטיים לעסק שבהם הביצועים והאמינות הם בעלי חשיבות עליונה.
- אפליקציות אינטראקטיביות מבוססות-AI: צ'אטבוטים וטייסים וירטואליים לשירות לקוחות, שבהם המשתמשים משלמים מחיר פרימיום ומצפים לתשובות מהירות ועקביות.
- מנועי החלטות בזמן אמת: מערכות שנדרשים בהן תוצאות מהימנות עם זמן אחזור נמוך, כמו תעדוף כרטיסים בשידור חי או זיהוי הונאות.
- תכונות ללקוחות פרימיום: מפתחים שצריכים להבטיח יעדים גבוהים יותר למדידת רמת השירות (SLO) ללקוחות משלמים.
מגבלות קצב
לצריכה בעדיפות יש מגבלות קצב משלה, גם אם הצריכה נספרת במסגרת מגבלות הקצב הכוללות של תנועה אינטראקטיבית. מגבלות ברירת המחדל על קצב הבקשות להסקת עדיפות הן 0.3x ממגבלת הקצב הרגילה עבור המודל או הרמה
לוגיקה של שדרוג לאחור
אם יש עומס ומתרחשת חריגה ממגבלות העדיפות, בקשות שחורגות מהמגבלות משודרגות אוטומטית בצורה חלקה לעיבוד רגיל במקום להיכשל עם שגיאה 503 או 429. בקשות ששודרגו לאחור מחויבות בתעריף הרגיל, ולא בתעריף הפרימיום של Priority.
באחריות הלקוח
- מעקב אחר תגובות: מפתחים צריכים לעקוב אחרי
x-gemini-service-tierהכותרת בתגובת ה-API כדי לזהות אם הבקשות משודרגות לעיתים קרובות לstandard. - ניסיונות חוזרים: לקוחות צריכים להטמיע לוגיקה של ניסיונות חוזרים או השהיה מעריכית לפני ניסיון חוזר (exponential backoff) לשגיאות רגילות, כמו
DEADLINE_EXCEEDED.
תמחור
המחיר של הסקת עדיפות גבוה ב-75% עד 100% מהמחיר של ה-API הרגיל, והחיוב הוא לפי טוקן.
מודלים נתמכים
המודלים הבאים תומכים בהסקת מסקנות בעדיפות גבוהה:
| דגם | הסקת עדיפות |
|---|---|
| Gemini 3.1 Flash-Lite | ✔️ |
| גרסת טרום-השקה של Gemini 3.1 Flash-Lite | ✔️ |
| Gemini 3.1 Pro Preview | ✔️ |
| תצוגה מקדימה של Gemini 3 Flash | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |
המאמרים הבאים
- הסקת מסקנות גמישה לצורך צמצום עלויות.
- טוקנים: הסבר על טוקנים.