Gemini Priority API הוא רמה של הסקת מסקנות (inference) בתשלום, שמיועדת לעומסי עבודה קריטיים לעסק שדורשים זמן אחזור נמוך ואמינות גבוהה ביותר, במחיר פרימיום. תעבורת נתונים ברמת עדיפות גבוהה מקבלת עדיפות על פני תעבורת נתונים ב-API רגיל וברמת Flex.
הסקת עדיפות זמינה למשתמשי Tier 2 ו-Tier 3 בנקודות הקצה של GenerateContent API ו-Interactions API.
איך משתמשים בעדיפות
כדי להשתמש ברמת העדיפות, מגדירים את השדה service_tier בגוף הבקשה ל-priority. אם לא מציינים את המסלול בשדה, ברירת המחדל היא המסלול הרגיל.
Python
from google import genai
client = genai.Client()
try:
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents="Triage this critical customer support ticket immediately.",
config={"service_tier": "priority"},
)
# Validate for graceful downgrade
if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
print("Warning: Priority limit exceeded, processed at Standard tier.")
print(response.text)
except Exception as e:
# Standard error handling (e.g., DEADLINE_EXCEEDED)
print(f"Error during API call: {e}")
JavaScript
import {GoogleGenAI} from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const result = await ai.models.generateContent({
model: "gemini-3-flash-preview",
contents: "Triage this critical customer support ticket immediately.",
config: {serviceTier: "priority"},
});
// Validate for graceful downgrade
if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
console.log("Warning: Priority limit exceeded, processed at Standard tier.");
}
console.log(result.text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
Go
package main
import (
"context"
"fmt"
"log"
"google.golang.org/genai"
)
func main() {
ctx := context.Background()
client, err := genai.NewClient(ctx, nil)
if err != nil {
log.Fatal(err)
}
defer client.Close()
resp, err := client.Models.GenerateContent(
ctx,
"gemini-3-flash-preview",
genai.Text("Triage this critical customer support ticket immediately."),
&genai.GenerateContentConfig{
ServiceTier: "priority",
},
)
if err != nil {
log.Fatalf("Error during API call: %v", err)
}
// Validate for graceful downgrade
if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
}
fmt.Println(resp.Text())
}
REST
curl -X POST "https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent?key=$GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts":[{"text": "Analyze user sentiment in real time"}]
}],
"service_tier": "priority"
}'
איך פועל הסקת העדיפות
הסקת עדיפות מפנה בקשות לתורים של מחשוב ברמת קריטיות גבוהה, ומציעה ביצועים מהירים וצפויים לאפליקציות שפונות למשתמשים. המנגנון העיקרי שלו הוא שדרוג לאחור בצד השרת לעיבוד רגיל של תנועה שחורגת מהמגבלות הדינמיות, כדי להבטיח את יציבות האפליקציה במקום לגרום לכשל בבקשה.
| תכונה | עדיפות | רגיל | Flex | Batch |
|---|---|---|---|---|
| תמחור | 75% עד 100% יותר מבתוכנית Standard | מחיר מלא | הנחה של 50% | הנחה של 50% |
| זמן אחזור | שניות | שניות לדקות | דקות (יעד של 15-1 דקות) | עד 24 שעות |
| אמינות | גבוהה (לא נושרת) | גבוהה / בינונית-גבוהה | האיכות הטובה ביותר (ניתן להפחית את האיכות) | גבוהה (לתפוקה) |
| ממשק | סינכרוני | סינכרוני | סינכרוני | אסינכרוני |
יתרונות עיקריים
- זמן אחזור נמוך: מיועד לזמני תגובה של שנייה אחת עבור כלים אינטראקטיביים של AI שפונים למשתמשים.
- אמינות גבוהה: התנועה מטופלת ברמת קריטיות גבוהה ביותר, ולא ניתן להפחית אותה.
- הורדה הדרגתית של רמת השירות: אם יש עליות פתאומיות בתנועה שחורגות מהמגבלות הדינמיות, רמת השירות יורדת אוטומטית לרמה רגילה לצורך עיבוד, במקום שהעיבוד ייכשל. כך נמנעים שיבושים בשירות.
- חיכוך נמוך: משתמש באותה שיטה סינכרונית
generateContentכמו ברמות Standard ו-Flex.
תרחישים לדוגמה
עיבוד בעדיפות גבוהה מתאים במיוחד לתהליכי עבודה קריטיים לעסק שבהם הביצועים והאמינות הם בעלי חשיבות עליונה.
- אפליקציות אינטראקטיביות מבוססות-AI: צ'אטבוטים וטייסים וירטואליים לשירות לקוחות, שבהם המשתמשים משלמים מחיר פרימיום ומצפים לתשובות מהירות ועקביות.
- מנועי החלטות בזמן אמת: מערכות שנדרשים בהן תוצאות מהימנות עם זמן אחזור נמוך, כמו תעדוף כרטיסים בשידור חי או זיהוי הונאות.
- תכונות ללקוחות פרימיום: מפתחים שצריכים להבטיח יעדים גבוהים יותר למדידת רמת השירות (SLO) ללקוחות משלמים.
מגבלות קצב
לצריכה בעדיפות יש מגבלות קצב משלה, גם אם הצריכה נספרת במסגרת מגבלות הקצב הכוללות של תנועה אינטראקטיבית. מגבלות ברירת המחדל על קצב הבקשות להסקת עדיפות הן 0.3x ממגבלת הקצב הרגילה עבור המודל או הרמה
לוגיקה של שדרוג לאחור
אם יש עומס ומתרחשת חריגה ממגבלות העדיפות, בקשות שחורגות מהמגבלות האלה עוברות אוטומטית ובאופן חלק לשלב העיבוד הרגיל במקום להיכשל עם שגיאה 503 או 429. בקשות ששודרגו לאחור מחויבות בתעריף הרגיל, ולא בתעריף הפרימיום של Priority.
באחריות הלקוח
- מעקב אחר תגובות: מפתחים צריכים לעקוב אחרי
x-gemini-service-tierהכותרת בתגובת ה-API כדי לזהות אם הבקשות משודרגות לעיתים קרובות לstandard. - ניסיונות חוזרים: לקוחות צריכים להטמיע לוגיקה של ניסיונות חוזרים או השהיה מעריכית לפני ניסיון חוזר (exponential backoff) לשגיאות רגילות, כמו
DEADLINE_EXCEEDED.
תמחור
המחיר של הסקת עדיפות גבוה ב-75% עד 100% מהמחיר של ה-API הרגיל, והחיוב הוא לפי טוקן.
מודלים נתמכים
המודלים הבאים תומכים בהסקת מסקנות בעדיפות גבוהה:
| דגם | הסקת עדיפות |
|---|---|
| גרסת טרום-השקה של Gemini 3.1 Flash-Lite | ✔️ |
| Gemini 3.1 Pro Preview | ✔️ |
| תצוגה מקדימה של Gemini 3 Flash | ✔️ |
| תצוגה מקדימה של תמונות ב-Gemini 3 Pro | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash Image | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |
המאמרים הבאים
מידע נוסף על אפשרויות אחרות של היקש ואופטימיזציה ב-Gemini:
- הסקת מסקנות לגבי גמישות כדי להפחית את העלות ב-50%.
- Batch API לעיבוד אסינכרוני תוך 24 שעות.
- שמירת מטמון של הקשר כדי להפחית את העלויות של טוקנים של קלט.