הסקת עדיפות

‫Gemini Priority API הוא רמה של היקש בתשלום, שמיועדת לעומסי עבודה קריטיים לעסק שדורשים זמן טעינה נמוך ואמינות גבוהה ביותר, במחיר גבוה. תעבורת נתונים ברמת עדיפות גבוהה מקבלת עדיפות על פני תעבורת נתונים ב-API רגיל וברמת Flex.

הסקת עדיפות זמינה למשתמשים ברמה 2 וברמה 3 בנקודות הקצה של GenerateContent API ו-Interactions API.

איך משתמשים בעדיפות

כדי להשתמש ברמת העדיפות, מגדירים את השדה service_tier בגוף הבקשה ל-priority. אם לא מציינים את השדה, רמת ברירת המחדל היא רגילה.

Python

from google import genai

client = genai.Client()

try:
    response = client.models.generate_content(
        model="gemini-3-flash-preview",
        contents="Triage this critical customer support ticket immediately.",
        config={"service_tier": "priority"},
    )

    # Validate for graceful downgrade
    if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
        print("Warning: Priority limit exceeded, processed at Standard tier.")

    print(response.text)

except Exception as e:
    # Standard error handling (e.g., DEADLINE_EXCEEDED)
    print(f"Error during API call: {e}")

JavaScript

import {GoogleGenAI} from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const result = await ai.models.generateContent({
          model: "gemini-3-flash-preview",
          contents: "Triage this critical customer support ticket immediately.",
          config: {serviceTier: "priority"},
      });

      // Validate for graceful downgrade
      if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
          console.log("Warning: Priority limit exceeded, processed at Standard tier.");
      }

      console.log(result.text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

Go

package main

import (
    "context"
    "fmt"
    "log"
    "google.golang.org/genai"
)

func main() {
    ctx := context.Background()
    client, err := genai.NewClient(ctx, nil)
    if err != nil {
        log.Fatal(err)
    }
    defer client.Close()

    resp, err := client.Models.GenerateContent(
        ctx,
        "gemini-3-flash-preview",
        genai.Text("Triage this critical customer support ticket immediately."),
        &genai.GenerateContentConfig{
            ServiceTier: "priority",
        },
    )
    if err != nil {
        log.Fatalf("Error during API call: %v", err)
    }

    // Validate for graceful downgrade
    if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
        fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
    }

    fmt.Println(resp.Text())
}

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent?key=$GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
  "contents": [{
    "parts":[{"text": "Analyze user sentiment in real time"}]
  }],
  "service_tier": "priority"
}'

איך פועל הסקת העדיפות

ההסקה לפי עדיפות מעבירה בקשות לתורים של מחשוב ברמת קריטיות גבוהה, ומציעה ביצועים מהירים וצפויים לאפליקציות שפונות למשתמשים. המנגנון העיקרי שלו הוא שדרוג לאחור בצד השרת לעיבוד רגיל של תנועה שחורגת מהמגבלות הדינמיות, כדי להבטיח את יציבות האפליקציה במקום לגרום לכשל בבקשה.

תכונה עדיפות רגיל Flex Batch
תמחור ‫75% עד 100% יותר מבתוכנית Standard מחיר מלא הנחה של 50% הנחה של 50%
זמן אחזור שניות שניות לדקות דקות (יעד של 15-1 דקות) עד 24 שעות
אמינות גבוהה (לא ניתן להסרה) גבוהה / בינונית-גבוהה ללא התחייבות (ניתן להשמטה) גבוהה (לתפוקה)
ממשק סינכרוני סינכרוני סינכרוני אסינכרוני

יתרונות עיקריים

  • זמן אחזור נמוך: מיועד לזמני תגובה של שנייה אחת עבור כלים אינטראקטיביים של AI שפונים למשתמשים.
  • אמינות גבוהה: התנועה מטופלת ברמת קריטיות גבוהה ביותר, ואין אפשרות להפחית אותה.
  • הורדה הדרגתית של רמת השירות: אם יש עליות פתאומיות בתנועה שחורגות מהמגבלות הדינמיות, רמת השירות יורדת אוטומטית לרמה רגילה לצורך עיבוד, במקום שהעיבוד ייכשל. כך נמנעים שיבושים בשירות.
  • הפעלה חלקה: משתמש באותה שיטת generateContent סינכרון כמו בתוכניות הרגילה והגמישה.

תרחישים לדוגמה

עיבוד בעדיפות גבוהה מתאים במיוחד לתהליכי עבודה קריטיים לעסק שבהם הביצועים והאמינות הם בעלי חשיבות עליונה.

  • אפליקציות אינטראקטיביות מבוססות-AI: צ'אטבוטים וטייסים וירטואליים לשירות לקוחות, שבהם המשתמשים משלמים מחיר פרימיום ומצפים לתשובות מהירות ועקביות.
  • מנועי החלטות בזמן אמת: מערכות שנדרשים בהן תוצאות אמינות מאוד עם השהיה נמוכה, כמו תעדוף כרטיסים בשידור חי או זיהוי הונאות.
  • תכונות ללקוחות פרימיום: מפתחים שצריכים להבטיח יעדים גבוהים יותר למדידת רמת השירות (SLO) ללקוחות משלמים.

מגבלות קצב

לצריכה בעדיפות יש מגבלות קצב משלה, גם אם הצריכה נספרת במסגרת מגבלות הקצב הכוללות של תנועה אינטראקטיבית. מגבלות ברירת המחדל על קצב הבקשות להסקת עדיפות הן 0.3x ממגבלת הקצב הרגילה עבור מודל או רמת שירות

לוגיקה של שדרוג לאחור

אם יש עומס ומתרחשת חריגה ממגבלות העדיפות, הבקשות העודפות יורדות אוטומטית בצורה חלקה לרמת עיבוד רגילה במקום להיכשל עם שגיאה 503 או 429. בקשות ששודרגו לאחור מחויבות בתעריף הרגיל, ולא בתעריף הפרימיום של Priority.

באחריות הלקוח

  • מעקב אחר תגובות: מפתחים צריכים לעקוב אחרי x-gemini-service-tier הכותרת בתגובת ה-API כדי לזהות אם הבקשות משודרגות לעיתים קרובות לstandard.
  • ניסיונות חוזרים: לקוחות צריכים להטמיע לוגיקה של ניסיונות חוזרים או השהיה מעריכית לפני ניסיון חוזר (exponential backoff) לשגיאות רגילות, כמו DEADLINE_EXCEEDED.

תמחור

המחיר של הסקת עדיפות גבוה ב-75% עד 100% מהמחיר של ה-API הרגיל, והחיוב הוא לפי טוקן.

מודלים נתמכים

המודלים הבאים תומכים בהסקת מסקנות בעדיפות גבוהה:

דגם הסקת עדיפות
גרסת טרום-השקה של Gemini 3.1 Flash-Lite ✔️
Gemini 3.1 Pro Preview ✔️
תצוגה מקדימה של Gemini 3 Flash ✔️
תצוגה מקדימה של תמונות ב-Gemini 3 Pro ✔️
Gemini 2.5 Pro ✔️
Gemini 2.5 Flash ✔️
Gemini 2.5 Flash Image ✔️
Gemini 2.5 Flash-Lite ✔️

המאמרים הבאים

מידע נוסף על אפשרויות אחרות של היקש ואופטימיזציה ב-Gemini: