‫Gemini Deep Research זמין עכשיו בתצוגה מקדימה עם תכונות כמו תכנון שיתופי, ויזואליזציה, תמיכה ב-MCP ועוד.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

הסקת עדיפות

‫Gemini Priority API הוא רמה של הסקת מסקנות (inference) בתשלום, שמיועדת לעומסי עבודה קריטיים לעסק שדורשים זמן אחזור נמוך ואמינות גבוהה ביותר, במחיר פרימיום. תעבורת נתונים ברמת עדיפות גבוהה מקבלת עדיפות על פני תעבורת נתונים ב-API רגיל וברמת Flex.

הסקת עדיפות זמינה למשתמשי Tier 2 ו-Tier 3 בנקודות הקצה של GenerateContent API ו-Interactions API.

איך משתמשים בעדיפות

כדי להשתמש ברמת העדיפות, מגדירים את השדה service_tier בגוף הבקשה ל-priority. אם לא מציינים את המסלול בשדה, ברירת המחדל היא המסלול הרגיל.

Python

from google import genai

client = genai.Client()

try:
    response = client.models.generate_content(
        model="gemini-3.5-flash",
        contents="Triage this critical customer support ticket immediately.",
        config={"service_tier": "priority"},
    )

    # Validate for graceful downgrade
    if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
        print("Warning: Priority limit exceeded, processed at Standard tier.")

    print(response.text)

except Exception as e:
    # Standard error handling (e.g., DEADLINE_EXCEEDED)
    print(f"Error during API call: {e}")

JavaScript

import {GoogleGenAI} from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const result = await ai.models.generateContent({
          model: "gemini-3.5-flash",
          contents: "Triage this critical customer support ticket immediately.",
          config: {serviceTier: "priority"},
      });

      // Validate for graceful downgrade
      if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
          console.log("Warning: Priority limit exceeded, processed at Standard tier.");
      }

      console.log(result.text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

Go

package main

import (
    "context"
    "fmt"
    "log"
    "google.golang.org/genai"
)

func main() {
    ctx := context.Background()
    client, err := genai.NewClient(ctx, nil)
    if err != nil {
        log.Fatal(err)
    }
    defer client.Close()

    resp, err := client.Models.GenerateContent(
        ctx,
        "gemini-3.5-flash",
        genai.Text("Triage this critical customer support ticket immediately."),
        &genai.GenerateContentConfig{
            ServiceTier: "priority",
        },
    )
    if err != nil {
        log.Fatalf("Error during API call: %v", err)
    }

    // Validate for graceful downgrade
    if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
        fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
    }

    fmt.Println(resp.Text())
}

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent?key=$GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
  "contents": [{
    "parts":[{"text": "Analyze user sentiment in real time"}]
  }],
  "service_tier": "priority"
}'

איך פועל הסקת העדיפות

ההסקה לפי עדיפות מעבירה בקשות לתורים של מחשוב ברמת קריטיות גבוהה, ומציעה ביצועים מהירים וצפויים לאפליקציות שפונות למשתמשים. המנגנון העיקרי שלו הוא שדרוג לאחור בצד השרת לעיבוד רגיל של תנועה שחורגת מהמגבלות הדינמיות, כדי להבטיח את יציבות האפליקציה במקום לגרום לכשל בבקשה.

תכונה	עדיפות	רגיל	שרירים של סלע	Batch
תמחור	‫75% עד 100% יותר מבתוכנית Standard	מחיר מלא	הנחה של 50%	הנחה של 50%
זמן אחזור	שניות	שניות לדקות	דקות (יעד של 15-1 דקות)	עד 24 שעות
אמינות	גבוהה (לא ניתן להסרה)	גבוהה / בינונית-גבוהה	ללא התחייבות (ניתן להשמטה)	גבוהה (לתפוקה)
ממשק	סינכרוני	סינכרוני	סינכרוני	אסינכרוני

יתרונות עיקריים

זמן אחזור נמוך: מיועד לזמני תגובה של שנייה אחת עבור כלים אינטראקטיביים של AI שפונים למשתמשים.
אמינות גבוהה: התנועה מטופלת ברמת קריטיות גבוהה ביותר, ואין אפשרות להפחית אותה.
הורדה הדרגתית של רמת השירות: אם יש עליות פתאומיות בתנועה שחורגות מהמגבלות הדינמיות, רמת השירות יורדת אוטומטית לרמה רגילה לצורך עיבוד, במקום שהעיבוד ייכשל. כך נמנעים שיבושים בשירות.
הפעלה חלקה: משתמש באותה שיטת generateContent סינכרון כמו בתוכניות הרגילה והגמישה.

תרחישים לדוגמה

עיבוד בעדיפות גבוהה הוא פתרון אידיאלי לתהליכי עבודה קריטיים לעסק שבהם הביצועים והאמינות הם בעלי חשיבות עליונה.

אפליקציות אינטראקטיביות מבוססות-AI: צ'אטבוטים וטייסים וירטואליים לשירות לקוחות, שבהם המשתמשים משלמים מחיר פרימיום ומצפים לתשובות מהירות ועקביות.
מנועי החלטות בזמן אמת: מערכות שנדרשים בהן תוצאות מהימנות עם זמן אחזור נמוך, כמו תעדוף כרטיסים בשידור חי או זיהוי הונאות.
תכונות ללקוחות פרימיום: מפתחים שצריכים להבטיח יעדים גבוהים יותר למדידת רמת השירות (SLO) ללקוחות משלמים.

מגבלות קצב

לצריכה בעדיפות יש מגבלות קצב משלה, גם אם הצריכה נספרת במסגרת מגבלות הקצב הכוללות של תנועה אינטראקטיבית. מגבלות ברירת המחדל על קצב הבקשות להסקת עדיפות הן 0.3x ממגבלת הקצב הרגילה עבור מודל או רמת שירות

לוגיקה של שדרוג לאחור

אם יש עומס ומתרחשת חריגה ממגבלות העדיפות, בקשות שחורגות מהמגבלות משודרגות אוטומטית בצורה חלקה לעיבוד רגיל במקום להיכשל עם שגיאה 503 או 429. בקשות ששודרגו לאחור יחויבו בתעריף הרגיל, ולא בתעריף הפרימיום של Priority.

באחריות הלקוח

מעקב אחר תגובות: מפתחים צריכים לעקוב אחר x-gemini-service-tier הכותרת בתגובת ה-API כדי לזהות אם הבקשות משודרגות לעיתים קרובות לstandard.
ניסיונות חוזרים: לקוחות צריכים להטמיע לוגיקה של ניסיונות חוזרים או השהיה מעריכית לפני ניסיון חוזר (exponential backoff) לשגיאות רגילות, כמו DEADLINE_EXCEEDED.

תמחור

המחיר של הסקת עדיפות גבוה ב-75% עד 100% מהמחיר של ה-API הרגיל, והחיוב הוא לפי טוקן.

מודלים נתמכים

המודלים הבאים תומכים בהסקת מסקנות בעדיפות גבוהה:

מודל	הסקת עדיפות
‫Gemini 3.5 Flash	✔️
‫Gemini 3.1 Flash-Lite	✔️
‫Gemini 3.1 Pro (גרסת טרום-השקה)	✔️
תצוגה מקדימה של Gemini 3 Flash	✔️
תצוגה מקדימה של תמונות ב-Gemini 3 Pro	✔️
‫Gemini 2.5 Pro	✔️
‫Gemini 2.5 Flash	✔️
Gemini 2.5 Flash Image	✔️
‫Gemini 2.5 Flash-Lite	✔️

המאמרים הבאים

אפשר לקרוא על אפשרויות נוספות של היקש ואופטימיזציה ב-Gemini:

הסקת מסקנות לגבי גמישות כדי להפחית את העלות ב-50%.
‫Batch API לעיבוד אסינכרוני תוך 24 שעות.
שמירת מטמון של הקשר כדי להפחית את העלויות של טוקנים של קלט.