Wnioskowanie o priorytecie

Interfejs Gemini Priority API to poziom wnioskowania premium przeznaczony do zbiorów zadań o kluczowym znaczeniu dla firmy, które wymagają mniejszego opóźnienia i najwyższej niezawodności w wyższej cenie. Ruch na poziomie priorytetowym ma wyższy priorytet niż ruch na poziomie standardowym i Flex.

Wnioskowanie priorytetowe jest dostępne dla użytkowników poziomu 2 i 3 w przypadku punktów końcowych GenerateContent API i Interactions API.

Jak korzystać z priorytetu

Aby korzystać z poziomu priorytetowego, ustaw w treści żądania pole service_tier na priority. Jeśli to pole zostanie pominięte, domyślnym poziomem będzie standardowy.

Python

from google import genai

client = genai.Client()

try:
    response = client.models.generate_content(
        model="gemini-3-flash-preview",
        contents="Triage this critical customer support ticket immediately.",
        config={'service_tier': 'priority'},
    )

    # Validate for graceful downgrade
    if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
        print("Warning: Priority limit exceeded, processed at Standard tier.")

    print(response.text)

except Exception as e:
    # Standard error handling (e.g., DEADLINE_EXCEEDED)
    print(f"Error during API call: {e}")

JavaScript

import {GoogleGenAI} from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const result = await ai.models.generateContent({
          model: "gemini-3-flash-preview",
          contents: "Triage this critical customer support ticket immediately.",
          config: {serviceTier: "priority"},
      });

      // Validate for graceful downgrade
      if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
          console.log("Warning: Priority limit exceeded, processed at Standard tier.");
      }

      console.log(result.text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

Go

package main

import (
    "context"
    "fmt"
    "log"
    "google.golang.org/genai"
)

func main() {
    ctx := context.Background()
    client, err := genai.NewClient(ctx, nil)
    if err != nil {
        log.Fatal(err)
    }
    defer client.Close()

    resp, err := client.Models.GenerateContent(
        ctx,
        "gemini-3-flash-preview",
        genai.Text("Triage this critical customer support ticket immediately."),
        &genai.GenerateContentConfig{
            ServiceTier: "priority",
        },
    )
    if err != nil {
        log.Fatalf("Error during API call: %v", err)
    }

    // Validate for graceful downgrade
    if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
        fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
    }

    fmt.Println(resp.Text())
}

REST

curl \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
-d '{
  "contents": [{
    "parts":[{"text": "Analyze user sentiment in real time"}]
  }],
  "serviceTier": "PRIORITY"
}'

Jak działa wnioskowanie priorytetowe

Wnioskowanie priorytetowe kieruje żądania do kolejek obliczeniowych o wysokim znaczeniu, co zapewnia przewidywalną i szybką wydajność w przypadku aplikacji przeznaczonych dla użytkowników. Jego głównym mechanizmem jest łagodna degradacja po stronie serwera do standardowego przetwarzania w przypadku ruchu, który przekracza limity dynamiczne. Dzięki temu aplikacja zachowuje stabilność, a żądanie nie jest odrzucane.

Funkcja Priorytet Standardowe Flex Wsad
Ceny 75–100% więcej niż w przypadku poziomu standardowego Bilet normalny 50% rabatu 50% rabatu
Czas oczekiwania Sekundy Sekundy do minut Minuty (docelowo 1–15 min) Do 24 godzin
Niezawodność Wysoka (nie można jej obniżyć) Wysoka / średnio wysoka Bez gwarancji (można ją obniżyć) Wysoka (w przypadku przepustowości)
Interfejs Synchroniczna Synchroniczna Synchroniczna Asynchroniczny

Główne korzyści

  • Niskie opóźnienie: zaprojektowane z myślą o czasie odpowiedzi w sekundach w przypadku interaktywnych, narzędzi AI przeznaczonych dla użytkowników.
  • Wysoka niezawodność: ruch jest traktowany z najwyższym priorytetem i jest ściśle nieobniżalny.
  • Łagodna degradacja: w przypadku nagłego wzrostu ruchu przekraczającego limity dynamiczne następuje automatyczne obniżenie poziomu do standardowego przetwarzania zamiast odrzucenia żądania, co zapobiega przerwom w działaniu usługi.
  • Niewielkie utrudnienia: używa tej samej synchronicznej generateContent metody co poziomy standardowy i Flex.

Przypadki użycia

Przetwarzanie priorytetowe jest idealne w przypadku zbiorów zadań o kluczowym znaczeniu dla firmy, w których najważniejsza jest wydajność i niezawodność.

  • Interaktywne aplikacje AI: czatboty i asystenci obsługi klienta, w przypadku których użytkownicy płacą więcej i oczekują szybkich i spójnych odpowiedzi.
  • Silniki podejmowania decyzji w czasie rzeczywistym: systemy wymagające wysoce niezawodnych wyników o niskim opóźnieniu , takich jak triage zgłoszeń na żywo czy wykrywanie oszustw.
  • Funkcje premium dla klientów: deweloperzy, którzy muszą zagwarantować wyższe cele poziomu usług (SLO) dla płacących klientów.

Ograniczenia liczby żądań

Zużycie priorytetowe ma własne limity liczby żądań, mimo że jest wliczane do ogólnych limitów liczby żądań dotyczących ruchu interaktywnego. Domyślne limity liczby żądań w przypadku wnioskowania priorytetowego to 0,3-krotność standardowego limitu liczby żądań dla modelu / poziomu.

Logika łagodnej degradacji

Jeśli limity priorytetowe zostaną przekroczone z powodu dużego natężenia ruchu, żądania przekraczające limit zostaną automatycznie i łagodnie obniżone do standardowego przetwarzania zamiast odrzucenia z błędem 503 lub 429. Żądania obniżone do poziomu standardowego są rozliczane według stawki standardowej, a nie stawki premium za priorytet.

Odpowiedzialność klienta

  • Monitorowanie odpowiedzi: deweloperzy powinni monitorować wartość service_tier w treści odpowiedzi interfejsu API, aby wykryć, czy żądania są często obniżane do poziomu standard.
  • Ponawianie prób: klienci muszą wdrożyć logikę ponawiania prób/wzrastający czas do ponowienia w przypadku standardowych błędów, takich jak DEADLINE_EXCEEDED.

Ceny

Wnioskowanie priorytetowe jest o 75–100% droższe niż standardowy interfejs API i rozliczane za token.

Obsługiwane modele

Wnioskowanie priorytetowe jest obsługiwane w tych modelach:

Model Wnioskowanie priorytetowe
Gemini 3.1 Flash-Lite (wersja testowa) ✔️
Gemini 3.1 Pro (wersja testowa) ✔️
Gemini 3 Flash (wersja testowa) ✔️
Gemini 3 Pro Image (wersja testowa) ✔️
Gemini 2.5 Pro ✔️
Gemini 2.5 Flash ✔️
Gemini 2.5 Flash Image ✔️
Gemini 2.5 Flash-Lite ✔️

Co dalej?

Więcej informacji o innych opcjach wnioskowania i optymalizacji Gemini: