Wnioskowanie z priorytetem

Gemini Priority API to poziom wnioskowania premium przeznaczony dla zbiorów zadań o kluczowym znaczeniu dla firmy, które wymagają mniejszego opóźnienia i najwyższej niezawodności w wyższej cenie. Ruch na poziomie priorytetowym ma wyższy priorytet niż ruch na poziomie standardowym i Flex.

Wnioskowanie z priorytetem jest dostępne we wszystkich punktach końcowych interfejsu Interactions API.

Jak korzystać z priorytetu

Aby korzystać z poziomu priorytetowego, ustaw w żądaniu wartość priority w polu service_tier. Jeśli to pole zostanie pominięte, domyślnym poziomem będzie standardowy.

Python

from google import genai

client = genai.Client()

try:
    interaction = client.interactions.create(
        model="gemini-3.5-flash",
        input="Triage this critical customer support ticket immediately.",
        service_tier='priority'
    )

    print(interaction.output_text)

except Exception as e:
    print(f"Error during API call: {e}")

JavaScript

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const interaction = await ai.interactions.create({
          model: "gemini-3.5-flash",
          input: "Triage this critical customer support ticket immediately.",
          service_tier: "priority"
      });

      console.log(interaction.output_text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "Content-Type: application/json" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Api-Revision: 2026-05-20" \
  -d '{
    "model": "gemini-3.5-flash",
    "input": "Triage this critical customer support ticket immediately.",
    "service_tier": "priority"
  }'

Jak działa wnioskowanie z priorytetem

Wnioskowanie z priorytetem kieruje żądania do kolejek obliczeniowych o wysokim priorytecie, co zapewnia przewidywalną i szybką wydajność w przypadku aplikacji dla użytkowników. Jego głównym mechanizmem jest łagodna degradacja po stronie serwera do standardowego przetwarzania w przypadku ruchu, który przekracza limity dynamiczne. Dzięki temu aplikacja zachowuje stabilność, a żądanie nie jest odrzucane.

Funkcja Priorytet Standardowe Flex Wsad
Ceny 75–100% więcej niż w przypadku wersji Standard Bilet normalny 50% zniżki 50% zniżki
Czas oczekiwania Sekundy Sekundy do minut Minuty (docelowo 1–15 min) Do 24 godzin
Niezawodność Wysoka (nie można jej zmniejszyć) Wysoka / średnio wysoka Bez gwarancji (można ją zmniejszyć) Wysoka (w przypadku przepustowości)
Interfejs Synchroniczna Synchroniczna Synchroniczna Asynchroniczny

Główne korzyści

  • Niskie opóźnienie: zaprojektowane z myślą o czasie odpowiedzi w sekundach w przypadku interaktywnych, narzędzi AI dla użytkowników.
  • Wysoka niezawodność: ruch jest traktowany z najwyższym priorytetem i jest ściśle nieodrzucalny.
  • Łagodna degradacja: w przypadku nagłego wzrostu ruchu przekraczającego limity dynamiczne następuje automatyczne obniżenie poziomu do standardowego przetwarzania zamiast odrzucenia żądania, co zapobiega przerwom w działaniu usługi.
  • Niewielkie utrudnienia: używa tej samej synchronicznej create metody co poziomy standardowy i Flex.

Przypadki użycia

Przetwarzanie z priorytetem idealnie sprawdza się w przypadku zbiorów zadań o kluczowym znaczeniu dla firmy, w których najważniejsza jest wydajność i niezawodność.

  • Interaktywne aplikacje AI: czatboty i asystenci obsługi klienta, w przypadku których użytkownicy płacą więcej i oczekują szybkich, spójnych odpowiedzi.
  • Silniki podejmowania decyzji w czasie rzeczywistym: systemy wymagające wysoce niezawodnych wyników o niskim opóźnieniu , takich jak triage zgłoszeń na żywo czy wykrywanie oszustw.
  • Funkcje premium dla klientów: deweloperzy, którzy muszą zagwarantować wyższe cele poziomu usług (SLO) dla płacących klientów.

Ograniczenia liczby żądań

Zużycie z priorytetem ma własne ograniczenia liczby żądań, mimo że jest wliczane do ogólnych ograniczeń liczby żądań dotyczących ruchu interaktywnego. Domyślne ograniczenia liczby żądań w przypadku wnioskowania z priorytetem to 0,3-krotność standardowego ograniczenia liczby żądań dla modelu / poziomu.

Logika łagodnej degradacji

Jeśli limity priorytetowe zostaną przekroczone z powodu przeciążenia, żądania przekraczające limit zostaną automatycznie i łagodnie obniżone do standardowego przetwarzania zamiast odrzucenia z błędem 503 lub 429. Żądania obniżone do poziomu standardowego są rozliczane według stawki standardowej, a nie stawki premium za priorytet.

Odpowiedzialność klienta

  • Monitorowanie odpowiedzi: deweloperzy powinni monitorować x-gemini-service-tier nagłówek w odpowiedzi interfejsu API, aby wykryć, czy żądania są często obniżane do poziomu standard.
  • Ponawianie prób: klienci muszą wdrożyć logikę ponawiania prób lub wzrastający czas do ponowienia w przypadku standardowych błędów, takich jak DEADLINE_EXCEEDED.

Ceny

Wnioskowanie z priorytetem jest o 75–100% droższe niż standardowy interfejs API i rozliczane za token.

Obsługiwane modele

Wnioskowanie z priorytetem jest obsługiwane w tych modelach:

Model Wnioskowanie z priorytetem
Gemini 3.5 Flash ✔️
Gemini 3.1 Flash-Lite ✔️
Gemini 3.1 Flash-Lite (wersja testowa) ✔️
Gemini 3.1 Pro (wersja testowa) ✔️
Gemini 3 Flash (wersja testowa) ✔️
Gemini 2.5 Pro ✔️
Gemini 2.5 Flash ✔️
Gemini 2.5 Flash-Lite ✔️

Co dalej?