Gemini Deep Research jest teraz dostępna w wersji testowej z funkcjami planowania współpracy, wizualizacji, obsługi MCP i nie tylko.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Wnioskowanie o priorytecie

Uwaga: ta wersja strony dotyczy nowego interfejsu Interactions API, który jest obecnie dostępny w wersji beta.
W przypadku stabilnych wdrożeń produkcyjnych zalecamy dalsze korzystanie z interfejsu generateContent API. Możesz przełączać się między wersjami za pomocą przełącznika na tej stronie.

Interfejs Gemini Priority API to poziom wnioskowania premium przeznaczony dla krytycznych zbiorów zadań biznesowych, które wymagają mniejszego opóźnienia i najwyższej niezawodności w wyższej cenie. Ruch na poziomie Priority ma wyższy priorytet niż ruch na poziomie Standard API i Flex.

Wnioskowanie priorytetowe jest dostępne we wszystkich punktach końcowych interfejsu Interactions API.

Jak korzystać z priorytetu

Aby używać poziomu priorytetu, ustaw w żądaniu pole service_tier na priority. Jeśli to pole zostanie pominięte, domyślnym poziomem będzie standardowy.

Python

from google import genai

client = genai.Client()

try:
    interaction = client.interactions.create(
        model="gemini-3.5-flash",
        input="Triage this critical customer support ticket immediately.",
        service_tier='priority'
    )

    print(interaction.output_text)

except Exception as e:
    print(f"Error during API call: {e}")

JavaScript

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const interaction = await ai.interactions.create({
          model: "gemini-3.5-flash",
          input: "Triage this critical customer support ticket immediately.",
          service_tier: "priority"
      });

      console.log(interaction.output_text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "Content-Type: application/json" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Api-Revision: 2026-05-20" \
  -d '{
    "model": "gemini-3.5-flash",
    "input": "Triage this critical customer support ticket immediately.",
    "service_tier": "priority"
  }'

Jak działa wnioskowanie priorytetowe

Routowanie wnioskowania priorytetowego kieruje żądania do kolejek obliczeniowych o wysokim znaczeniu, zapewniając przewidywalną i szybką wydajność w przypadku aplikacji dostępnych dla użytkowników. Jego głównym mechanizmem jest płynne przejście na standardowe przetwarzanie po stronie serwera w przypadku ruchu, który przekracza dynamiczne limity. Zapewnia to stabilność aplikacji zamiast odrzucania żądania.

Funkcja	Priorytet	Standardowe	Flex	Wsad
Ceny	75–100% więcej niż w przypadku wersji Standard	Pełna cena	50% zniżki	50% zniżki
Opóźnienie	Sekundy	Sekundy na minuty	Minuty (docelowo 1–15 min)	Do 24 godzin
Niezawodność	Wysoka (niezrzucająca sierści)	Wysoka / dość wysoka	Możliwie najlepsza obsługa (z możliwością odrzucenia)	Wysoki (dla przepustowości)
Interfejs	Synchroniczna	Synchroniczna	Synchroniczna	Asynchroniczny

Główne zalety

Niskie opóźnienie: zaprojektowany z myślą o czasie reakcji wynoszącym kilka sekund w przypadku interaktywnych narzędzi AI przeznaczonych dla użytkowników.
Wysoka niezawodność: ruch jest traktowany jako najważniejszy i nie może być odrzucany.
Łagodna degradacja: skoki ruchu przekraczające limity dynamiczne są automatycznie obniżane do wersji Standard w celu przetworzenia zamiast powodować błędy, co zapobiega przerwom w działaniu usługi.
Niskie tarcie: korzysta z tej samej synchronicznej metody create co w przypadku poziomów standardowego i Flex.

Przypadki użycia

Przetwarzanie priorytetowe jest idealne w przypadku procesów o kluczowym znaczeniu dla firmy, w których wydajność i niezawodność mają największe znaczenie.

Interaktywne aplikacje AI: czatboty i kopiloty obsługi klienta, w przypadku których użytkownicy płacą wyższą cenę i oczekują szybkich, spójnych odpowiedzi.
Silniki decyzyjne działające w czasie rzeczywistym: systemy wymagające bardzo wiarygodnych wyników o niskim opóźnieniu, takie jak systemy triage zgłoszeń lub wykrywania oszustw.
Funkcje dla klientów premium: dla programistów, którzy muszą zagwarantować wyższe docelowe poziomy usług (SLO) dla klientów płacących.

Ograniczenia liczby żądań

Zużycie priorytetowe ma własne limity szybkości, mimo że jest wliczane do ogólnych limitów szybkości ruchu interaktywnego. Domyślne limity szybkości dla wnioskowania priorytetowego to 0,3x standardowego limitu szybkości dla modelu lub poziomu.

Logika przejścia na niższą wersję

Jeśli limity priorytetowe zostaną przekroczone z powodu przeciążenia, nadmiarowe żądania zostaną automatycznie i bezproblemowo obniżone do przetwarzania standardowego zamiast zakończyć się niepowodzeniem z błędem 503 lub 429. Obniżone żądania są rozliczane według stawki standardowej, a nie według stawki premium Priority.

Odpowiedzialność klienta

Monitorowanie odpowiedzi: deweloperzy powinni monitorować x-gemini-service-tiernagłówek w odpowiedzi interfejsu API, aby wykrywać, czy żądania są często obniżane do poziomustandard.
Ponowne próby: klienci muszą w przypadku standardowych błędów, takich jak DEADLINE_EXCEEDED, zaimplementować logikę ponawiania lub wzrastający czas do ponowienia.

Ceny

Wnioskowanie priorytetowe jest o 75–100% droższe niż standardowy interfejs API i jest rozliczane za token.

Obsługiwane modele

Priorytetowe wnioskowanie jest obsługiwane w tych modelach:

Model	Wnioskowanie o priorytecie
Gemini 3.5 Flash	✔️
Gemini 3.1 Flash-Lite	✔️
Gemini 3.1 Pro (wersja testowa)	✔️
Gemini 3 Flash (wersja testowa)	✔️
Gemini 2.5 Pro	✔️
Gemini 2.5 Flash	✔️
Gemini 2.5 Flash-Lite	✔️

Co dalej?

Elastyczne wnioskowanie w celu obniżenia kosztów.
Tokeny: dowiedz się więcej o tokenach.