Gemini Deep Research jest teraz dostępna w wersji testowej z funkcjami planowania współpracy, wizualizacji, obsługi MCP i nie tylko.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Wnioskowanie z priorytetem

Uwaga: ta wersja strony dotyczy nowego interfejsu Interactions API, który jest obecnie dostępny w wersji beta.
W przypadku stabilnych wdrożeń produkcyjnych zalecamy dalsze korzystanie z interfejsu generateContent API. Za pomocą przełącznika na tej stronie możesz przełączać się między wersjami.

Gemini Priority API to poziom wnioskowania premium przeznaczony dla zbiorów zadań o kluczowym znaczeniu dla firmy, które wymagają mniejszego opóźnienia i najwyższej niezawodności w wyższej cenie. Ruch na poziomie priorytetowym ma wyższy priorytet niż ruch na poziomie standardowym i Flex.

Wnioskowanie z priorytetem jest dostępne we wszystkich punktach końcowych interfejsu Interactions API.

Jak korzystać z priorytetu

Aby korzystać z poziomu priorytetowego, ustaw w żądaniu wartość priority w polu service_tier. Jeśli to pole zostanie pominięte, domyślnym poziomem będzie standardowy.

Python

from google import genai

client = genai.Client()

try:
    interaction = client.interactions.create(
        model="gemini-3.5-flash",
        input="Triage this critical customer support ticket immediately.",
        service_tier='priority'
    )

    print(interaction.output_text)

except Exception as e:
    print(f"Error during API call: {e}")

JavaScript

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const interaction = await ai.interactions.create({
          model: "gemini-3.5-flash",
          input: "Triage this critical customer support ticket immediately.",
          service_tier: "priority"
      });

      console.log(interaction.output_text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "Content-Type: application/json" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Api-Revision: 2026-05-20" \
  -d '{
    "model": "gemini-3.5-flash",
    "input": "Triage this critical customer support ticket immediately.",
    "service_tier": "priority"
  }'

Jak działa wnioskowanie z priorytetem

Wnioskowanie z priorytetem kieruje żądania do kolejek obliczeniowych o wysokim priorytecie, co zapewnia przewidywalną i szybką wydajność w przypadku aplikacji dla użytkowników. Jego głównym mechanizmem jest łagodna degradacja po stronie serwera do standardowego przetwarzania w przypadku ruchu, który przekracza limity dynamiczne. Dzięki temu aplikacja zachowuje stabilność, a żądanie nie jest odrzucane.

Funkcja	Priorytet	Standardowe	Flex	Wsad
Ceny	75–100% więcej niż w przypadku wersji Standard	Bilet normalny	50% zniżki	50% zniżki
Czas oczekiwania	Sekundy	Sekundy do minut	Minuty (docelowo 1–15 min)	Do 24 godzin
Niezawodność	Wysoka (nie można jej zmniejszyć)	Wysoka / średnio wysoka	Bez gwarancji (można ją zmniejszyć)	Wysoka (w przypadku przepustowości)
Interfejs	Synchroniczna	Synchroniczna	Synchroniczna	Asynchroniczny

Główne korzyści

Niskie opóźnienie: zaprojektowane z myślą o czasie odpowiedzi w sekundach w przypadku interaktywnych, narzędzi AI dla użytkowników.
Wysoka niezawodność: ruch jest traktowany z najwyższym priorytetem i jest ściśle nieodrzucalny.
Łagodna degradacja: w przypadku nagłego wzrostu ruchu przekraczającego limity dynamiczne następuje automatyczne obniżenie poziomu do standardowego przetwarzania zamiast odrzucenia żądania, co zapobiega przerwom w działaniu usługi.
Niewielkie utrudnienia: używa tej samej synchronicznej create metody co poziomy standardowy i Flex.

Przypadki użycia

Przetwarzanie z priorytetem idealnie sprawdza się w przypadku zbiorów zadań o kluczowym znaczeniu dla firmy, w których najważniejsza jest wydajność i niezawodność.

Interaktywne aplikacje AI: czatboty i asystenci obsługi klienta, w przypadku których użytkownicy płacą więcej i oczekują szybkich, spójnych odpowiedzi.
Silniki podejmowania decyzji w czasie rzeczywistym: systemy wymagające wysoce niezawodnych wyników o niskim opóźnieniu , takich jak triage zgłoszeń na żywo czy wykrywanie oszustw.
Funkcje premium dla klientów: deweloperzy, którzy muszą zagwarantować wyższe cele poziomu usług (SLO) dla płacących klientów.

Ograniczenia liczby żądań

Zużycie z priorytetem ma własne ograniczenia liczby żądań, mimo że jest wliczane do ogólnych ograniczeń liczby żądań dotyczących ruchu interaktywnego. Domyślne ograniczenia liczby żądań w przypadku wnioskowania z priorytetem to 0,3-krotność standardowego ograniczenia liczby żądań dla modelu / poziomu.

Logika łagodnej degradacji

Jeśli limity priorytetowe zostaną przekroczone z powodu przeciążenia, żądania przekraczające limit zostaną automatycznie i łagodnie obniżone do standardowego przetwarzania zamiast odrzucenia z błędem 503 lub 429. Żądania obniżone do poziomu standardowego są rozliczane według stawki standardowej, a nie stawki premium za priorytet.

Odpowiedzialność klienta

Monitorowanie odpowiedzi: deweloperzy powinni monitorować x-gemini-service-tier nagłówek w odpowiedzi interfejsu API, aby wykryć, czy żądania są często obniżane do poziomu standard.
Ponawianie prób: klienci muszą wdrożyć logikę ponawiania prób lub wzrastający czas do ponowienia w przypadku standardowych błędów, takich jak DEADLINE_EXCEEDED.

Ceny

Wnioskowanie z priorytetem jest o 75–100% droższe niż standardowy interfejs API i rozliczane za token.

Obsługiwane modele

Wnioskowanie z priorytetem jest obsługiwane w tych modelach:

Model	Wnioskowanie z priorytetem
Gemini 3.5 Flash	✔️
Gemini 3.1 Flash-Lite	✔️
Gemini 3.1 Flash-Lite (wersja testowa)	✔️
Gemini 3.1 Pro (wersja testowa)	✔️
Gemini 3 Flash (wersja testowa)	✔️
Gemini 2.5 Pro	✔️
Gemini 2.5 Flash	✔️
Gemini 2.5 Flash-Lite	✔️

Co dalej?

Wnioskowanie Flex w celu zmniejszenia kosztów.
Tokeny: informacje o tokenach.