Interfejs Interactions API jest już ogólnie dostępny. Zalecamy korzystanie z tego interfejsu API, aby mieć dostęp do wszystkich najnowszych funkcji i modeli.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Wnioskowanie o priorytecie

Opis: dowiedz się, jak zoptymalizować czas oczekiwania za pomocą poziomu wnioskowania Priorytet w interfejsie Interactions API

Gemini Priority API to poziom wnioskowania Premium przeznaczony do zbiorów zadań o kluczowym znaczeniu dla firmy, które wymagają mniejszego czasu oczekiwania i najwyższej niezawodności w cenie premium. Ruch na poziomie Priorytet ma wyższy priorytet niż ruch na poziomie Standard i Flex.

Wnioskowanie z priorytetem jest dostępne we wszystkich punktach końcowych interfejsu Interactions API.

Jak korzystać z priorytetu

Aby korzystać z poziomu Priorytet, ustaw w żądaniu pole service_tier na priority. Jeśli to pole zostanie pominięte, domyślnym poziomem będzie Standard.

Python

from google import genai

client = genai.Client()

interaction = client.interactions.create(
    model="gemini-3.5-flash",
    input="Triage this critical customer support ticket immediately.",
    service_tier='priority'
)
print(interaction.output_text)

JavaScript

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
    const interaction = await ai.interactions.create({
        model: "gemini-3.5-flash",
        input: "Triage this critical customer support ticket immediately.",
        service_tier: "priority"
    });
    console.log(interaction.output_text);
}

await main();

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "Content-Type: application/json" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -d '{
    "model": "gemini-3.5-flash",
    "input": "Triage this critical customer support ticket immediately.",
    "service_tier": "priority"
  }'

Jak działa wnioskowanie z priorytetem

Wnioskowanie z priorytetem kieruje żądania do kolejek obliczeniowych o wysokim priorytecie, co zapewnia przewidywalną i szybką wydajność w przypadku aplikacji dla użytkowników. Jego głównym mechanizmem jest łagodna degradacja po stronie serwera do standardowego przetwarzania w przypadku ruchu, który przekracza limity dynamiczne. Dzięki temu aplikacja zachowuje stabilność, a żądanie nie jest odrzucane.

Funkcja	Priorytet	Standardowe	Flex	Wsad
Ceny	75–100% więcej niż w przypadku poziomu Standard	Pełna cena	50% zniżki	50% zniżki
Czas oczekiwania	Sekundy	Sekundy do minut	Minuty (docelowo 1–15 min)	Do 24 godzin
Niezawodność	Wysoka (nie można jej obniżyć)	Wysoka / średnio wysoka	Bez gwarancji (można ją obniżyć)	Wysoka (w przypadku przepustowości)
Interfejs	Synchroniczna	Synchroniczna	Synchroniczna	Asynchroniczna

Główne zalety

Krótki czas oczekiwania: zaprojektowany z myślą o czasie odpowiedzi w sekundach w przypadku interaktywnych, narzędzi AI dla użytkowników.
Wysoka niezawodność: ruch jest traktowany z najwyższym priorytetem i jest ściśle nieobniżalny.
Łagodna degradacja: w przypadku nagłego wzrostu ruchu przekraczającego limity dynamiczne następuje automatyczne obniżenie poziomu do Standardowego w celu przetworzenia żądania, co zapobiega przerwom w działaniu usługi.
Niewielkie utrudnienia: używa tej samej synchronicznej create metody co poziomy Standard i Flex.

Przypadki użycia

Przetwarzanie z priorytetem jest idealne w przypadku zbiorów zadań o kluczowym znaczeniu dla firmy, w których najważniejsza jest wydajność i niezawodność.

Interaktywne aplikacje AI: chatboty i asystenci obsługi klienta, w przypadku których użytkownicy płacą więcej i oczekują szybkich i spójnych odpowiedzi.
Silniki podejmowania decyzji w czasie rzeczywistym: systemy wymagające bardzo niezawodnych wyników z krótkim czasem oczekiwania , takie jak triage zgłoszeń na żywo czy wykrywanie oszustw.
Funkcje dla klientów premium: deweloperzy, którzy muszą zagwarantować wyższe cele poziomu usług (SLO) dla płacących klientów.

Ograniczenia liczby żądań

Zużycie na poziomie Priorytet ma własne ograniczenia liczby żądań, chociaż jest ono wliczane do ogólnych ograniczeń liczby żądań dotyczących ruchu interaktywnego. Domyślne ograniczenia liczby żądań w przypadku wnioskowania z priorytetem to 0,3-krotność standardowego ograniczenia liczby żądań dla modelu / poziomu.

Logika łagodnej degradacji

Jeśli limity priorytetu zostaną przekroczone z powodu przeciążenia, żądania przekraczające limit zostaną automatycznie i łagodnie obniżone do standardowego przetwarzania zamiast odrzucenia z błędem 503 lub 429. Żądania obniżone do poziomu Standard są rozliczane według stawki standardowej, a nie stawki premium Priorytet.

Odpowiedzialność klienta

Monitorowanie odpowiedzi: deweloperzy powinni monitorować x-gemini-service-tier nagłówek w odpowiedzi interfejsu API, aby wykryć, czy żądania są często obniżane do poziomu standard.
Ponawianie prób: klienci muszą wdrożyć logikę ponawiania prób lub wycofywania się z wykładniczym opóźnieniem w przypadku standardowych błędów, takich jak DEADLINE_EXCEEDED.

Ceny

Wnioskowanie z priorytetem jest o 75–100% droższe niż standardowy interfejs API i rozliczane za token.

Obsługiwane modele

Wnioskowanie z priorytetem jest obsługiwane przez te modele:

Model	Wnioskowanie z priorytetem
Gemini 3.5 Flash	✔️
Gemini 3.1 Flash-Lite	✔️
Gemini 3.1 Pro (wersja testowa)	✔️
Gemini 3 Flash (wersja testowa)	✔️
Gemini 2.5 Pro	✔️
Gemini 2.5 Flash	✔️
Gemini 2.5 Flash-Lite	✔️

Co dalej?

Wnioskowanie Flex w celu zmniejszenia kosztów.
Tokeny: dowiedz się więcej o tokenach.