Gemini Deep Research jest teraz dostępna w wersji testowej z funkcjami planowania współpracy, wizualizacji, obsługi MCP i nie tylko.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Optymalizacja i wnioskowanie w interfejsie Gemini API

Interfejs Gemini API oferuje różne mechanizmy optymalizacji, które pomagają zachować równowagę między szybkością, kosztem i niezawodnością w zależności od konkretnych potrzeb związanych z obciążeniem. Niezależnie od tego, czy tworzysz boty konwersacyjne działające w czasie rzeczywistym, czy uruchamiasz złożone potoki przetwarzania danych offline, wybór odpowiedniego paradygmatu może znacznie obniżyć koszty lub zwiększyć wydajność.

Funkcja	Standardowe	Flex	Priorytet	Wsad	Buforowanie
Ceny	Pełna cena	50% zniżki	75–100% więcej niż standardowa	50% zniżki	90% rabatu + proporcjonalne miejsce na tokeny
Opóźnienie	Sekundy na minuty	Minuty (docelowo 1–15 min)	Sekundy	Do 24 godzin	Krótszy czas do pierwszego tokena
Niezawodność	Wysoka / dość wysoka	Możliwie najlepsza obsługa (z możliwością odrzucenia)	Wysoka (niezrzucająca sierści)	Wysoki (dla przepustowości)	Nie dotyczy
Interfejs	Synchroniczna	Synchroniczna	Synchroniczna	Asynchroniczny	Stan zapisany
Najlepsze zastosowanie	Ogólne przepływy pracy aplikacji	Łańcuchy sekwencyjne o niskim priorytecie	Aplikacje produkcyjne przeznaczone dla użytkowników	Ogromne zbiory danych, oceny offline	Powtarzające się zapytania dotyczące tego samego pliku

Poziomy usług wnioskowania (synchroniczne)

Możesz przełączać się między ruchem synchronicznym zoptymalizowanym pod kątem niezawodności a ruchem synchronicznym zoptymalizowanym pod kątem kosztów, przekazując parametr service_tier w standardowych wywołaniach generowania.

Standardowe wnioskowanie (domyślne)

Standardowa wersja jest domyślną opcją generowania treści sekwencyjnych. Zapewnia normalne czasy reakcji bez dodatkowych opłat ani długich kolejek.

Niezawodność: standardowa krytyczność
Cena: standardowa.
Najlepsze w przypadku: najbardziej interaktywnych aplikacji codziennego użytku.

Wnioskowanie priorytetowe (zoptymalizowane pod kątem czasu oczekiwania)

Przetwarzanie priorytetowe kieruje Twoje żądania do kolejek obliczeniowych o wysokim znaczeniu. Ten ruch jest ściśle niepodlegający przerwaniu (nigdy nie jest wyprzedzany przez inne warstwy) i zapewnia najwyższą niezawodność. Jeśli przekroczysz limity dynamicznego priorytetu, system obniży priorytet żądania do przetwarzania standardowego zamiast zwracać błąd.

Niezawodność: najwyższa krytyczność
Cena: od 75% do 100% wyższa niż stawki standardowe.
Najlepsze w przypadku: chatbotów dla klientów, wykrywania oszustw w czasie rzeczywistym i kluczowych dla firmy asystentów.

Wnioskowanie Flex (optymalizacja pod kątem kosztów)

Elastyczne wnioskowanie oferuje 50% rabatu w porównaniu ze stawkami standardowymi dzięki wykorzystaniu okazjonalnej mocy obliczeniowej poza godzinami szczytu. Żądania są przetwarzane synchronicznie, co oznacza, że nie musisz ponownie pisać kodu, aby zarządzać obiektami zbiorczymi. Ponieważ jest to ruch „zrzucany”, żądania mogą zostać wyprzedzone, jeśli system odnotuje standardowe skoki ruchu.

Niezawodność: niegwarantowana, z możliwością obniżenia priorytetu
Cena: 50% ceny standardowej (rozliczane za token).
Najlepsze rozwiązanie w przypadku: wieloetapowych procesów opartych na agentach, w których połączenie N+1 zależy od wyniku połączenia N, aktualizacji systemu CRM w tle i ocen offline.

Batch API (operacje zbiorcze, asynchroniczne)

Interfejs Batch API został zaprojektowany do asynchronicznego przetwarzania dużych ilości żądań przy 50% standardowego kosztu. Żądania możesz przesyłać jako słowniki wbudowane lub za pomocą pliku wejściowego JSONL (maksymalnie 2 GB). Przetwarza żądania przy użyciu kolejek przepustowości w tle z docelowym czasem realizacji wynoszącym 24 godziny.

Niezawodność: możliwość odrzucenia, ale z automatycznymi ponownymi próbami wysyłania co 24 godziny i systemem kolejkowania.
Cena: 50% ceny standardowej.
Najlepsze do: wstępnego przetwarzania ogromnych zbiorów danych, uruchamiania okresowych pakietów testów regresji i generowania dużej liczby obrazów lub osadzonych danych.

Buforowanie kontekstu (oszczędność danych wejściowych)

Buforowanie kontekstu jest używane, gdy obszerny kontekst początkowy jest wielokrotnie przywoływany przez krótsze żądania.

Pamięć podręczna niejawna: automatycznie włączona w modelach Gemini 2.5 i nowszych. Jeśli Twoja prośba trafi do istniejących pamięci podręcznych na podstawie wspólnych prefiksów promptów, system przekaże Ci oszczędności.
Jawne buforowanie: możesz ręcznie utworzyć obiekt pamięci podręcznej z określonym czasem życia (TTL). Po utworzeniu możesz odwoływać się do tokenów w pamięci podręcznej w przypadku kolejnych żądań, aby uniknąć wielokrotnego przekazywania tego samego ładunku korpusu.
Cena: rozliczana na podstawie liczby tokenów pamięci podręcznej i czasu przechowywania (TTL).
Najlepsze rozwiązanie w przypadku: chatbotów z rozbudowanymi instrukcjami systemowymi, powtarzalnej analizy długich plików wideo lub zapytań dotyczących dużych zbiorów dokumentów.