Optymalizacja i wnioskowanie w interfejsie Gemini API

Interfejs Gemini API oferuje różne mechanizmy optymalizacji, które pomagają zachować równowagę między szybkością, kosztem i niezawodnością w zależności od konkretnych potrzeb związanych z obciążeniem. Niezależnie od tego, czy tworzysz boty konwersacyjne działające w czasie rzeczywistym, czy uruchamiasz złożone potoki przetwarzania danych offline, wybór odpowiedniego paradygmatu może znacznie obniżyć koszty lub zwiększyć wydajność.

Funkcja Standardowe Flex Priorytet Wsad Buforowanie
Ceny Pełna cena 50% zniżki 75–100% więcej niż standardowo 50% zniżki Proporcjonalne miejsce na dane tokenów
Opóźnienie Sekundy na minuty Minuty (docelowo 1–15 min) Niska (sekundy) Do 24 godzin Krótszy czas do pierwszego tokena
Niezawodność Wysoka / dość wysoka Możliwie najlepsza obsługa (z możliwością odrzucenia) Wysoka (niezrzucająca sierści) Wysoki (dla przepustowości) Nie dotyczy
Interfejs Synchroniczna Synchroniczna Synchroniczna Asynchroniczny Stan zapisany
Najlepsze zastosowanie Ogólne przepływy pracy aplikacji Łańcuchy sekwencyjne o niskim priorytecie Aplikacje produkcyjne przeznaczone dla użytkowników Ogromne zbiory danych, oceny offline Powtarzające się zapytania dotyczące tego samego pliku

Poziomy usług wnioskowania (synchroniczne)

Możesz przełączać się między ruchem synchronicznym zoptymalizowanym pod kątem opóźnień a ruchem synchronicznym zoptymalizowanym pod kątem kosztów, przekazując parametr service_tier w standardowych wywołaniach generowania.

Standardowe wnioskowanie (domyślne)

Standardowa wersja jest domyślną opcją generowania treści sekwencyjnych. Zapewnia normalne czasy reakcji bez dodatkowych opłat i długiego oczekiwania w kolejce.

  • Opóźnienie: od sekund do minut.
  • Cena: standardowa.
  • Najlepsze w przypadku: najbardziej interaktywnych aplikacji codziennego użytku.

Wnioskowanie priorytetowe (zoptymalizowane pod kątem czasu oczekiwania)

Przetwarzanie priorytetowe kieruje Twoje żądania do kolejek obliczeniowych o wysokim znaczeniu. Ten ruch jest ściśle niepodlegający przerwaniu (nigdy nie jest wyprzedzany przez inne warstwy) i zapewnia najwyższą niezawodność. Jeśli przekroczysz limity dynamicznego priorytetu, system obniży priorytet żądania do przetwarzania standardowego zamiast zwracać błąd.

  • Opóźnienie: bardzo małe (od milisekund do sekund).
  • Cena: od 75% do 100% wyższa niż stawki standardowe.
  • Najlepsze w przypadku: chatbotów obsługujących klientów na żywo, wykrywania oszustw w czasie rzeczywistym i kopilotów o kluczowym znaczeniu dla firmy.

Wnioskowanie Flex (optymalizacja pod kątem kosztów)

Elastyczne wnioskowanie oferuje 50% rabatu w porównaniu ze stawkami standardowymi dzięki wykorzystaniu dostępnej w danym momencie mocy obliczeniowej poza godzinami szczytu. Żądania są przetwarzane synchronicznie, co oznacza, że nie musisz ponownie pisać kodu, aby zarządzać obiektami zbiorczymi. Ponieważ jest to ruch „zrzucany”, żądania mogą zostać wyprzedzone, jeśli system odnotuje standardowe skoki ruchu.

  • Opóźnienie: niegwarantowane, docelowo od 1 do 15 minut.
  • Cena: 50% ceny standardowej (rozliczane za token).
  • Najlepsze rozwiązanie w przypadku: wieloetapowych procesów opartych na agentach, w których połączenie N+1 zależy od wyniku połączenia N, aktualizacji systemu CRM w tle i ocen offline.

Batch API (operacje zbiorcze, asynchroniczne)

Interfejs Batch API został zaprojektowany do asynchronicznego przetwarzania dużych ilości żądań przy 50% standardowego kosztu. Żądania możesz przesyłać jako słowniki wbudowane lub za pomocą pliku wejściowego JSONL (maksymalnie 2 GB). Przetwarza żądania za pomocą kolejek przepustowości w tle z docelowym czasem realizacji wynoszącym 24 godziny.

  • Opóźnienie: wysokie (do 24 godzin).
  • Cena: 50% ceny standardowej.
  • Najlepsze rozwiązanie do: wstępnego przetwarzania ogromnych zbiorów danych, przeprowadzania okresowych testów regresji i generowania dużej liczby obrazów lub osadzeń.

Buforowanie kontekstu (oszczędność danych wejściowych)

Pamięć podręczna kontekstu jest używana, gdy do obszernego kontekstu początkowego wielokrotnie odwołują się krótsze żądania.

  • Pamięć podręczna niejawna: automatycznie włączona w modelach Gemini 2.5 i nowszych. Jeśli Twoja prośba trafi do istniejących pamięci podręcznych na podstawie wspólnych prefiksów promptów, system przekaże Ci oszczędności.
  • Jawne buforowanie: możesz ręcznie utworzyć obiekt pamięci podręcznej z określonym czasem życia (TTL). Po utworzeniu możesz odwoływać się do tokenów w pamięci podręcznej w przypadku kolejnych żądań, aby uniknąć wielokrotnego przekazywania tego samego ładunku korpusu.
  • Cena: rozliczana na podstawie liczby tokenów pamięci podręcznej i czasu przechowywania (TTL).
  • Najlepsze rozwiązanie w przypadku: chatbotów z rozbudowanymi instrukcjami systemowymi, powtarzalnej analizy długich plików wideo lub zapytań dotyczących dużych zbiorów dokumentów.