Buforowanie kontekstu

W typowym przepływie pracy AI możesz wielokrotnie przekazywać do modelu te same tokeny wejściowe. Interfejs Gemini API oferuje niejawne buforowanie, które optymalizuje wydajność i koszty.

Niejawne buforowanie

Pamięć podręczna jest domyślnie włączona we wszystkich modelach Gemini 2.5 i nowszych. Jeśli Twoje żądanie trafi do pamięci podręcznej, automatycznie przekażemy Ci oszczędności. Aby to włączyć, nie musisz nic robić. Minimalna liczba tokenów wejściowych w przypadku buforowania kontekstu jest podana w tabeli poniżej dla każdego modelu:

Model Minimalny limit tokenów
Gemini 3.5 Flash 4096
Gemini 3.1 Pro (wersja testowa) 4096
Gemini 2.5 Flash 2048
Gemini 2.5 Pro 2048

Aby zwiększyć szansę na trafienie w pamięci podręcznej:

  • Spróbuj umieścić na początku prompta duże i powszechne treści.
  • Wysyłanie w krótkim czasie żądań z podobnym prefiksem

Liczbę tokenów, które zostały pobrane z pamięci podręcznej, możesz sprawdzić w polu usage_metadata (Python) lub usageMetadata (JavaScript) obiektu odpowiedzi.