W typowym przepływie pracy związanym z AI możesz wielokrotnie przekazywać do modelu te same tokeny wejściowe. Interfejs Gemini API oferuje niejawne buforowanie, które optymalizuje wydajność i koszty.
Niejawne buforowanie
Pamięć podręczna jest domyślnie włączona we wszystkich modelach Gemini 2.5 i nowszych. Jeśli Twoje żądanie trafi do pamięci podręcznej, automatycznie przekażemy Ci oszczędności. Aby to włączyć, nie musisz nic robić. Minimalna liczba tokenów wejściowych w przypadku buforowania kontekstu jest podana w tabeli poniżej dla każdego modelu:
Model
Minimalny limit tokenów
Gemini 3 Flash (wersja testowa)
1024
Gemini 3 Pro (wersja testowa)
4096
Gemini 2.5 Flash
1024
Gemini 2.5 Pro
4096
Aby zwiększyć szansę na trafienie w pamięci podręcznej:
Spróbuj umieścić na początku promptu duże i popularne treści.
Wysyłanie w krótkim czasie żądań z podobnym prefiksem
Liczbę tokenów, które zostały pobrane z pamięci podręcznej, możesz sprawdzić w polu usage_metadata (Python) lub usageMetadata (JavaScript) obiektu odpowiedzi.
[[["Łatwo zrozumieć","easyToUnderstand","thumb-up"],["Rozwiązało to mój problem","solvedMyProblem","thumb-up"],["Inne","otherUp","thumb-up"]],[["Brak potrzebnych mi informacji","missingTheInformationINeed","thumb-down"],["Zbyt skomplikowane / zbyt wiele czynności do wykonania","tooComplicatedTooManySteps","thumb-down"],["Nieaktualne treści","outOfDate","thumb-down"],["Problem z tłumaczeniem","translationIssue","thumb-down"],["Problem z przykładami/kodem","samplesCodeIssue","thumb-down"],["Inne","otherDown","thumb-down"]],["Ostatnia aktualizacja: 2026-05-07 UTC."],[],[]]