Gemini Deep Research jest teraz dostępna w wersji testowej z funkcjami planowania współpracy, wizualizacji, obsługi MCP i nie tylko.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Buforowanie kontekstu

Uwaga: ta wersja strony dotyczy nowego interfejsu Interactions API, który jest obecnie dostępny w wersji beta.
W przypadku stabilnych wdrożeń produkcyjnych zalecamy dalsze korzystanie z interfejsu generateContent API. Za pomocą przełącznika na tej stronie możesz przełączać się między wersjami.

W typowym procesie AI możesz wielokrotnie przekazywać te same tokeny wejściowe do modelu. Interfejs Gemini API oferuje niejawne buforowanie, które optymalizuje wydajność i koszty.

Niejawne buforowanie

Niejawne buforowanie jest domyślnie włączone w przypadku wszystkich modeli Gemini 2.5 i nowszych. Jeśli Twoje żądanie trafi do pamięci podręcznej, automatycznie przekażemy Ci oszczędności. Aby włączyć tę funkcję, nie musisz nic robić. Minimalna liczba tokenów wejściowych w przypadku buforowania kontekstu jest podana w tabeli poniżej dla każdego modelu:

Model	Minimalny limit tokenów
Gemini 3.5 Flash	1024
Gemini 3 Pro (wersja testowa)	4096
Gemini 2.5 Flash	1024
Gemini 2.5 Pro	4096

Aby zwiększyć szansę na trafienie w niejawnej pamięci podręcznej:

Spróbuj umieścić duże i popularne treści na początku prompta.
Spróbuj wysyłać żądania z podobnym prefiksem w krótkim czasie.

Liczbę tokenów, które zostały trafione do pamięci podręcznej, możesz sprawdzić w polu usage_metadata (Python) lub usageMetadata (JavaScript) obiektu odpowiedzi.