Gemini 2.5 Pro Experimental, nasz najbardziej zaawansowany model, jest już dostępny. Więcej informacji

Ta strona została przetłumaczona przez Cloud Translation API.

Buforowanie kontekstu

W typowym procesie sztucznej inteligencji możesz wielokrotnie przekazywać te same tokeny wejściowe do modelu. Korzystając z funkcji Gemini API dotyczącej kontekstowego buforowania, możesz przekazać modelowi pewną treść, zapisać w pamięci podręcznej tokeny wejściowe, a następnie odwoływać się do tych tokenów w kolejnych żądaniach. Przy pewnych wolumenach korzystanie z tokenów w pamięci podręcznej jest tańsze niż wielokrotne przekazywanie tego samego zbioru tokenów.

Gdy przechowujesz w pamięci podręcznej zestaw tokenów, możesz określić, jak długo ma ona istnieć, zanim tokeny zostaną automatycznie usunięte. Czas przechowywania w pamięci podręcznej nazywany jest czasem życia danych (TTL). Jeśli nie określisz tego ustawienia, domyślnie są to 24 godziny. Koszt buforowania zależy od rozmiaru tokena wejściowego i czasu, przez jaki mają być przechowywane tokeny.

Buforowanie kontekstu obsługuje modele Gemini 1.5 Pro i Gemini 1.5 Flash.

Kiedy używać buforowania kontekstu

Buforowanie kontekstu jest szczególnie przydatne w sytuacjach, gdy obszerny początkowy kontekst jest wielokrotnie odwoływany przez krótsze żądania. Zastanów się nad użyciem buforowania kontekstu w takich przypadkach:

Czatboty z obszernymi instrukcjami systemowymi
powtarzająca się analiza długich plików wideo;
powtarzające się zapytania dotyczące dużych zbiorów dokumentów;
częsta analiza repozytorium kodu lub poprawianie błędów;

Jak buforowanie zmniejsza koszty

Pamięć podręczna kontekstu to płatna funkcja, która ma na celu obniżenie ogólnych kosztów operacyjnych. Płatności są określane na podstawie tych czynników:

Liczba tokenów w pamięci podręcznej:liczba tokenów wejściowych w pamięci podręcznej, za które pobierana jest obniżona stawka, gdy są one uwzględnione w kolejnych promptach.
Czas przechowywania: czas przechowywania tokenów w pamięci podręcznej (TTL), naliczany na podstawie czasu życia tokenów w pamięci podręcznej. Nie ma minimalnych ani maksymalnych wartości TTL.
Inne czynniki: obowiązują inne opłaty, np. za tokeny wejściowe i wyjściowe, które nie są przechowywane w pamięci podręcznej.

Najnowsze informacje o cenach znajdziesz na tej stronie dotyczącej Gemini API. Aby dowiedzieć się, jak zliczać tokeny, zapoznaj się z przewodnikiem dotyczącym tokenów.

Jak korzystać z buforowania kontekstu

W tej sekcji zakładamy, że masz zainstalowany pakiet Gemini SDK (lub masz zainstalowany curl) oraz skonfigurowany klucz interfejsu API zgodnie z instrukcjami w artykule Szybki start.

Uwagi dodatkowe

Podczas korzystania z buforowania kontekstu pamiętaj o tych kwestiach:

Minimalna liczba tokenów wejściowych do przechowywania w pamięci podręcznej w kontekście to 32 768, a maksymalna jest taka sama jak maksymalna liczba tokenów dla danego modelu. (Więcej informacji o liczeniu tokenów znajdziesz w tym przewodniku).
Model nie rozróżnia tokenów z bufora i zwykłych tokenów wejściowych. Treści w pamięci podręcznej to po prostu prefiks promptu.
Nie ma żadnych specjalnych limitów szybkości ani limitów użycia w przypadku buforowania kontekstu. Obowiązują standardowe limity szybkości dla GenerateContent, a limity tokenów obejmują tokeny buforowane.
Liczba tokenów w pamięci podręcznej jest zwracana w usage_metadata z operacji tworzenia, pobierania i wyświetlania listy w usłudze pamięci podręcznej, a także w GenerateContent podczas korzystania z pamięci podręcznej.