W typowym przepływie pracy związanym z AI można wielokrotnie przekazywać te same tokeny wejściowe do modelu. Korzystając z funkcji buforowania kontekstu w interfejsie Gemini API, możesz przekazać modelowi pewną treść, zapisać w pamięci podręcznej tokeny wejściowe, a następnie odwoływać się do tych tokenów w kolejnych żądaniach. Przy pewnych wolumenach korzystanie z tokenów w pamięci podręcznej jest tańsze niż wielokrotne przekazywanie tego samego zbioru tokenów.
Gdy przechowujesz w pamięci podręcznej zestaw tokenów, możesz określić, jak długo ma ona istnieć, zanim tokeny zostaną automatycznie usunięte. Czas buforowania jest nazywany czasem życia danych (TTL). Jeśli nie jest ustawiony, domyślny czas życia wynosi 1 godzinę. Koszt buforowania zależy od rozmiaru tokena wejściowego i tego, jak długo mają być przechowywane.
Buforowanie kontekstu obsługuje modele Gemini 1.5 Pro i Gemini 1.5 Flash.
Kiedy używać buforowania kontekstu
Kontekstowe buforowanie sprawdza się szczególnie w sytuacjach, w których znaczny kontekst początkowy jest wielokrotnie odwoływany do krótszych żądań. Zastanów się nad użyciem buforowania kontekstu w przypadku:
- Czatboty z rozbudowanymi instrukcjami systemowymi
- Wielokrotne analizowanie długich plików wideo
- Cykliczne zapytania dotyczące dużych zbiorów dokumentów
- częsta analiza repozytorium kodu lub poprawianie błędów;
Jak buforowanie zmniejsza koszty
Pamięć podręczna kontekstu to płatna funkcja, która ma na celu obniżenie ogólnych kosztów operacyjnych. Płatności są ustalane na podstawie następujących czynników:
- Cache token count (Liczba tokenów pamięci podręcznej): liczba tokenów wejściowych w pamięci podręcznej, które są rozliczane według niższej stawki, gdy są uwzględniane w kolejnych promptach.
- Czas przechowywania: czas przechowywania tokenów w pamięci podręcznej (TTL). Opłata jest obliczana na podstawie czasu TTL liczby tokenów w pamięci podręcznej. Nie ma minimalnej ani maksymalnej wartości TTL.
- Inne czynniki: obowiązują inne opłaty, np. za tokeny wejściowe i wyjściowe, które nie są przechowywane w pamięci podręcznej.
Aktualne informacje o cenach znajdziesz na tej stronie dotyczącej cen Gemini API. Więcej informacji o liczeniu tokenów znajdziesz w przewodniku po tokenach.
Jak korzystać z pamięci podręcznej kontekstu
W tej sekcji zakładamy, że masz zainstalowany pakiet SDK Gemini (lub masz zainstalowany curl) oraz skonfigurowany klucz interfejsu API zgodnie z instrukcjami w artykule Szybki start.
Uwagi dodatkowe
Gdy korzystasz z pamięci podręcznej kontekstu, pamiętaj o tych kwestiach:
- Minimalna liczba tokenów wejściowych do przechowywania w pamięci podręcznej w kontekście to 32 768, a maksymalna jest taka sama jak maksymalna liczba tokenów dla danego modelu. Więcej informacji o liczeniu tokenów znajdziesz w przewodniku po tokenach.
- W modelu nie ma rozróżnienia między tokenami w pamięci podręcznej a zwykłymi tokenami wejściowymi. Treść w pamięci podręcznej jest po prostu prefiksem promptu.
- Nie ma żadnych specjalnych limitów szybkości ani limitów użycia w przypadku buforowania kontekstu. Obowiązują standardowe limity szybkości dla
GenerateContent
, a limity tokenów obejmują tokeny buforowane. - Liczba tokenów zapisanych w pamięci podręcznej jest zwracana w funkcji
usage_metadata
podczas operacji tworzenia, pobierania i wyświetlania listy usług pamięci podręcznej, a także wGenerateContent
, gdy używasz pamięci podręcznej.