W typowym przepływie pracy związanym z AI możesz wielokrotnie przekazywać te same tokeny wejściowe modelem. Za pomocą funkcji buforowania kontekstu interfejsu Gemini API możesz przekazywać niektóre treści do modelu, zapisz tokeny wejściowe w pamięci podręcznej, a następnie odwołać się do tokenów w pamięci podręcznej . W przypadku niektórych woluminów korzystanie z tokenów w pamięci podręcznej jest niższe niż wielokrotne przekazywanie tych samych tokenów.
Możesz wybrać, jak długo pamięć podręczna ma być przechowywana w pamięci podręcznej zanim tokeny zostaną automatycznie usunięte. Czas trwania tego buforowania wynosi nazywany czasem życia (TTL). Jeśli nie zostanie ustawiona, domyślna wartość TTL to 1 godzina. koszt buforowania zależy od rozmiaru tokena wejściowego i tego, jak długo tokeny trwałe.
Kontekstowe buforowanie obsługuje zarówno Gemini 1.5 Pro, jak i Gemini 1.5 Flash.
Kiedy używać pamięci podręcznej kontekstu
Kontekstowe buforowanie sprawdza się szczególnie w sytuacjach, w których w krótszym kontekście wielokrotnie odwołują się do początkowego kontekstu. Rozważ użycie buforowanie kontekstowe dla przypadków użycia takich jak:
- czatboty z obszernymi instrukcjami systemowymi,
- Wielokrotne analizowanie długich plików wideo
- Cykliczne zapytania dotyczące dużych zbiorów dokumentów
- Częsta analiza repozytorium kodu lub naprawa błędów
Jak buforowanie obniża koszty
Kontekstowe przechowywanie danych w pamięci podręcznej to płatna funkcja zaprojektowana w celu zmniejszenia ogólnych kosztów operacyjnych. Płatności są ustalane na podstawie następujących czynników:
- Cache token count (Liczba tokenów pamięci podręcznej): liczba tokenów wejściowych w pamięci podręcznej, rozliczanych w obniżoną stawkę, gdy pojawi się ona w kolejnych promptach.
- Czas przechowywania: czas przechowywania tokenów w pamięci podręcznej (TTL). rozliczane na podstawie czasu TTL liczby tokenów w pamięci podręcznej. Nie ma minimalnej wartości lub maksymalnych granic wartości TTL.
- Inne czynniki: obowiązują inne opłaty, np. za tokeny w pamięci podręcznej. i tokeny wyjściowe.
Aktualne ceny znajdziesz w cenniku interfejsu Gemini API. . Aby dowiedzieć się, jak liczyć tokeny, przeczytaj sekcję Token .
Jak korzystać z pamięci podręcznej kontekstu
W tej sekcji zakładamy, że masz zainstalowany pakiet Gemini SDK i skonfigurowany interfejs API zgodnie z opisem w krótkim wprowadzeniu.
Uwagi dodatkowe
Gdy korzystasz z pamięci podręcznej kontekstu, pamiętaj o tych kwestiach:
- Minimalna liczba tokenów wejściowych do buforowania kontekstu wynosi 32 768, a Maksimum jest takie samo jak maksimum dla danego modelu. (Więcej informacji znajdziesz na stronie liczenia tokenów znajdziesz w Przewodniku po tokenach).
- Model nie rozróżnia między tokenami w pamięci podręcznej a zwykłymi tokenami tokeny wejściowe. Treść w pamięci podręcznej jest po prostu prefiksem promptu.
- Nie ma specjalnych limitów stawki ani wykorzystania w przypadku kontekstowego buforowania treści. standard
obowiązują limity liczby żądań dla
GenerateContent
, a limity tokenów uwzględniają pamięć podręczną tokeny. - Liczba tokenów przechowywanych w pamięci podręcznej jest zwracana w sekcji
usage_metadata
z tworzenia, pobierania i wyświetlania listy operacji pamięci podręcznej, a takżeGenerateContent
w przypadku korzystania z pamięci podręcznej.