Buforowanie kontekstu

W typowym przepływie pracy związanym z AI możesz wielokrotnie przekazywać te same tokeny wejściowe modelem. Za pomocą funkcji buforowania kontekstu interfejsu Gemini API możesz przekazywać niektóre treści do modelu, zapisz tokeny wejściowe w pamięci podręcznej, a następnie odwołać się do tokenów w pamięci podręcznej . W przypadku niektórych woluminów korzystanie z tokenów w pamięci podręcznej jest niższe niż wielokrotne przekazywanie tych samych tokenów.

Możesz wybrać, jak długo pamięć podręczna ma być przechowywana w pamięci podręcznej zanim tokeny zostaną automatycznie usunięte. Czas trwania tego buforowania wynosi nazywany czasem życia (TTL). Jeśli nie zostanie ustawiona, domyślna wartość TTL to 1 godzina. koszt buforowania zależy od rozmiaru tokena wejściowego i tego, jak długo tokeny trwałe.

Kontekstowe buforowanie obsługuje zarówno Gemini 1.5 Pro, jak i Gemini 1.5 Flash.

Kiedy używać pamięci podręcznej kontekstu

Kontekstowe buforowanie sprawdza się szczególnie w sytuacjach, w których w krótszym kontekście wielokrotnie odwołują się do początkowego kontekstu. Rozważ użycie buforowanie kontekstowe dla przypadków użycia takich jak:

  • czatboty z obszernymi instrukcjami systemowymi,
  • Wielokrotne analizowanie długich plików wideo
  • Cykliczne zapytania dotyczące dużych zbiorów dokumentów
  • Częsta analiza repozytorium kodu lub naprawa błędów

Jak buforowanie obniża koszty

Kontekstowe przechowywanie danych w pamięci podręcznej to płatna funkcja zaprojektowana w celu zmniejszenia ogólnych kosztów operacyjnych. Płatności są ustalane na podstawie następujących czynników:

  1. Cache token count (Liczba tokenów pamięci podręcznej): liczba tokenów wejściowych w pamięci podręcznej, rozliczanych w obniżoną stawkę, gdy pojawi się ona w kolejnych promptach.
  2. Czas przechowywania: czas przechowywania tokenów w pamięci podręcznej (TTL). rozliczane na podstawie czasu TTL liczby tokenów w pamięci podręcznej. Nie ma minimalnej wartości lub maksymalnych granic wartości TTL.
  3. Inne czynniki: obowiązują inne opłaty, np. za tokeny w pamięci podręcznej. i tokeny wyjściowe.

Aktualne ceny znajdziesz w cenniku interfejsu Gemini API. . Aby dowiedzieć się, jak liczyć tokeny, przeczytaj sekcję Token .

Jak korzystać z pamięci podręcznej kontekstu

W tej sekcji zakładamy, że masz zainstalowany pakiet Gemini SDK i skonfigurowany interfejs API zgodnie z opisem w krótkim wprowadzeniu.

Uwagi dodatkowe

Gdy korzystasz z pamięci podręcznej kontekstu, pamiętaj o tych kwestiach:

  • Minimalna liczba tokenów wejściowych do buforowania kontekstu wynosi 32 768, a Maksimum jest takie samo jak maksimum dla danego modelu. (Więcej informacji znajdziesz na stronie liczenia tokenów znajdziesz w Przewodniku po tokenach).
  • Model nie rozróżnia między tokenami w pamięci podręcznej a zwykłymi tokenami tokeny wejściowe. Treść w pamięci podręcznej jest po prostu prefiksem promptu.
  • Nie ma specjalnych limitów stawki ani wykorzystania w przypadku kontekstowego buforowania treści. standard obowiązują limity liczby żądań dla GenerateContent, a limity tokenów uwzględniają pamięć podręczną tokeny.
  • Liczba tokenów przechowywanych w pamięci podręcznej jest zwracana w sekcji usage_metadata z tworzenia, pobierania i wyświetlania listy operacji pamięci podręcznej, a także GenerateContent w przypadku korzystania z pamięci podręcznej.