Кэширование контекста

В типичном рабочем процессе ИИ вы можете передавать одни и те же входные токены модели снова и снова. API Gemini предлагает неявное кэширование для оптимизации производительности и затрат.

Неявное кэширование

Неявное кэширование включено по умолчанию для всех моделей Gemini 2.5 и более новых. Мы автоматически передаем экономию средств, если ваш запрос попадает в кэш. Вам ничего не нужно делать, чтобы включить эту функцию. Минимальное количество входных токенов для контекстного кэширования указано в следующей таблице для каждой модели:

Модель Минимальный лимит токенов
Предварительный просмотр Gemini 3 Flash 1024
Предварительный просмотр Gemini 3 Pro 4096
Вспышка Gemini 2.5 1024
Gemini 2.5 Pro 4096

Чтобы повысить вероятность попадания в неявный кэш:

  • Попробуйте разместить часто встречающиеся и распространенные элементы в начале вашего запроса.
  • Постарайтесь отправлять запросы с похожим префиксом в течение короткого промежутка времени.

Количество токенов, попавших в кэш, можно увидеть в поле usage_metadata (Python) или usageMetadata (JavaScript) объекта ответа.