API для взаимодействия теперь общедоступн. Мы рекомендуем использовать этот API для доступа ко всем новейшим функциям и моделям.

Эта страница переведена с помощью Cloud Translation API.

Кэширование контекста

В типичном рабочем процессе ИИ вы можете передавать одни и те же входные токены модели снова и снова. API Gemini предлагает неявное кэширование для оптимизации производительности и затрат.

Неявное кэширование

Неявное кэширование включено по умолчанию для всех моделей Gemini 2.5 и более новых. Мы автоматически передаем экономию средств, если ваш запрос попадает в кэш. Вам ничего не нужно делать, чтобы включить эту функцию. Минимальное количество входных токенов для контекстного кэширования указано в следующей таблице для каждой модели:

Модель	Минимальный лимит токенов
Вспышка Gemini 3.5	4096
Gemini 3.1 Pro Preview	4096
Вспышка Gemini 2.5	2048
Gemini 2.5 Pro	2048

Чтобы повысить вероятность попадания в неявный кэш:

Попробуйте разместить часто встречающиеся и распространенные элементы в начале вашего запроса.
Постарайтесь отправлять запросы с похожим префиксом в течение короткого промежутка времени.

Количество токенов, попавших в кэш, можно увидеть в поле usage_metadata (Python) или usageMetadata (JavaScript) объекта ответа.