A API Interactions já está disponível para todos os usuários. Recomendamos usar essa API para acessar todos os recursos e modelos mais recentes.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

O armazenamento em cache de contexto

Em um fluxo de trabalho de IA típico, é possível transmitir os mesmos tokens de entrada várias vezes para um modelo. A API Gemini oferece armazenamento em cache implícito para otimizar a performance e os custos.

Armazenamento em cache implícito

O armazenamento em cache implícito é ativado por padrão para todos os modelos do Gemini 2.5 e mais recentes. Ele é compatível com os modos de conversa com estado (usando previous_interaction_id) e sem estado. Transferimos automaticamente as economias de custo se sua solicitação atingir os caches. Não é necessário fazer nada para ativar esse recurso. A contagem mínima de tokens de entrada para o cache de contexto está listada na tabela a seguir para cada modelo:

Modelo	Limite mínimo de tokens
Gemini 3.5 Flash	4096
Pré-lançamento do Gemini 3.1 Pro	4096
Gemini 2.5 Flash	2048
Gemini 2.5 Pro	2048

Para aumentar a chance de uma ocorrência implícita em cache:

Tente colocar conteúdos grandes e comuns no início do comando
Tente enviar solicitações com prefixos semelhantes em um curto período

Você pode conferir o número de tokens que foram acertos de cache no campo usage.total_cached_tokens (Python e JavaScript) do objeto de resposta.