O armazenamento em cache de contexto

Em um fluxo de trabalho de IA típico, você pode transmitir os mesmos tokens de entrada várias vezes para um modelo. A API Gemini oferece armazenamento em cache implícito para otimizar a performance e os custos.

Armazenamento em cache implícito

O armazenamento em cache implícito é ativado por padrão para todos os modelos do Gemini 2.5 e mais recentes. Transmitimos automaticamente a economia de custos se a solicitação atingir os caches. Não é necessário fazer nada para ativar esse recurso. A contagem mínima de tokens de entrada para o armazenamento em cache de contexto está listada na tabela a seguir para cada modelo:

Modelo Limite mínimo de tokens
Gemini 3.5 Flash 4096
Pré-lançamento do Gemini 3.1 Pro 4096
Gemini 2.5 Flash 2048
Gemini 2.5 Pro 2048

Para aumentar a chance de uma ocorrência em cache implícita:

  • Coloque conteúdos grandes e comuns no início do comando.
  • Envie solicitações com prefixo semelhante em um curto período.

Você pode conferir o número de tokens que foram acertos de cache no campo usage_metadata (Python) ou usageMetadata (JavaScript) do objeto de resposta.