O armazenamento em cache de contexto

Em um fluxo de trabalho de IA típico, é possível transmitir os mesmos tokens de entrada várias vezes para um modelo. A API Gemini oferece armazenamento em cache implícito para otimizar a performance e os custos.

Armazenamento em cache implícito

O armazenamento em cache implícito é ativado por padrão para todos os modelos do Gemini 2.5 e mais recentes. Transferimos automaticamente a economia de custos se sua solicitação atingir os caches. Não é necessário fazer nada para ativar esse recurso. A contagem mínima de tokens de entrada para o cache de contexto está listada na tabela a seguir para cada modelo:

Modelo Limite mínimo de tokens
Pré-lançamento do Gemini 3 Flash 1024
Pré-lançamento do Gemini 3 Pro 4096
Gemini 2.5 Flash 1024
Gemini 2.5 Pro 4096

Para aumentar a chance de uma ocorrência implícita em cache:

  • Tente colocar conteúdos grandes e comuns no início do comando
  • Tente enviar solicitações com prefixos semelhantes em um curto período

É possível conferir o número de tokens que foram acertos de cache no campo usage_metadata (Python) ou usageMetadata (JavaScript) do objeto de resposta.