O Deep Research do Gemini já está disponível em pré-lançamento com planejamento colaborativo, visualização, suporte a MCP e muito mais.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

O armazenamento em cache de contexto

Observação: esta versão da página abrange a nova API Interactions, que está atualmente na versão Beta.
Para implantações de produção estáveis, recomendamos que você continue usando a API generateContent. Use a alternância nesta página para mudar entre as versões.

Em um fluxo de trabalho de IA típico, você pode transmitir os mesmos tokens de entrada várias vezes para um modelo. A API Gemini oferece armazenamento em cache implícito para otimizar a performance e os custos.

Armazenamento em cache implícito

O armazenamento em cache implícito é ativado por padrão para todos os modelos do Gemini 2.5 e mais recentes. Transmitimos automaticamente a economia de custos se a solicitação atingir os caches. Não é necessário fazer nada para ativar esse recurso. A contagem mínima de tokens de entrada para o armazenamento em cache de contexto está listada na tabela a seguir para cada modelo:

Modelo	Limite mínimo de tokens
Gemini 3.5 Flash	4096
Pré-lançamento do Gemini 3.1 Pro	4096
Gemini 2.5 Flash	2048
Gemini 2.5 Pro	2048

Para aumentar a chance de uma ocorrência em cache implícita:

Coloque conteúdos grandes e comuns no início do comando.
Envie solicitações com prefixo semelhante em um curto período.

Você pode conferir o número de tokens que foram acertos de cache no campo usage_metadata (Python) ou usageMetadata (JavaScript) do objeto de resposta.