O Deep Research do Gemini já está disponível em pré-lançamento com planejamento colaborativo, visualização, suporte a MCP e muito mais.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

O armazenamento em cache de contexto

Observação: esta versão da página aborda a nova API Interactions, que está na versão Beta.
Para implantações de produção estáveis, recomendamos que você continue usando a API generateContent. Use a chave nesta página para alternar entre as versões.

Em um fluxo de trabalho de IA típico, é possível transmitir os mesmos tokens de entrada várias vezes para um modelo. A API Gemini oferece armazenamento em cache implícito para otimizar a performance e os custos.

Armazenamento em cache implícito

O armazenamento em cache implícito é ativado por padrão para todos os modelos do Gemini 2.5 e mais recentes. Transferimos automaticamente a economia de custos se sua solicitação atingir os caches. Não é necessário fazer nada para ativar esse recurso. A contagem mínima de tokens de entrada para o cache de contexto está listada na tabela a seguir para cada modelo:

Modelo	Limite mínimo de tokens
Pré-lançamento do Gemini 3 Flash	1024
Pré-lançamento do Gemini 3 Pro	4096
Gemini 2.5 Flash	1024
Gemini 2.5 Pro	4096

Para aumentar a chance de uma ocorrência implícita em cache:

Tente colocar conteúdos grandes e comuns no início do comando
Tente enviar solicitações com prefixos semelhantes em um curto período

É possível conferir o número de tokens que foram acertos de cache no campo usage_metadata (Python) ou usageMetadata (JavaScript) do objeto de resposta.