Em um fluxo de trabalho de IA típico, é possível transmitir os mesmos tokens de entrada várias vezes para um modelo. A API Gemini oferece armazenamento em cache implícito para otimizar a performance e os custos.
Armazenamento em cache implícito
O armazenamento em cache implícito é ativado por padrão para todos os modelos do Gemini 2.5 e mais recentes. Transferimos automaticamente a economia de custos se sua solicitação atingir os caches. Não é necessário fazer nada para ativar esse recurso. A contagem mínima de tokens de entrada para o cache de contexto está listada na tabela a seguir para cada modelo:
Modelo
Limite mínimo de tokens
Pré-lançamento do Gemini 3 Flash
1024
Pré-lançamento do Gemini 3 Pro
4096
Gemini 2.5 Flash
1024
Gemini 2.5 Pro
4096
Para aumentar a chance de uma ocorrência implícita em cache:
Tente colocar conteúdos grandes e comuns no início do comando
Tente enviar solicitações com prefixos semelhantes em um curto período
É possível conferir o número de tokens que foram acertos de cache no campo usage_metadata (Python) ou usageMetadata (JavaScript) do objeto de resposta.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Não contém as informações de que eu preciso","missingTheInformationINeed","thumb-down"],["Muito complicado / etapas demais","tooComplicatedTooManySteps","thumb-down"],["Desatualizado","outOfDate","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Problema com as amostras / o código","samplesCodeIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2026-05-07 UTC."],[],[]]