O armazenamento em cache de contexto

Em um fluxo de trabalho de IA típico, é possível transmitir os mesmos tokens de entrada várias vezes para um modelo. A API Gemini oferece dois mecanismos de cache diferentes:

  • Armazenamento em cache implícito (ativado automaticamente nos modelos do Gemini 2.5, sem garantia de economia de custos)
  • Armazenamento em cache explícito (pode ser ativado manualmente na maioria dos modelos, garantia de economia de custos)

O armazenamento em cache explícito é útil quando você quer garantir economia de custos, mas com algum trabalho extra do desenvolvedor.

Armazenamento em cache implícito

O armazenamento em cache implícito é ativado por padrão para todos os modelos do Gemini 2.5. Transferimos automaticamente a economia de custos se sua solicitação atingir os caches. Não é necessário fazer nada para ativar esse recurso. Ela entra em vigor em 8 de maio de 2025. A contagem mínima de tokens de entrada para o cache de contexto está listada na tabela a seguir para cada modelo:

Modelo Limite mínimo de tokens
Pré-lançamento do Gemini 3 Pro 4096
Gemini 2.5 Pro 4096
Gemini 2.5 Flash 1024

Para aumentar a chance de uma ocorrência implícita em cache:

  • Tente colocar conteúdos grandes e comuns no início do comando
  • Tente enviar solicitações com prefixos semelhantes em um curto período

Você pode conferir o número de tokens que foram hits de cache no campo usage_metadata do objeto de resposta.

Armazenamento em cache explícito

Com o recurso de armazenamento em cache explícito da API Gemini, é possível transmitir algum conteúdo para o modelo uma vez, armazenar em cache os tokens de entrada e consultar os tokens armazenados para solicitações subsequentes. Em determinados volumes, usar tokens em cache tem um custo menor do que transmitir o mesmo conjunto de tokens repetidamente.

Ao armazenar em cache um conjunto de tokens, você pode escolher por quanto tempo quer que o cache exista antes que os tokens sejam excluídos automaticamente. Essa duração do armazenamento em cache é chamada de time to live (TTL). Se não for definido, o TTL será de 1 hora. O custo do armazenamento em cache depende do tamanho do token de entrada e de quanto tempo você quer que os tokens persistam.

Nesta seção, presumimos que você instalou um SDK do Gemini (ou tem o curl instalado) e configurou uma chave de API, conforme mostrado no início rápido.

Gerar conteúdo usando um cache

O exemplo a seguir mostra como gerar conteúdo usando uma instrução de sistema em cache e um arquivo de texto.

import {
  GoogleGenAI,
  createUserContent,
  createPartFromUri,
} from "@google/genai";

const ai = new GoogleGenAI({ apiKey: "GEMINI_API_KEY" });

async function main() {
  const doc = await ai.files.upload({
    file: "path/to/file.txt",
    config: { mimeType: "text/plain" },
  });
  console.log("Uploaded file name:", doc.name);

  const modelName = "gemini-2.0-flash-001";
  const cache = await ai.caches.create({
    model: modelName,
    config: {
      contents: createUserContent(createPartFromUri(doc.uri, doc.mimeType)),
      systemInstruction: "You are an expert analyzing transcripts.",
    },
  });
  console.log("Cache created:", cache);

  const response = await ai.models.generateContent({
    model: modelName,
    contents: "Please summarize this transcript",
    config: { cachedContent: cache.name },
  });
  console.log("Response text:", response.text);
}

await main();

Listar caches

Não é possível recuperar ou visualizar conteúdo armazenado em cache, mas você pode recuperar metadados de cache (name, model, displayName, usageMetadata, createTime, updateTime e expireTime).

Para listar metadados de todos os caches enviados, use GoogleGenAI.caches.list():

console.log("My caches:");
const pager = await ai.caches.list({ config: { pageSize: 10 } });
let page = pager.page;
while (true) {
  for (const c of page) {
    console.log("    ", c.name);
  }
  if (!pager.hasNextPage()) break;
  page = await pager.nextPage();
}

Atualizar um cache

É possível definir um novo ttl ou expireTime para um cache. Não é possível mudar mais nada sobre o cache.

O exemplo a seguir mostra como atualizar o ttl de um cache usando GoogleGenAI.caches.update().

const ttl = `${2 * 3600}s`; // 2 hours in seconds
const updatedCache = await ai.caches.update({
  name: cache.name,
  config: { ttl },
});
console.log("After update (TTL):", updatedCache);

Excluir um cache

O serviço de cache oferece uma operação de exclusão para remover manualmente o conteúdo do cache. O exemplo a seguir mostra como excluir um cache usando GoogleGenAI.caches.delete().

await ai.caches.delete({ name: cache.name });

Cache explícito usando a biblioteca OpenAI

Se você estiver usando uma biblioteca da OpenAI, poderá ativar o armazenamento em cache explícito usando a propriedade cached_content em extra_body.

Quando usar o armazenamento em cache explícito

O armazenamento em cache de contexto é particularmente adequado para cenários em que um contexto inicial substancial é referenciado repetidamente por solicitações mais curtas. Use armazenamento em cache de contexto para casos de uso como estes:

  • Chatbots com instruções do sistema abrangentes
  • Análise repetitiva de arquivos de vídeo longos
  • Consultas recorrentes em grandes conjuntos de documentos
  • Análise frequente do repositório de código ou correção de bugs

Como o armazenamento em cache explícito reduz os custos

O armazenamento em cache de contexto é um recurso pago projetado para reduzir os custos operacionais gerais. O faturamento é baseado nos seguintes fatores:

  1. Contagem de tokens de cache: o número de tokens de entrada armazenados em cache, faturados com uma taxa reduzida quando incluído nos comandos subsequentes.
  2. Duração do armazenamento:o tempo de armazenamento dos tokens em cache (TTL), faturado com base na duração do TTL da contagem de tokens em cache. Não há limites mínimos ou máximos para o TTL.
  3. Outros fatores: outras cobranças se aplicam, como tokens de entrada não armazenados em cache e tokens de saída.

Para detalhes atualizados sobre preços, consulte a página de preços da API Gemini. Para saber como contar tokens, consulte o guia de tokens.

Outras considerações

Considere o seguinte ao usar o cache de contexto:

  • A contagem mínima de tokens de entrada para o cache de contexto é de 1.024 para o 2.5 Flash, 4.096 para o 2.5 Pro e 2.048 para o 3 Pro Preview. O máximo é igual ao máximo do modelo especificado. Para mais informações sobre como contar tokens, consulte o guia de tokens.
  • O modelo não faz distinção entre tokens armazenados em cache e tokens de entrada regulares. O conteúdo armazenado em cache é um prefixo do comando.
  • Não há limites de uso ou taxas especiais no cache de contexto. Os limites de taxa padrão para GenerateContent se aplicam, e os limites de token incluem tokens armazenados em cache.
  • O número de tokens armazenados em cache é retornado no usage_metadata das operações "create", "get" e "list" do serviço de cache, e também em GenerateContent ao usar o cache.