Em um fluxo de trabalho típico de IA, é possível transmitir os mesmos tokens de entrada repetidamente para um modelo. Usando o recurso de armazenamento em cache de contexto da API Gemini, é possível transmitir algum conteúdo ao modelo uma vez, armazenar os tokens de entrada em cache e, em seguida, consultar os tokens em cache para solicitações subsequentes. Em alguns volumes, o uso de tokens em cache tem um custo menor do que o envio repetido do mesmo corpus de tokens.
Ao armazenar em cache um conjunto de tokens, você pode escolher por quanto tempo o cache vai existir antes que os tokens sejam excluídos automaticamente. Essa duração de armazenamento em cache é chamada de time to live (TTL). Se não for definido, o TTL será definido como 1 hora. O custo do armazenamento em cache depende do tamanho do token de entrada e de quanto tempo você quer que os tokens persistam.
O armazenamento em cache do contexto varia de modelo para modelo.
Quando usar o armazenamento em cache de contexto
O armazenamento em cache de contexto é particularmente adequado para cenários em que um contexto inicial substancial é referenciado repetidamente por solicitações mais curtas. Use armazenamento em cache de contexto para casos de uso como estes:
- Chatbots com instruções do sistema extensas
- Análise repetitiva de arquivos de vídeo longos
- Consultas recorrentes em grandes conjuntos de documentos
- Análise frequente do repositório de código ou correção de bugs
Como usar o armazenamento em cache de contexto
Nesta seção, presumimos que você instalou um SDK do Gemini (ou o curl) e configurou uma chave de API, conforme mostrado no Guia de início rápido.
Gerar conteúdo usando um cache
O exemplo a seguir mostra como gerar conteúdo usando uma instrução do sistema em cache e um arquivo de texto.
import {
GoogleGenAI,
createUserContent,
createPartFromUri,
} from "@google/genai";
const ai = new GoogleGenAI({ apiKey: "GEMINI_API_KEY" });
async function main() {
const doc = await ai.files.upload({
file: "path/to/file.txt",
config: { mimeType: "text/plain" },
});
console.log("Uploaded file name:", doc.name);
const modelName = "gemini-2.0-flash-001";
const cache = await ai.caches.create({
model: modelName,
config: {
contents: createUserContent(createPartFromUri(doc.uri, doc.mimeType)),
systemInstruction: "You are an expert analyzing transcripts.",
},
});
console.log("Cache created:", cache);
const response = await ai.models.generateContent({
model: modelName,
contents: "Please summarize this transcript",
config: { cachedContent: cache.name },
});
console.log("Response text:", response.text);
}
await main();
Listar caches
Não é possível extrair ou visualizar o conteúdo armazenado em cache, mas é possível extrair
metadados de cache (name
, model
, displayName
, usageMetadata
,
createTime
, updateTime
e expireTime
).
Para listar os metadados de todos os caches enviados, use GoogleGenAI.caches.list()
:
console.log("My caches:");
const pager = await ai.caches.list({ config: { pageSize: 10 } });
let page = pager.page;
while (true) {
for (const c of page) {
console.log(" ", c.name);
}
if (!pager.hasNextPage()) break;
page = await pager.nextPage();
}
Atualizar um cache
É possível definir um novo ttl
ou expireTime
para um cache. Não é possível mudar qualquer outra
coisa sobre o cache.
O exemplo a seguir mostra como atualizar o ttl
de um cache usando
GoogleGenAI.caches.update()
.
const ttl = `${2 * 3600}s`; // 2 hours in seconds
const updatedCache = await ai.caches.update({
name: cache.name,
config: { ttl },
});
console.log("After update (TTL):", updatedCache);
Excluir um cache
O serviço de cache oferece uma operação de exclusão para remover manualmente o conteúdo
do cache. O exemplo a seguir mostra como excluir um cache usando
GoogleGenAI.caches.delete()
.
await ai.caches.delete({ name: cache.name });
Como o armazenamento em cache reduz custos
O armazenamento em cache de contexto é um recurso pago projetado para reduzir os custos operacionais gerais. O faturamento é baseado nos seguintes fatores:
- Contagem de tokens de cache: o número de tokens de entrada armazenados em cache, faturados com uma taxa reduzida quando incluído nos comandos subsequentes.
- Duração do armazenamento:o tempo de armazenamento e cobrança dos tokens em cache (TTL), faturado com base na duração do TTL da contagem de tokens em cache. Não há limites mínimos ou máximos no TTL.
- Outros fatores: outras cobranças se aplicam, como tokens de entrada não armazenados em cache e tokens de saída.
Para detalhes atualizados sobre preços, consulte a página de preços da API Gemini. Para saber como contar tokens, consulte o guia de tokens.
Outras considerações
Considere as seguintes considerações ao usar o armazenamento em cache de contexto:
- A contagem de tokens de entrada mínima para o armazenamento em cache de contexto é 4.096, e a máxima é igual ao máximo do modelo. Para saber mais sobre como contar tokens, consulte o guia de tokens.
- O modelo não faz distinção entre tokens em cache e tokens de entrada normais. O conteúdo armazenado em cache é um prefixo do comando.
- Não há taxas ou limites de uso especiais no armazenamento em cache de contexto. Os limites de taxa
padrão para
GenerateContent
são aplicados, e os limites de token incluem tokens em cache. - O número de tokens em cache é retornado no
usage_metadata
das operações de criação, acesso e listagem do serviço de cache e também emGenerateContent
ao usar o cache.