Em um fluxo de trabalho típico de IA, é possível passar os mesmos tokens de entrada repetidamente um modelo. Com o recurso de armazenamento em cache de contexto da API Gemini, é possível transmitir ao modelo uma vez, armazenar em cache os tokens de entrada e consultar os tokens armazenados para as solicitações subsequentes. Em determinados volumes, o uso de tokens em cache tem um custo menor do que transmitir o mesmo conjunto de tokens repetidamente.
Quando você armazena um conjunto de tokens em cache, é possível escolher por quanto tempo quer que o cache antes da exclusão automática. A duração desse armazenamento em cache chamada Time to Live (TTL). Se ela não for definida, o TTL será definido como uma hora por padrão. A de armazenamento em cache depende do tamanho do token de entrada para que os tokens persistam.
O armazenamento em cache de contexto tem suporte ao Gemini 1.5 Pro e ao Gemini 1.5 Flash.
Quando usar o armazenamento em cache de contexto
O armazenamento em cache de contexto é particularmente adequado para cenários em que um contexto inicial substancial é referenciado repetidamente por solicitações mais curtas. Use armazenamento em cache de contexto para casos de uso como estes:
- Chatbots com instruções detalhadas do sistema
- Análise repetitiva de arquivos de vídeo longos
- Consultas recorrentes em grandes conjuntos de documentos
- Análise frequente do repositório de código ou correção de bugs
Como o armazenamento em cache reduz custos
O armazenamento em cache de contexto é um recurso pago projetado para reduzir os custos operacionais gerais. O faturamento é baseado nos seguintes fatores:
- Contagem de tokens de cache: o número de tokens de entrada armazenados em cache, faturados com uma taxa reduzida quando incluído nos comandos subsequentes.
- Duração do armazenamento:por quanto tempo os tokens em cache ficam armazenados (TTL), faturado com base na duração do TTL da contagem de tokens em cache. Não há valor mínimo ou limites máximos do TTL.
- Outros fatores: outras cobranças se aplicam, como tokens de entrada não armazenados em cache e tokens de saída.
Para conferir detalhes atualizados, consulte a página de preços da API Gemini . Para saber como contar tokens, consulte a documentação guia.
Como usar o armazenamento em cache de contexto
Esta seção pressupõe que você tenha instalado um SDK do Gemini e configurado uma API conforme mostrado no guia de início rápido.
Outras considerações
Ao usar o armazenamento em cache de contexto, tenha em mente as seguintes considerações:
- A contagem mínima de tokens de entrada para armazenamento em cache de contexto é 32.768, e o maxim é igual ao máximo do modelo fornecido. (Para mais informações sobre contagem de tokens, consulte o guia de tokens.
- O modelo não faz distinção entre tokens em cache e tokens tokens de entrada. O conteúdo em cache é simplesmente um prefixo do prompt.
- Não há taxas especiais ou limites de uso no armazenamento em cache de contexto; o padrão
os limites de taxa para
GenerateContent
são aplicados e os limites de token incluem em cache tokens. - O número de tokens em cache é retornado no
usage_metadata
da as operações create, get e list do serviço de cache, e tambémGenerateContent
ao usar o cache.