In un tipico flusso di lavoro IA, potresti passare più volte gli stessi token di input un modello. Con la funzionalità di memorizzazione nella cache del contesto dell'API Gemini, puoi trasmettere alcuni contenuti al modello una volta, memorizza nella cache i token di input, quindi fai riferimento ai token memorizzati nella cache per le richieste successive. In determinati volumi, l'utilizzo di token memorizzati nella cache ha un costo inferiore rispetto al passaggio ripetuto nello stesso corpus di token.
Quando memorizzi nella cache un insieme di token, puoi scegliere per quanto tempo esistono prima dell'eliminazione automatica dei token. La durata della memorizzazione nella cache è chiamata time to live (TTL). Se non viene configurato, il TTL predefinito è 1 ora. La il costo della memorizzazione nella cache dipende dalle dimensioni del token di input e da quanto vengano mantenuti.
La memorizzazione nella cache del contesto supporta sia Gemini 1.5 Pro che Gemini 1.5 Flash.
Quando utilizzare la memorizzazione nella cache di contesto
La memorizzazione nella cache del contesto è particolarmente adatta a situazioni in cui una al contesto iniziale viene fatto riferimento ripetutamente da richieste più brevi. Valuta l'uso memorizzazione nella cache di contesto per casi d'uso quali:
- Chatbot con istruzioni di sistema esaustive
- Analisi ripetitiva di file video di lunga durata
- Query ricorrenti su set di documenti di grandi dimensioni
- Analisi frequenti del repository di codice o correzione di bug
In che modo la memorizzazione nella cache riduce i costi
La memorizzazione nella cache del contesto è una funzionalità a pagamento progettata per ridurre i costi operativi complessivi. La fatturazione si basa sui seguenti fattori:
- Conteggio token cache: il numero di token di input memorizzati nella cache, fatturati a un anche se inclusi in prompt successivi.
- Durata dell'archiviazione: la quantità di tempo per cui i token memorizzati nella cache vengono archiviati (TTL), e vengono fatturati in base alla durata TTL del conteggio dei token memorizzati nella cache. Non c'è un minimo o limiti massimi sul TTL.
- Altri fattori: si applicano altri costi, ad esempio per i token di input non memorizzati nella cache e token di output.
Per i dettagli aggiornati sui prezzi, consulta i prezzi dell'API Gemini . Per scoprire come contare i token, consulta la sezione .
Come utilizzare la memorizzazione nella cache di contesto
Questa sezione presuppone che tu abbia installato un SDK Gemini e configurato un'API come mostrato nella guida rapida.
Considerazioni aggiuntive
Quando utilizzi la memorizzazione nella cache di contesto, tieni presente le seguenti considerazioni:
- Il numero minimo di token di input per la memorizzazione nella cache di contesto è pari a 32.768, mentre massimo è uguale al valore massimo del modello specificato. (Per ulteriori informazioni conteggio dei token, consulta la Guida ai token).
- Il modello non fa alcuna distinzione tra token memorizzati nella cache e regolari di input. I contenuti memorizzati nella cache sono semplicemente un prefisso del prompt.
- Non sono previsti limiti di frequenza o utilizzo speciali per la memorizzazione nella cache di contesto; lo standard
si applicano limiti di frequenza per
GenerateContent
e i limiti di token includono contenuti memorizzati nella cache di token. - Il numero di token memorizzati nella cache viene restituito nell'
usage_metadata
dal le operazioni create, get ed list del servizio di cache, nonchéGenerateContent
quando viene utilizzata la cache.