In un flusso di lavoro di AI tipico, potresti passare gli stessi token di input più e più volte a un modello. L'API Gemini offre la memorizzazione nella cache implicita per ottimizzare prestazioni e costi.
Memorizzazione nella cache implicita
La memorizzazione nella cache implicita è abilitata per impostazione predefinita per tutti i modelli Gemini 2.5 e versioni successive. Trasmettiamo automaticamente i risparmi sui costi se la tua richiesta raggiunge le cache. Non devi fare nulla per abilitare questa funzionalità. Il conteggio minimo dei token di input per la memorizzazione nella cache del contesto è riportato nella tabella seguente per ogni modello:
Modello
Limite minimo di token
Gemini 3 Flash (anteprima)
1024
Gemini 3 Pro (anteprima)
4096
Gemini 2.5 Flash
1024
Gemini 2.5 Pro
4096
Per aumentare le probabilità di un successo della cache implicita:
Prova a inserire contenuti di grandi dimensioni e comuni all'inizio del prompt
Prova a inviare richieste con prefisso simile in un breve periodo di tempo
Puoi visualizzare il numero di token che hanno generato hit della cache nel campo usage_metadata (Python) o usageMetadata (JavaScript) dell'oggetto di risposta.
[[["Facile da capire","easyToUnderstand","thumb-up"],["Il problema è stato risolto","solvedMyProblem","thumb-up"],["Altra","otherUp","thumb-up"]],[["Mancano le informazioni di cui ho bisogno","missingTheInformationINeed","thumb-down"],["Troppo complicato/troppi passaggi","tooComplicatedTooManySteps","thumb-down"],["Obsoleti","outOfDate","thumb-down"],["Problema di traduzione","translationIssue","thumb-down"],["Problema relativo a esempi/codice","samplesCodeIssue","thumb-down"],["Altra","otherDown","thumb-down"]],["Ultimo aggiornamento 2026-05-07 UTC."],[],[]]