L'API Interactions è ora disponibile a livello generale. Ti consigliamo di utilizzare questa API per accedere a tutti i modelli e a tutte le funzionalità più recenti.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Memorizzazione nella cache del contesto

In un tipico workflow di AI, potresti passare gli stessi token di input più e più volte a un modello. L'API Gemini offre la memorizzazione nella cache implicita per ottimizzare le prestazioni e i costi.

Memorizzazione nella cache implicita

La memorizzazione nella cache implicita è abilitata per impostazione predefinita per tutti i modelli Gemini 2.5 e successivi. Trasmettiamo automaticamente i risparmi sui costi se la tua richiesta raggiunge le cache. Non devi fare nulla per abilitare questa funzionalità. Il numero minimo di token di input per la memorizzazione nella cache del contesto è elencato nella tabella seguente per ciascun modello:

Modello	Limite minimo di token
Gemini 3.5 Flash	4096
Gemini 3.1 Pro (anteprima)	4096
Gemini 2.5 Flash	2048
Gemini 2.5 Pro	2048

Per aumentare le probabilità di un successo della cache implicito:

Prova a inserire contenuti grandi e comuni all'inizio del prompt.
Prova a inviare richieste con prefisso simile in un breve periodo di tempo

Puoi visualizzare il numero di token che sono stati hit della cache nel campo usage_metadata (Python) o usageMetadata (JavaScript) dell'oggetto risposta.