La API de Interactions ya está disponible de forma general. Te recomendamos que uses esta API para acceder a todos los modelos y funciones más recientes.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

El almacenamiento de contexto en caché

En un flujo de trabajo de IA típico, es posible que pases los mismos tokens de entrada una y otra vez a un modelo. La API de Gemini ofrece almacenamiento en caché implícito para optimizar el rendimiento y los costos.

Almacenamiento en caché implícito

El almacenamiento en caché implícito está habilitado de forma predeterminada para todos los modelos de Gemini 2.5 y versiones posteriores. Se admite para los modos de conversación con estado (con previous_interaction_id) y sin estado. Si tu solicitud llega a las memorias caché, te transferiremos automáticamente los ahorros de costos. No es necesario que realices ninguna acción para habilitar esta función. En la siguiente tabla, se indica la cantidad mínima de tokens de entrada para el almacenamiento en caché del contexto de cada modelo:

Modelo	Límite mínimo de tokens
Gemini 3.5 Flash	4096
Versión preliminar de Gemini 3.1 Pro	4096
Gemini 2.5 Flash	2048
Gemini 2.5 Pro	2048

Para aumentar las probabilidades de que se produzca un acierto de caché implícito, haz lo siguiente:

Intenta colocar contenido grande y común al principio de tu instrucción.
Intenta enviar solicitudes con prefijos similares en un período breve.

Puedes ver la cantidad de tokens que fueron aciertos de caché en el campo usage.total_cached_tokens (Python y JavaScript) del objeto de respuesta.