Gemini Deep Research ya está disponible en versión preliminar con planificación colaborativa, visualización, compatibilidad con MCP y mucho más.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

El almacenamiento de contexto en caché

Nota: Esta versión de la página abarca la nueva API de Interactions, que actualmente se encuentra en versión beta.
Para las implementaciones de producción estables, te recomendamos que sigas usando la API de generateContent. Puedes usar el botón de activación en esta página para alternar entre las versiones.

En un flujo de trabajo de IA típico, es posible que pases los mismos tokens de entrada una y otra vez a un modelo. La API de Gemini ofrece almacenamiento en caché implícito para optimizar el rendimiento y los costos.

Almacenamiento en caché implícito

El almacenamiento en caché implícito está habilitado de forma predeterminada para todos los modelos de Gemini 2.5 y versiones posteriores. Pasamos automáticamente los ahorros de costos si tu solicitud alcanza las cachés. No es necesario que hagas nada para habilitar esta función. El recuento mínimo de tokens de entrada para el almacenamiento en caché de contexto se indica en la siguiente tabla para cada modelo:

Modelo	Límite mínimo de tokens
Gemini 3.5 Flash	1024
Versión preliminar de Gemini 3 Pro	4096
Gemini 2.5 Flash	1024
Gemini 2.5 Pro	4096

Para aumentar las posibilidades de un acierto de caché implícito, haz lo siguiente:

Intenta colocar contenido grande y común al comienzo de tu instrucción.
Intenta enviar solicitudes con un prefijo similar en un período breve.

Puedes ver la cantidad de tokens que fueron aciertos de caché en el campo usage_metadata (Python) o usageMetadata (JavaScript) del objeto de respuesta.