En un flujo de trabajo de IA típico, es posible que pases los mismos tokens de entrada una y otra vez a un modelo. La API de Gemini ofrece almacenamiento en caché implícito para optimizar el rendimiento y los costos.
Almacenamiento en caché implícito
El almacenamiento en caché implícito está habilitado de forma predeterminada para todos los modelos de Gemini 2.5 y versiones posteriores. Si tu solicitud llega a las memorias caché, te transferimos automáticamente los ahorros en costos. No es necesario que realices ninguna acción para habilitar esta función. En la siguiente tabla, se indica la cantidad mínima de tokens de entrada para el almacenamiento en caché del contexto de cada modelo:
Modelo
Límite mínimo de tokens
Versión preliminar de Gemini 3 Flash
1024
Versión preliminar de Gemini 3 Pro
4096
Gemini 2.5 Flash
1024
Gemini 2.5 Pro
4096
Para aumentar las probabilidades de que se produzca un acierto de caché implícito, haz lo siguiente:
Intenta colocar contenido grande y común al principio de tu instrucción.
Intenta enviar solicitudes con prefijos similares en un período breve.
Puedes ver la cantidad de tokens que fueron aciertos de caché en el campo usage_metadata (Python) o usageMetadata (JavaScript) del objeto de respuesta.
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Falta la información que necesito","missingTheInformationINeed","thumb-down"],["Muy complicado o demasiados pasos","tooComplicatedTooManySteps","thumb-down"],["Desactualizado","outOfDate","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Problema con las muestras o los códigos","samplesCodeIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2026-05-07 (UTC)"],[],[]]