일반적인 AI 워크플로에서는 동일한 입력 토큰을 모델에 반복해서 전달할 수 있습니다. Gemini API는 성능과 비용을 최적화하기 위해 암시적 캐싱을 제공합니다.
암시적 캐싱
모든 Gemini 2.5 이상 모델의 경우 암시적 캐싱이 기본적으로 사용 설정됩니다. 요청이 캐시에 적중되면 비용 절감이 자동으로 적용됩니다. 이를 사용 설정하기 위해 별도로 조치를 취하실 필요는 없습니다. 컨텍스트 캐싱의 최소 입력 토큰 수는 각 모델에 대해 다음 표에 나와 있습니다.
모델
최소 토큰 한도
Gemini 3.5 Flash
1024
Gemini 3 Pro 프리뷰
4096
Gemini 2.5 Flash
1024
Gemini 2.5 Pro
4096
암시적 캐시 적중 가능성을 높이려면 다음 안내를 따르세요.
프롬프트 시작 부분에 크고 공통적인 콘텐츠를 배치해 보세요.
짧은 시간 내에 유사한 프리픽스를 가진 요청을 전송합니다.
응답 객체의 usage_metadata (Python) 또는 usageMetadata (JavaScript) 필드에서 캐시 적중된 토큰 수를 확인할 수 있습니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["필요한 정보가 없음","missingTheInformationINeed","thumb-down"],["너무 복잡함/단계 수가 너무 많음","tooComplicatedTooManySteps","thumb-down"],["오래됨","outOfDate","thumb-down"],["번역 문제","translationIssue","thumb-down"],["샘플/코드 문제","samplesCodeIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2026-05-19(UTC)"],[],[]]