컨텍스트 캐싱

일반적인 AI 워크플로에서는 동일한 입력 토큰을 모델에 반복해서 전달할 수 있습니다. Gemini API는 성능과 비용을 최적화하기 위해 암시적 캐싱을 제공합니다.

암시적 캐싱

암시적 캐싱은 모든 Gemini 2.5 이상 모델에서 기본적으로 사용 설정됩니다. 요청이 캐시에 적중하면 비용 절감액이 자동으로 전달됩니다. 이를 사용 설정하기 위해 별도로 취해야 할 조치는 없습니다. 컨텍스트 캐싱의 최소 입력 토큰 수는 각 모델의 다음 표에 나와 있습니다.

모델 최소 토큰 한도
Gemini 3 Flash 프리뷰 1024
Gemini 3 Pro 프리뷰 4096
Gemini 2.5 Flash 1024
Gemini 2.5 Pro 4096

암시적 캐시 적중 가능성을 높이려면 다음 안내를 따르세요.

  • 프롬프트 시작 부분에 크고 공통적인 콘텐츠를 배치해 보세요.
  • 짧은 시간 내에 유사한 프리픽스를 가진 요청을 전송해 보세요.

응답 객체의 usage_metadata (Python) 또는 usageMetadata (JavaScript) 필드에서 캐시 적중된 토큰 수를 확인할 수 있습니다.