Gemini Deep Research를 이제 공동 계획, 시각화, MCP 지원 등과 함께 미리보기로 이용할 수 있습니다.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

컨텍스트 캐싱이

참고: 이 페이지 버전에서는 현재 베타 버전인 새로운 Interactions API를 다룹니다.
안정적인 프로덕션 배포의 경우 generateContent API를 계속 사용하는 것이 좋습니다. 이 페이지의 전환 버튼을 사용하여 버전 간에 전환할 수 있습니다.

일반적인 AI 워크플로에서는 동일한 입력 토큰을 모델에 반복해서 전달할 수 있습니다. Gemini API는 성능과 비용을 최적화하기 위해 암시적 캐싱을 제공합니다.

암시적 캐싱

모든 Gemini 2.5 이상 모델의 경우 암시적 캐싱이 기본적으로 사용 설정됩니다. 요청이 캐시에 적중되면 비용 절감이 자동으로 적용됩니다. 이를 사용 설정하기 위해 별도로 조치를 취하실 필요는 없습니다. 컨텍스트 캐싱의 최소 입력 토큰 수는 각 모델에 대해 다음 표에 나와 있습니다.

모델	최소 토큰 한도
Gemini 3.5 Flash	1024
Gemini 3 Pro 프리뷰	4096
Gemini 2.5 Flash	1024
Gemini 2.5 Pro	4096

암시적 캐시 적중 가능성을 높이려면 다음 안내를 따르세요.

프롬프트 시작 부분에 크고 공통적인 콘텐츠를 배치해 보세요.
짧은 시간 내에 유사한 프리픽스를 가진 요청을 전송합니다.

응답 객체의 usage_metadata (Python) 또는 usageMetadata (JavaScript) 필드에서 캐시 적중된 토큰 수를 확인할 수 있습니다.