이제 Interactions API가 정식 버전으로 출시되었습니다. 이 API를 사용하여 모든 최신 기능과 모델에 액세스하는 것이 좋습니다.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

컨텍스트 캐싱

일반적인 AI 워크플로에서는 동일한 입력 토큰을 모델에 반복해서 전달할 수 있습니다. Gemini API는 성능과 비용을 최적화하기 위해 암시적 캐싱을 제공합니다.

암시적 캐싱

모든 Gemini 2.5 이상 모델의 경우 암시적 캐싱이 기본적으로 사용 설정됩니다. 스테이트풀(Stateful)(previous_interaction_id 사용) 및 스테이트리스(Stateless) 대화 모드 모두에서 지원됩니다. 요청이 캐시에 적중되면 비용 절감이 자동으로 적용됩니다. 이를 사용 설정하기 위해 별도로 조치를 취하실 필요는 없습니다. 컨텍스트 캐싱의 최소 입력 토큰 수는 모델별로 다음 표에 나와 있습니다.

모델	최소 토큰 한도
Gemini 3.5 Flash	4096
Gemini 3.1 Pro 프리뷰	4096
Gemini 2.5 Flash	2048
Gemini 2.5 Pro	2048

암시적 캐시 적중 가능성을 높이려면 다음 안내를 따르세요.

프롬프트 시작 부분에 크고 공통적인 콘텐츠를 배치해 보세요.
짧은 시간 내에 유사한 프리픽스를 가진 요청을 전송합니다.

응답 객체의 usage.total_cached_tokens (Python 및 JavaScript) 필드에서 캐시 적중된 토큰 수를 확인할 수 있습니다.