Gemini API 최적화 및 추론

Gemini API는 특정 워크로드 요구사항에 따라 속도, 비용, 안정성의 균형을 맞출 수 있도록 다양한 최적화 메커니즘을 제공합니다. 실시간 대화형 봇을 빌드하든 오프라인에서 대량의 데이터 처리 파이프라인을 실행하든 적절한 패러다임을 선택하면 비용을 크게 절감하거나 성능을 향상할 수 있습니다.

기능 표준 Flex 우선순위 일괄 캐싱
가격 책정 정상가 50% 할인 표준보다 75~100% 더 많음 50% 할인 일할 계산된 토큰 스토리지
지연 시간 수 초에서 수 분 분 (목표 1~15분) 낮음 (초) 최대 24시간 첫 번째 토큰까지의 시간 단축
안정성 높음 / 중간~높음 최선의 노력 (삭제 가능) 높음 (삭제 불가) 높음 (처리량) 해당 사항 없음
인터페이스 동기식 동기식 동기식 비동기식 저장된 상태
최적의 사용 사례 일반적인 애플리케이션 워크플로 비긴급 순차적 체인 프로덕션, 사용자 대상 앱 대규모 데이터 세트, 오프라인 평가 동일한 파일에 대한 반복 쿼리

추론 서비스 등급 (동기)

표준 생성 호출에서 service_tier 매개변수를 전달하여 지연 시간 최적화 동기 트래픽과 비용 최적화 동기 트래픽 간에 전환할 수 있습니다.

표준 추론 (기본값)

표준 등급은 순차적 콘텐츠 생성의 기본 옵션입니다. 추가 요금이나 대기열 없이 정상적인 응답 시간을 제공합니다.

  • 지연 시간: 초에서 분 사이입니다.
  • 가격: 표준 가격 책정
  • 권장 용도: 가장 상호작용이 많은 일상적인 애플리케이션

우선순위 추론 (지연 시간 최적화)

우선순위 처리는 요청을 심각도가 높은 컴퓨팅 대기열로 라우팅합니다. 이 트래픽은 엄격하게 삭제할 수 없으며 (다른 계층에 의해 선점되지 않음) 가장 높은 안정성을 제공합니다. 동적 우선순위 한도를 초과하면 시스템에서 오류와 함께 실패하는 대신 요청을 표준 처리로 정상적으로 다운그레이드합니다.

  • 지연 시간: 매우 짧음 (밀리초~초)
  • 가격: 표준 요금보다 75~100% 높음
  • 권장사항: 실시간 고객 챗봇, 실시간 사기 감지, 비즈니스에 중요한 코파일럿

유연한 추론 (비용 최적화)

유연한 추론은 기회주의적이고 사용량이 적은 시간대의 컴퓨팅 용량을 활용하여 표준 요금에 비해 50% 할인을 제공합니다. 요청은 동기식으로 처리되므로 일괄 객체를 관리하기 위해 코드를 다시 작성할 필요가 없습니다. '삭제 가능한' 트래픽이므로 시스템에 표준 트래픽 급증이 발생하면 요청이 선점될 수 있습니다.

  • 지연 시간: 보장되지 않으며 목표는 1~15분입니다.
  • 가격: 표준 가격의 50%(토큰당 청구)
  • 적합한 경우: N+1 호출이 N 호출의 출력, 백그라운드 CRM 업데이트, 오프라인 평가에 따라 달라지는 다단계 에이전트 워크플로

Batch API (대량, 비동기)

Batch API는 표준 비용의 50% 로 대량의 요청을 비동기식으로 처리하도록 설계되었습니다. 인라인 사전으로 요청을 제출하거나 JSONL 입력 파일 (최대 2GB)을 사용하여 요청을 제출할 수 있습니다. 목표 처리 시간이 24시간인 백그라운드 처리량 대기열을 사용하여 요청을 처리합니다.

  • 지연 시간: 높음 (최대 24시간)
  • 가격: Standard 가격의 50%
  • 최적의 사용 사례: 대규모 데이터 세트 전처리, 주기적인 회귀 테스트 스위트 실행, 대량 이미지 또는 삽입 생성

컨텍스트 캐싱 (입력 절약)

컨텍스트 캐싱은 짧은 요청에서 상당한 양의 초기 컨텍스트를 반복적으로 참조하는 경우에 사용됩니다.

  • 암시적 캐싱: Gemini 2.5 이상 모델에서 자동으로 사용 설정됩니다. 요청이 일반적인 프롬프트 접두사를 기반으로 기존 캐시에 도달하면 시스템에서 비용 절감을 전달합니다.
  • 명시적 캐싱: 특정 TTL (수명)을 사용하여 캐시 객체를 수동으로 만들 수 있습니다. 생성된 후에는 동일한 말뭉치 페이로드를 반복적으로 전달하지 않도록 후속 요청에서 캐시된 토큰을 참조합니다.
  • 가격: 캐시 토큰 수와 스토리지 기간 (TTL)에 따라 청구됩니다.
  • 용도: 다양한 시스템 안내를 제공하는 챗봇, 긴 동영상 파일의 반복적인 분석 또는 대규모 문서 세트에 대한 쿼리