Gemini API는 특정 워크로드 요구사항에 따라 속도, 비용, 안정성의 균형을 맞출 수 있도록 다양한 최적화 메커니즘을 제공합니다. 실시간 대화형 봇을 빌드하든 오프라인에서 대량의 데이터 처리 파이프라인을 실행하든 적절한 패러다임을 선택하면 비용을 크게 절감하거나 성능을 향상할 수 있습니다.
| 기능 | 표준 | Flex | 우선순위 | 일괄 | 캐싱 |
|---|---|---|---|---|---|
| 가격 책정 | 정상가 | 50% 할인 | 표준보다 75~100% 더 많음 | 50% 할인 | 일할 계산된 토큰 스토리지 |
| 지연 시간 | 수 초에서 수 분 | 분 (목표 1~15분) | 낮음 (초) | 최대 24시간 | 첫 번째 토큰까지의 시간 단축 |
| 안정성 | 높음 / 중간~높음 | 최선의 노력 (삭제 가능) | 높음 (삭제 불가) | 높음 (처리량) | 해당 사항 없음 |
| 인터페이스 | 동기식 | 동기식 | 동기식 | 비동기식 | 저장된 상태 |
| 최적의 사용 사례 | 일반적인 애플리케이션 워크플로 | 비긴급 순차적 체인 | 프로덕션, 사용자 대상 앱 | 대규모 데이터 세트, 오프라인 평가 | 동일한 파일에 대한 반복 쿼리 |
추론 서비스 등급 (동기)
표준 생성 호출에서 service_tier 매개변수를 전달하여 지연 시간 최적화 동기 트래픽과 비용 최적화 동기 트래픽 간에 전환할 수 있습니다.
표준 추론 (기본값)
표준 등급은 순차적 콘텐츠 생성의 기본 옵션입니다. 추가 요금이나 대기열 없이 정상적인 응답 시간을 제공합니다.
- 지연 시간: 초에서 분 사이입니다.
- 가격: 표준 가격 책정
- 권장 용도: 가장 상호작용이 많은 일상적인 애플리케이션
우선순위 추론 (지연 시간 최적화)
우선순위 처리는 요청을 심각도가 높은 컴퓨팅 대기열로 라우팅합니다. 이 트래픽은 엄격하게 삭제할 수 없으며 (다른 계층에 의해 선점되지 않음) 가장 높은 안정성을 제공합니다. 동적 우선순위 한도를 초과하면 시스템에서 오류와 함께 실패하는 대신 요청을 표준 처리로 정상적으로 다운그레이드합니다.
- 지연 시간: 매우 짧음 (밀리초~초)
- 가격: 표준 요금보다 75~100% 높음
- 권장사항: 실시간 고객 챗봇, 실시간 사기 감지, 비즈니스에 중요한 코파일럿
유연한 추론 (비용 최적화)
유연한 추론은 기회주의적이고 사용량이 적은 시간대의 컴퓨팅 용량을 활용하여 표준 요금에 비해 50% 할인을 제공합니다. 요청은 동기식으로 처리되므로 일괄 객체를 관리하기 위해 코드를 다시 작성할 필요가 없습니다. '삭제 가능한' 트래픽이므로 시스템에 표준 트래픽 급증이 발생하면 요청이 선점될 수 있습니다.
- 지연 시간: 보장되지 않으며 목표는 1~15분입니다.
- 가격: 표준 가격의 50%(토큰당 청구)
- 적합한 경우: N+1 호출이 N 호출의 출력, 백그라운드 CRM 업데이트, 오프라인 평가에 따라 달라지는 다단계 에이전트 워크플로
Batch API (대량, 비동기)
Batch API는 표준 비용의 50% 로 대량의 요청을 비동기식으로 처리하도록 설계되었습니다. 인라인 사전으로 요청을 제출하거나 JSONL 입력 파일 (최대 2GB)을 사용하여 요청을 제출할 수 있습니다. 목표 처리 시간이 24시간인 백그라운드 처리량 대기열을 사용하여 요청을 처리합니다.
- 지연 시간: 높음 (최대 24시간)
- 가격: Standard 가격의 50%
- 최적의 사용 사례: 대규모 데이터 세트 전처리, 주기적인 회귀 테스트 스위트 실행, 대량 이미지 또는 삽입 생성
컨텍스트 캐싱 (입력 절약)
컨텍스트 캐싱은 짧은 요청에서 상당한 양의 초기 컨텍스트를 반복적으로 참조하는 경우에 사용됩니다.
- 암시적 캐싱: Gemini 2.5 이상 모델에서 자동으로 사용 설정됩니다. 요청이 일반적인 프롬프트 접두사를 기반으로 기존 캐시에 도달하면 시스템에서 비용 절감을 전달합니다.
- 명시적 캐싱: 특정 TTL (수명)을 사용하여 캐시 객체를 수동으로 만들 수 있습니다. 생성된 후에는 동일한 말뭉치 페이로드를 반복적으로 전달하지 않도록 후속 요청에서 캐시된 토큰을 참조합니다.
- 가격: 캐시 토큰 수와 스토리지 기간 (TTL)에 따라 청구됩니다.
- 용도: 다양한 시스템 안내를 제공하는 챗봇, 긴 동영상 파일의 반복적인 분석 또는 대규모 문서 세트에 대한 쿼리