이제 Interactions API가 정식 버전으로 출시되었습니다. 이 API를 사용하여 모든 최신 기능과 모델에 액세스하는 것이 좋습니다.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemini 2.5 Flash Text-to-Speech

고품질 음성 합성을 위한 가장 빠른 엔진으로, 짧은 지연 시간과 비용 효율적인 오디오 생성을 제공합니다. Gemini 2.5 Flash TTS는 음성 스타일과 속도를 세부적으로 제어해야 하는 실시간 어시스턴트, 대량의 내레이션, 대화형 사용 사례에 가장 적합합니다.

문서

기능 및 기능의 전체 내용은 Text-to-Speech 가이드를 참고하세요.

속성	설명
모델 코드	`gemini-2.5-flash-preview-tts`
지원되는 데이터 유형	입력 텍스트 출력 오디오
토큰 한도^[*]	입력 토큰 한도 8,192 출력 토큰 한도 16,384
기능	오디오 생성 지원됨 캐싱 지원되지 않음 코드 실행 지원되지 않음 파일 검색 지원되지 않음 함수 호출 지원되지 않음 Google 지도 기반 그라운딩 지원되지 않음 이미지 생성 지원되지 않음 Live API 지원되지 않음 검색 그라운딩 지원되지 않음 구조화된 출력 지원되지 않음 사고 지원되지 않음 URL 컨텍스트 지원되지 않음
소비 옵션	Batch API 지원됨 유연한 추론 지원되지 않음 우선순위 추론 지원되지 않음
버전	자세한 내용은 모델 버전 패턴을 참고하세요. `gemini-2.5-flash-preview-tts`
최신 업데이트	2025년 12월