<ph type="x-smartling-placeholder">
Gemini는 오디오에 관한 프롬프트에 대답할 수 있습니다. 예를 들어 Gemini는 다음과 같은 작업을 할 수 있습니다.
- 오디오 콘텐츠를 설명하거나 요약하거나 질문에 답합니다.
- 오디오의 스크립트를 제공합니다.
- 특정 오디오 세그먼트에 대한 답변이나 스크립트를 제공합니다.
이 가이드에서는 다음 작업을 수행하는 다양한 방법을 보여줍니다.
- 오디오를 Gemini 모델로 전달합니다.
- Gemini 모델에 오디오에 관한 메시지를 표시합니다.
지원되는 오디오 형식
Gemini는 다음 오디오 형식 MIME 유형을 지원합니다.
- WAV - 오디오/wav
- MP3 - 오디오/mp3
- AIFF - 오디오/AIFF
- AAC - 오디오/aac
- OGG Vorbis - 오디오/ogg
- FLAC - 오디오/flac
오디오에 관한 기술 세부정보
Gemini는 오디오에 다음 규칙을 적용합니다.
- Gemini는 오디오의 매초를 25개의 토큰으로 표현합니다. 예를 들어 1분의 오디오는 1,500개의 토큰으로 표현됩니다.
- Gemini는 영어로 된 음성에 대한 대답만 추론할 수 있습니다.
- Gemini는 '이해'할 수 있습니다 비 음성 구성요소(예: 새의 소리 또는 사이렌)
- 단일 프롬프트에서 지원되는 최대 오디오 데이터 길이는 9.5시간입니다. Gemini는 단일 프롬프트에 포함되는 오디오 파일의 수를 제한하지 않습니다. 하지만 단일 프롬프트에 있는 모든 오디오 파일을 합친 총 길이는 다음을 초과할 수 없습니다. 9.5시간.
- Gemini는 오디오 파일을 16Kbps 데이터 해상도로 다운샘플링합니다.
- 오디오 소스에 여러 채널이 포함된 경우 Gemini는 해당 채널을 결합합니다. 단일 채널로 만들 수 있습니다.