Gemini API로 오디오 기능 살펴보기

Gemini는 오디오에 관한 프롬프트에 대답할 수 있습니다. 예를 들어 Gemini는 다음과 같은 작업을 할 수 있습니다.

  • 오디오 콘텐츠를 설명하거나 요약하거나 질문에 답합니다.
  • 오디오의 스크립트를 제공합니다.
  • 특정 오디오 세그먼트에 대한 답변이나 스크립트를 제공합니다.

이 가이드에서는 다음 작업을 수행하는 다양한 방법을 보여줍니다.

  • 오디오를 Gemini 모델로 전달합니다.
  • Gemini 모델에 오디오에 관한 메시지를 표시합니다.

지원되는 오디오 형식

Gemini는 다음 오디오 형식 MIME 유형을 지원합니다.

  • WAV - 오디오/wav
  • MP3 - 오디오/mp3
  • AIFF - 오디오/AIFF
  • AAC - 오디오/aac
  • OGG Vorbis - 오디오/ogg
  • FLAC - 오디오/flac

오디오에 관한 기술 세부정보

Gemini는 오디오에 다음 규칙을 적용합니다.

  • Gemini는 1초의 오디오를 25개의 토큰으로 나타냅니다. 예를 들어 1분 오디오는 1,500개의 토큰으로 표시됩니다.
  • Gemini는 영어로 된 음성에 대한 대답만 추론할 수 있습니다.
  • Gemini는 새의 소리나 사이렌과 같은 비언어적 구성요소를 '이해'할 수 있습니다.
  • 단일 프롬프트에서 지원되는 최대 오디오 데이터 길이는 9.5시간입니다. Gemini는 단일 프롬프트에 포함된 오디오 파일의 를 제한하지 않습니다. 하지만 단일 프롬프트에 포함된 모든 오디오 파일의 총 길이는 9.5시간을 초과할 수 없습니다.
  • Gemini는 오디오 파일을 16Kbps 데이터 해상도로 다운샘플링합니다.
  • 오디오 소스에 여러 채널이 포함된 경우 Gemini는 이러한 채널을 단일 채널로 결합합니다.