Gemini API로 오디오 기능 살펴보기

Gemini는 오디오에 관한 프롬프트에 대답할 수 있습니다. 예를 들어 Gemini는 다음과 같은 작업을 할 수 있습니다.

  • 오디오 콘텐츠를 설명하거나 요약하거나 질문에 답합니다.
  • 오디오의 스크립트를 제공합니다.
  • 특정 오디오 세그먼트에 대한 답변이나 스크립트를 제공합니다.

이 가이드에서는 다음 작업을 수행하는 다양한 방법을 보여줍니다.

  • 오디오를 Gemini 모델로 전달합니다.
  • Gemini 모델에 오디오에 관한 메시지를 표시합니다.

지원되는 오디오 형식

Gemini는 다음 오디오 형식 MIME 유형을 지원합니다.

  • WAV - 오디오/wav
  • MP3 - 오디오/mp3
  • AIFF - 오디오/AIFF
  • AAC - 오디오/aac
  • OGG Vorbis - 오디오/ogg
  • FLAC - 오디오/flac

오디오에 관한 기술 세부정보

Gemini는 오디오에 다음 규칙을 적용합니다.

  • Gemini는 오디오의 매초를 25개의 토큰으로 표현합니다. 예를 들어 1분의 오디오는 1,500개의 토큰으로 표현됩니다.
  • Gemini는 영어로 된 음성에 대한 대답만 추론할 수 있습니다.
  • Gemini는 '이해'할 수 있습니다 비 음성 구성요소(예: 새의 소리 또는 사이렌)
  • 단일 프롬프트에서 지원되는 최대 오디오 데이터 길이는 9.5시간입니다. Gemini는 단일 프롬프트에 포함되는 오디오 파일 를 제한하지 않습니다. 하지만 프롬프트 하나에 모든 오디오 파일을 합친 총 길이는 다음을 초과할 수 없습니다. 9.5시간.
  • Gemini는 오디오 파일을 16Kbps 데이터 해상도로 다운샘플링합니다.
  • 오디오 소스에 여러 채널이 포함된 경우 Gemini는 해당 채널을 결합합니다. 단일 채널로 만들 수 있습니다.