Gemini API로 오디오 기능 살펴보기

Gemini는 오디오에 관한 프롬프트에 응답할 수 있습니다. 예를 들어 Gemini는 다음과 같은 작업을 할 수 있습니다.

  • 오디오 콘텐츠에 관해 설명하거나 요약하거나 질문에 답변합니다.
  • 오디오 스크립트를 제공합니다.
  • 오디오의 특정 부분에 관한 답변이나 스크립트를 제공합니다.

이 가이드에서는 Gemini API를 사용하여 오디오 파일 및 오디오 콘텐츠와 상호작용하는 다양한 방법을 보여줍니다.

지원되는 오디오 형식

Gemini는 다음과 같은 오디오 형식 MIME 유형을 지원합니다.

  • WAV - audio/wav
  • MP3 - audio/mp3
  • AIFF - audio/aiff
  • AAC - audio/aac
  • OGG Vorbis - audio/ogg
  • FLAC - audio/flac

오디오에 관한 기술 세부정보

Gemini는 오디오에 다음 규칙을 적용합니다.

  • Gemini는 오디오의 각 초를 25개의 토큰으로 나타냅니다. 예를 들어 오디오 1분은 1,500개의 토큰으로 나타납니다.
  • Gemini는 영어로 된 음성에 대한 대답만 추론할 수 있습니다.
  • Gemini는 새의 지저귐이나 사이렌과 같은 비음성 구성요소를 '이해'할 수 있습니다.
  • 단일 프롬프트에서 지원되는 최대 오디오 데이터 길이는 9.5시간입니다. Gemini는 단일 프롬프트의 오디오 파일 를 제한하지 않습니다. 단, 단일 프롬프트의 모든 오디오 파일의 총 길이는 9.5시간을 초과할 수 없습니다.
  • Gemini는 오디오 파일을 16Kbps 데이터 해상도로 다운샘플링합니다.
  • 오디오 소스에 여러 채널이 포함된 경우 Gemini는 이러한 채널을 단일 채널로 결합합니다.

다음 단계

이 가이드에서는 File API를 사용하여 오디오 파일을 업로드한 후 오디오 입력에서 텍스트 출력을 생성하는 방법을 보여줍니다. 자세한 내용은 다음 리소스를 참고하세요.

  • 파일 프롬프트 전략: Gemini API는 텍스트, 이미지, 오디오, 동영상 데이터를 사용한 프롬프트를 지원합니다. 이를 멀티모달 프롬프트라고도 합니다.
  • 시스템 안내: 시스템 안내를 사용하면 특정 요구사항 및 사용 사례에 따라 모델의 동작을 조정할 수 있습니다.
  • 안전 가이드: 생성형 AI 모델이 부정확하거나 편향적이거나 불쾌감을 주는 출력과 같은 예상치 못한 출력을 생성하는 경우가 있습니다. 이러한 출력으로 인한 피해 위험을 제한하려면 후처리 및 사람의 평가가 필수적입니다.