Gemini API로 오디오 기능 살펴보기

Gemini는 오디오에 관한 프롬프트에 응답할 수 있습니다. 예를 들어 Gemini는 다음과 같은 작업을 할 수 있습니다.

  • 오디오 콘텐츠에 관해 설명하거나 요약하거나 질문에 답변합니다.
  • 오디오 스크립트를 제공합니다.
  • 오디오의 특정 부분에 관한 답변이나 스크립트를 제공합니다.

이 가이드에서는 Gemini API를 사용하여 오디오 파일 및 오디오 콘텐츠와 상호작용하는 다양한 방법을 보여줍니다.

시작하기 전에

Gemini API를 호출하기 전에 선택한 SDK가 설치되어 있고 Gemini API 키가 구성되어 있고 사용할 준비가 되었는지 확인합니다.

지원되는 오디오 형식

Gemini는 다음과 같은 오디오 형식 MIME 유형을 지원합니다.

  • WAV - audio/wav
  • MP3 - audio/mp3
  • AIFF - audio/aiff
  • AAC - audio/aac
  • OGG Vorbis - audio/ogg
  • FLAC - audio/flac

오디오에 관한 기술 세부정보

Gemini는 오디오에 다음 규칙을 적용합니다.

  • Gemini는 오디오의 각 초를 32개의 토큰으로 나타냅니다. 예를 들어 오디오 1분은 1,920개의 토큰으로 나타납니다.
  • Gemini는 영어로 된 음성에 대한 대답만 추론할 수 있습니다.
  • Gemini는 새의 지저귐이나 사이렌과 같은 비음성 구성요소를 '이해'할 수 있습니다.
  • 단일 프롬프트에서 지원되는 최대 오디오 데이터 길이는 9.5시간입니다. Gemini는 단일 프롬프트의 오디오 파일 를 제한하지 않습니다. 단, 단일 프롬프트의 모든 오디오 파일의 총 길이는 9.5시간을 초과할 수 없습니다.
  • Gemini는 오디오 파일을 16Kbps 데이터 해상도로 다운샘플링합니다.
  • 오디오 소스에 여러 채널이 포함된 경우 Gemini는 이러한 채널을 단일 채널로 결합합니다.

다음 단계

이 가이드에서는 File API를 사용하여 오디오 파일을 업로드한 후 오디오 입력에서 텍스트 출력을 생성하는 방법을 보여줍니다. 자세한 내용은 다음 리소스를 참고하세요.

  • 파일 프롬프트 전략: Gemini API는 텍스트, 이미지, 오디오, 동영상 데이터를 사용한 프롬프트(다중 모달 프롬프트라고도 함)를 지원합니다.
  • 시스템 안내: 시스템 안내를 사용하면 특정 요구사항 및 사용 사례에 따라 모델의 동작을 조정할 수 있습니다.
  • 안전 가이드: 생성형 AI 모델이 부정확하거나 편향되거나 불쾌감을 주는 출력과 같은 예상치 못한 출력을 생성하는 경우가 있습니다. 이러한 출력으로 인한 피해 위험을 제한하려면 후처리 및 인간 평가가 필수적입니다.