미디어 파일로 메시지 표시


ai.google.dev에서 보기 Google Colab에서 실행 GitHub에서 소스 보기

Gemini API는 텍스트, 이미지, 오디오, 동영상 데이터(멀티모달 프롬프팅이라고도 함)를 사용한 프롬프팅을 지원합니다. 즉, 이러한 유형의 미디어 파일을 프롬프트에 포함할 수 있습니다. 작은 파일의 경우 프롬프트를 제공할 때 Gemini 모델을 로컬 파일로 직접 가리킬 수 있습니다. 더 큰 파일은 프롬프트에 포함하기 전에 File API를 사용하여 업로드하세요.

File API를 사용하면 프로젝트당 최대 20GB의 파일을 저장할 수 있으며 각 파일의 크기는 2GB를 넘지 않습니다. 파일은 48시간 동안 저장되며 이 기간 내에 생성을 위해 API 키를 사용하여 액세스할 수 있으며 API에서 다운로드할 수 없습니다. Files API는 Gemini API가 제공되는 모든 리전에서 무료로 사용할 수 있습니다.

File API는 model.generateContent 또는 model.streamGenerateContent로 콘텐츠를 생성하는 데 사용할 수 있는 입력을 처리합니다. 유효한 파일 형식 (MIME 유형)과 지원되는 모델에 대한 자세한 내용은 지원되는 파일 형식을 참조하세요.

이 가이드에서는 File API를 사용하여 미디어 파일을 업로드하고 Gemini API의 GenerateContent 호출에 포함하는 방법을 보여줍니다. 자세한 내용은 코드 샘플을 참고하세요.

지원되는 파일 형식

Gemini 모델은 여러 파일 형식으로 프롬프팅을 지원합니다. 이 섹션에서는 메시지 표시에 일반 미디어 형식(특히 이미지, 오디오, 동영상, 일반 텍스트 파일)을 사용할 때의 고려사항을 설명합니다. 다음 표와 같이 특정 모델 버전에서만 프롬프트를 표시하는 미디어 파일을 사용할 수 있습니다.

모델 이미지 오디오 동영상 일반 텍스트
Gemini 1.5 Pro (버전 008 이상) ✔ (최대 3,600개의 이미지 파일)
Gemini Pro Vision ✔ (최대 이미지 파일 16개)

이미지 형식

gemini-pro-visiongemini-1.5-pro 모델을 사용하여 프롬프트를 표시하는 데 이미지 데이터를 사용할 수 있습니다. 프롬프트를 위해 이미지를 사용할 때 다음과 같은 제한사항 및 요구사항이 적용됩니다.

  • 이미지는 다음 이미지 데이터 MIME 유형 중 하나여야 합니다.
    • PNG - image/png
    • JPEG - image/jpeg
    • WEBP - image/webp
    • HEIC - image/heic
    • HEIF - image/heif
  • gemini-pro-vision의 경우 개별 이미지 최대 16개, gemini-1.5-pro의 경우 3,600개의 개별 이미지
  • 이미지의 픽셀 수에는 특별한 제한이 없습니다. 그러나 더 큰 이미지는 원래 가로세로 비율을 유지하면서 최대 해상도 3072x3072에 맞게 축소됩니다.

오디오 형식

gemini-1.5-pro 모델로 메시지를 표시하는 데 오디오 데이터를 사용할 수 있습니다. 메시지 표시에 오디오를 사용할 경우 다음과 같은 제한사항 및 요구사항이 적용됩니다.

  • 오디오 데이터는 다음과 같은 일반적인 오디오 형식 MIME 유형에서 지원됩니다.
    • WAV - 오디오/wav
    • MP3 - 오디오/mp3
    • AIFF - 오디오/aiff
    • AAC - 오디오/aac
    • OGG Vorbis - 오디오/ogg
    • FLAC - 오디오/flac
  • 단일 프롬프트에서 지원되는 오디오 데이터의 최대 길이는 9.5시간입니다.
  • 오디오 파일은 16Kbps 데이터 해상도로 리샘플링되며 여러 오디오 채널이 단일 채널로 결합됩니다.
  • 단일 프롬프트의 오디오 파일 수에는 특별한 제한이 없습니다. 그러나 단일 프롬프트에서 모든 오디오 파일을 합한 총 길이는 9.5시간을 초과할 수 없습니다.

동영상 형식

gemini-1.5-pro 모델로 프롬프팅을 위해 동영상 데이터를 사용할 수 있습니다.

  • 동영상 데이터는 다음과 같은 일반적인 동영상 형식 MIME 유형에서 지원됩니다.

    • video/mp4
    • video/mpeg
    • 동영상/mov
    • 동영상/avi
    • video/x-flv
    • 동영상/mpg
    • 동영상/webm
    • 동영상/wmv
    • 동영상/3gpp
  • File API 서비스는 초당 1프레임 (FPS)으로 동영상을 이미지로 샘플링하며 최상의 추론 품질을 제공하기 위해 변경될 수 있습니다. 개별 이미지는 해상도 및 품질에 관계없이 최대 258개의 토큰을 사용합니다.

일반 텍스트 형식

File API는 다음 MIME 유형의 일반 텍스트 파일 업로드를 지원합니다.

  • text/plain
  • text/html
  • text/css
  • text/javascript
  • application/x-javascript
  • 텍스트/x-typescript
  • 애플리케이션/x-typescript
  • text/csv
  • 텍스트/마크다운
  • 텍스트/x-python
  • application/x-python-code
  • application/json
  • text/xml
  • 애플리케이션/rtf
  • 텍스트/rtf

MIME 유형이 목록에 없는 일반 텍스트 파일의 경우 위의 MIME 유형 중 하나를 수동으로 지정해 볼 수 있습니다.