미디어 파일로 메시지 표시


ai.google.dev에서 보기 Google Colab에서 실행 GitHub에서 소스 보기

Gemini API는 텍스트, 이미지, 오디오, 동영상 데이터의 프롬프팅(멀티모달 프롬프팅이라고도 함)을 지원합니다. 즉, 이러한 유형의 미디어 파일을 프롬프트에 포함할 수 있습니다. 작은 파일의 경우 프롬프트를 제공할 때 Gemini 모델이 로컬 파일을 직접 가리킬 수 있습니다 대용량 파일을 프롬프트에 포함하기 전에 File API를 사용하여 업로드하세요.

File API를 사용하면 프로젝트당 파일을 20GB까지 저장할 수 있으며 각 파일의 크기는 2GB를 넘지 않아야 합니다. 파일은 48시간 동안 저장되며 이 기간 내에 생성을 위해 API 키를 사용하여 액세스할 수 있으며 API에서 다운로드할 수 없습니다. Files API는 Gemini API가 제공되는 모든 리전에서 무료로 사용할 수 있습니다.

File API는 model.generateContent 또는 model.streamGenerateContent로 콘텐츠를 생성하는 데 사용할 수 있는 입력을 처리합니다. 유효한 파일 형식 (MIME 유형)과 지원되는 모델에 관한 자세한 내용은 지원되는 파일 형식을 참조하세요.

이 가이드에서는 File API를 사용하여 미디어 파일을 업로드하고 Gemini API에 대한 GenerateContent 호출에 포함하는 방법을 보여줍니다. 자세한 내용은 코드 샘플을 참고하세요.

지원되는 파일 형식

Gemini 모델은 다양한 파일 형식을 이용한 프롬프팅을 지원합니다. 이 섹션에서는 특히 이미지, 오디오, 동영상, 일반 텍스트 파일을 프롬프트에 사용하기 위해 일반 미디어 형식을 사용할 때 고려해야 할 사항을 설명합니다. 다음 표와 같이 특정 모델 버전에서만 메시지를 표시하는 데 미디어 파일을 사용할 수 있습니다.

모델 이미지 오디오 동영상 일반 텍스트
Gemini 1.5 Pro (버전 008 이상) ✔ (최대 3,600개의 이미지 파일)

이미지 형식

Gemini 1.5 모델의 프롬프트에 이미지 데이터를 사용할 수 있습니다. 프롬프트에 이미지를 사용하는 경우 다음과 같은 제한사항 및 요구사항이 적용됩니다.

  • 이미지는 다음 이미지 데이터 MIME 유형 중 하나여야 합니다.
    • PNG - image/png
    • JPEG - image/jpeg
    • WEBP - image/webp
    • HEIC - image/heic
    • HEIF - image/heif
  • Gemini 1.5 모델의 경우 최대 3,600개의 이미지
  • 이미지의 픽셀 수에는 특별한 제한이 없습니다. 그러나 더 큰 이미지는 원래 가로세로 비율을 유지하면서 최대 해상도 3072 x 3072에 맞게 축소됩니다.

오디오 형식

Gemini 1.5 모델의 프롬프트에 오디오 데이터를 사용할 수 있습니다. 프롬프트에 오디오를 사용하는 경우 다음과 같은 제한사항 및 요구사항이 적용됩니다.

  • 오디오 데이터는 다음과 같은 일반적인 오디오 형식 MIME 유형으로 지원됩니다.
    • WAV - 오디오/wav
    • MP3 - 오디오/mp3
    • AIFF - 오디오/AIFF
    • AAC - 오디오/aac
    • OGG Vorbis - 오디오/ogg
    • FLAC - 오디오/flac
  • 단일 프롬프트에서 지원되는 최대 오디오 데이터 길이는 9.5시간입니다.
  • 오디오 파일은 데이터 해상도 16Kbps까지 리샘플링되며 여러 오디오 채널이 단일 채널로 결합됩니다.
  • 단일 프롬프트의 오디오 파일 수에는 특별한 제한이 없습니다. 하지만 단일 프롬프트에 포함된 모든 오디오 파일의 총 길이는 9.5시간을 초과할 수 없습니다.

동영상 형식

Gemini 1.5 모델의 프롬프트에 동영상 데이터를 사용할 수 있습니다.

  • 동영상 데이터는 다음과 같은 일반적인 동영상 형식 MIME 유형으로 지원됩니다.

    • video/mp4
    • video/mpeg
    • 동영상/mov
    • 동영상/avi
    • video/x-flv
    • 동영상/mpg
    • 동영상/webm
    • 동영상/wmv
    • 동영상/3gpp
  • File API 서비스는 초당 1프레임 (FPS) 속도로 동영상을 이미지로 샘플링하며 최상의 추론 품질을 제공하기 위해 변경될 수 있습니다. 개별 이미지는 해상도와 품질에 관계없이 최대 258개의 토큰을 사용합니다.

일반 텍스트 형식

File API는 다음 MIME 유형의 일반 텍스트 파일 업로드를 지원합니다.

  • text/plain
  • text/html
  • text/css
  • text/javascript
  • application/x-javascript
  • 텍스트/x-typescript
  • 애플리케이션/x-typescript
  • text/csv
  • 텍스트/마크다운
  • 텍스트/x-python
  • application/x-python-code
  • application/json
  • text/xml
  • 애플리케이션/rtf
  • 텍스트/rtf

MIME 유형이 목록에 없는 일반 텍스트 파일의 경우 위의 MIME 유형 중 하나를 직접 지정해 볼 수 있습니다.