ai.google.dev에서 보기 | Google Colab에서 실행 | GitHub에서 소스 보기 |
Gemini API는 텍스트, 이미지, 오디오, 동영상 데이터(멀티모달 프롬프팅이라고도 함)를 사용한 프롬프팅을 지원합니다. 즉, 이러한 유형의 미디어 파일을 프롬프트에 포함할 수 있습니다. 작은 파일의 경우 프롬프트를 제공할 때 Gemini 모델을 로컬 파일로 직접 가리킬 수 있습니다. 더 큰 파일은 프롬프트에 포함하기 전에 File API를 사용하여 업로드하세요.
File API를 사용하면 프로젝트당 최대 20GB의 파일을 저장할 수 있으며 각 파일의 크기는 2GB를 넘지 않습니다. 파일은 48시간 동안 저장되며 이 기간 내에 생성을 위해 API 키를 사용하여 액세스할 수 있으며 API에서 다운로드할 수 없습니다. Files API는 Gemini API가 제공되는 모든 리전에서 무료로 사용할 수 있습니다.
File API는 model.generateContent
또는 model.streamGenerateContent
로 콘텐츠를 생성하는 데 사용할 수 있는 입력을 처리합니다. 유효한 파일 형식 (MIME 유형)과 지원되는 모델에 대한 자세한 내용은 지원되는 파일 형식을 참조하세요.
이 가이드에서는 File API를 사용하여 미디어 파일을 업로드하고 Gemini API의 GenerateContent
호출에 포함하는 방법을 보여줍니다. 자세한 내용은 코드 샘플을 참고하세요.
지원되는 파일 형식
Gemini 모델은 여러 파일 형식으로 프롬프팅을 지원합니다. 이 섹션에서는 메시지 표시에 일반 미디어 형식(특히 이미지, 오디오, 동영상, 일반 텍스트 파일)을 사용할 때의 고려사항을 설명합니다. 다음 표와 같이 특정 모델 버전에서만 프롬프트를 표시하는 미디어 파일을 사용할 수 있습니다.
모델 | 이미지 | 오디오 | 동영상 | 일반 텍스트 |
---|---|---|---|---|
Gemini 1.5 Pro (버전 008 이상) | ✔ (최대 3,600개의 이미지 파일) | ✔ | ✔ | ✔ |
Gemini Pro Vision | ✔ (최대 이미지 파일 16개) | ✔ |
이미지 형식
gemini-pro-vision
및 gemini-1.5-pro
모델을 사용하여 프롬프트를 표시하는 데 이미지 데이터를 사용할 수 있습니다. 프롬프트를 위해 이미지를 사용할 때 다음과 같은 제한사항 및 요구사항이 적용됩니다.
- 이미지는 다음 이미지 데이터 MIME 유형 중 하나여야 합니다.
- PNG - image/png
- JPEG - image/jpeg
- WEBP - image/webp
- HEIC - image/heic
- HEIF - image/heif
gemini-pro-vision
의 경우 개별 이미지 최대 16개,gemini-1.5-pro
의 경우 3,600개의 개별 이미지- 이미지의 픽셀 수에는 특별한 제한이 없습니다. 그러나 더 큰 이미지는 원래 가로세로 비율을 유지하면서 최대 해상도 3072x3072에 맞게 축소됩니다.
오디오 형식
gemini-1.5-pro
모델로 메시지를 표시하는 데 오디오 데이터를 사용할 수 있습니다. 메시지 표시에 오디오를 사용할 경우 다음과 같은 제한사항 및 요구사항이 적용됩니다.
- 오디오 데이터는 다음과 같은 일반적인 오디오 형식 MIME 유형에서 지원됩니다.
- WAV - 오디오/wav
- MP3 - 오디오/mp3
- AIFF - 오디오/aiff
- AAC - 오디오/aac
- OGG Vorbis - 오디오/ogg
- FLAC - 오디오/flac
- 단일 프롬프트에서 지원되는 오디오 데이터의 최대 길이는 9.5시간입니다.
- 오디오 파일은 16Kbps 데이터 해상도로 리샘플링되며 여러 오디오 채널이 단일 채널로 결합됩니다.
- 단일 프롬프트의 오디오 파일 수에는 특별한 제한이 없습니다. 그러나 단일 프롬프트에서 모든 오디오 파일을 합한 총 길이는 9.5시간을 초과할 수 없습니다.
동영상 형식
gemini-1.5-pro
모델로 프롬프팅을 위해 동영상 데이터를 사용할 수 있습니다.
동영상 데이터는 다음과 같은 일반적인 동영상 형식 MIME 유형에서 지원됩니다.
- video/mp4
- video/mpeg
- 동영상/mov
- 동영상/avi
- video/x-flv
- 동영상/mpg
- 동영상/webm
- 동영상/wmv
- 동영상/3gpp
File API 서비스는 초당 1프레임 (FPS)으로 동영상을 이미지로 샘플링하며 최상의 추론 품질을 제공하기 위해 변경될 수 있습니다. 개별 이미지는 해상도 및 품질에 관계없이 최대 258개의 토큰을 사용합니다.
일반 텍스트 형식
File API는 다음 MIME 유형의 일반 텍스트 파일 업로드를 지원합니다.
- text/plain
- text/html
- text/css
- text/javascript
- application/x-javascript
- 텍스트/x-typescript
- 애플리케이션/x-typescript
- text/csv
- 텍스트/마크다운
- 텍스트/x-python
- application/x-python-code
- application/json
- text/xml
- 애플리케이션/rtf
- 텍스트/rtf
MIME 유형이 목록에 없는 일반 텍스트 파일의 경우 위의 MIME 유형 중 하나를 수동으로 지정해 볼 수 있습니다.