![]() |
![]() |
![]() |
Gemini API 支援透過文字、圖片、音訊和影片資料建立提示,這項功能也稱為「多模態」提示。也就是說,您可以在提示中加入這些類型的媒體檔案。若是小型檔案,可以在提供提示時 將 Gemini 模型直接指向本機檔案先使用 File API 上傳較大的檔案,再將檔案加入提示中。
File API 可讓您為每個專案儲存多達 20 GB 的檔案,且每個檔案的大小不超過 2GB。檔案會保留 48 小時,且可在這段時間內用 API 金鑰存取,但無法透過 API 下載。在可使用 Gemini API 的所有區域,皆可免費使用 Files API。
File API 會處理可用來產生 model.generateContent
或 model.streamGenerateContent
內容的輸入。如要瞭解有效的檔案格式 (MIME 類型) 和支援的模型,請參閱「支援的檔案格式」一節。
本指南將說明如何使用 File API 上傳媒體檔案,並在對 Gemini API 的 GenerateContent
呼叫中加入媒體檔案。詳情請參閱程式碼範例。
支援的檔案格式
Gemini 模型支援多種檔案格式的提示。本節說明在提示中使用一般媒體格式 (尤其是圖片、音訊、影片和純文字檔案) 時需考量的事項。您可以使用媒體檔案,只向特定模型版本提示,如下表所示。
型號 | 圖片 | 音訊 | 影片 | 純文字 |
---|---|---|---|---|
Gemini 1.5 Pro (008 以上版本) | ✔ (檔案大小上限為 3600) | ✔ | ✔ | ✔ |
圖片格式
Gemini 1.5 模型可以使用圖片資料來建立提示。使用圖片提示時,圖片會遵守下列限制和規定:
- 圖片必須是下列其中一種圖片資料 MIME 類型:
- PNG - 圖片/png
- JPEG - 圖片/jpeg
- WEBP - 圖片/Webp
- HEIC - 圖片/堆積
- HEIF - 圖片/heif
- Gemini 1.5 模型最多可以有 3600 張圖片。
- 圖片中的像素數量沒有特別限制,不過系統會將較大的圖片縮小,以符合 3072 x 3072 的最大解析度,同時保留圖片的原始長寬比。
音訊格式
您可以在 Gemini 1.5 模型下,使用音訊資料建立提示。您在提示中使用音訊時,必須遵守下列限制和規定:
- 下列常見的音訊格式 MIME 類型支援音訊資料:
- WAV - 音訊/WAV
- MP3 - 音訊/mp3
- AIFF - 音訊/AI
- AAC - 音訊/AAC
- OGG Vorbis - 音訊/ogg
- FLAC - 音訊/flac
- 單一提示支援的音訊資料長度上限為 9.5 小時。
- 音訊檔案會重新取樣為 16 Kbps 的資料解析度,並將多個音訊聲道合併為單一聲道。
- 單一提示中的音訊檔案數量並無特別限制;不過,單一提示中所有音訊檔案的總長度不能超過 9.5 小時。
影片格式
您可以使用影片資料,在 Gemini 1.5 模型生成提示。
下列常見的影片格式 MIME 類型支援影片資料:
- 影片/mp4
- 影片/mpeg
- 影片/移動
- 影片/avi
- video/x-flv
- 影片/mpg
- 影片/Webm
- 影片/每週
- 影片/3gpp
File API 服務是以每秒 1 個影格 (FPS) 的速度將影片取樣為圖片,為提供最佳推論品質,隨時可能變更。無論解析度和品質為何,個別映像檔都會包含 258 個符記。
純文字格式
File API 支援上傳下列 MIME 類型的純文字檔案:
- 文字/plain
- text/html
- text/css
- text/javascript
- application/x-javascript
- 文字/x-typescript
- 應用程式/x-typescript
- 文字/csv
- 文字/markdown
- 文字/x-python
- application/x-python-code
- application/json
- text/xml
- 應用程式/rtf
- 文字/rtf
針對清單未列出 MIME 類型的純文字檔案,您可以嘗試手動指定上述其中一種 MIME 類型。