前往 ai.google.dev 查看 | 在 Google Colab 中執行 | 在 GitHub 上查看原始碼 |
Gemini API 支援以文字、圖片、音訊和影片資料建立提示,又稱為「多模態」提示,也就是說,您可以在提示中加入這些類型的媒體檔案。針對小型檔案,您可以在提供提示時,將 Gemini 模型直接指向本機檔案。先使用 File API 上傳大型檔案,再納入提示中。
File API 可讓您為每個專案儲存最多 20 GB 的檔案,每個檔案的大小不得超過 2 GB。檔案會儲存 48 小時,並可在該時間範圍內使用 API 金鑰產生,而無法透過 API 下載。在所有提供 Genmini API 的地區,可免費使用 Files API。
File API 會處理可用來透過 model.generateContent
或 model.streamGenerateContent
產生內容的輸入。如要瞭解有效的檔案格式 (MIME 類型) 和支援的模型,請參閱支援的檔案格式。
本指南將說明如何使用 File API 上傳媒體檔案,並將這些檔案納入對 Gemini API 的 GenerateContent
呼叫。詳情請參閱程式碼範例。
支援的檔案格式
Gemini 模型支援提示功能,且支援多種檔案格式。本節說明使用一般媒體格式提示時 (特別是圖片、音訊、影片和純文字檔案) 需要注意的事項。您可以使用媒體檔案,僅針對特定模型版本發出提示,如下表所示。
型號 | 圖片 | 音訊 | 影片 | 純文字 |
---|---|---|---|---|
Gemini 1.5 Pro (008 以上版本) | ✔ (檔案大小上限為 3600) | ✔ | ✔ | ✔ |
Gemini Pro Vision | ✔ (最多 16 個圖片檔) | ✔ |
圖片格式
您可以使用圖片資料,透過 gemini-pro-vision
和 gemini-1.5-pro
模型發出提示。使用圖片發出提示時,必須遵循下列限制和規定:
- 圖片必須是下列其中一種圖片資料 MIME 類型:
- PNG - 圖片/png
- JPEG - 圖片/jpeg
- WebP - 圖片/Webp
- HEIC - 圖片/圖片
- HEIF - 圖片/heif
gemini-pro-vision
和gemini-1.5-pro
的個別圖片上限為 16 張- 圖片中的像素數量沒有具體限制。不過,系統會縮小圖片,以符合 3072 x 3072 的最大解析度,同時保留原始長寬比。
音訊格式
您可以使用音訊資料,透過 gemini-1.5-pro
模型提示。使用音訊進行提示時,必須遵守下列限制和規定:
- 下列常見的音訊格式 MIME 類型支援音訊資料:
- WAV - 音訊/WAV
- MP3 - 音訊/mp3
- AIFF - 音訊/aiff
- AAC - 音訊/aac
- OGG Vorbis - 音訊/Ogg
- FLAC - 音訊/flac
- 單一提示中的音訊資料長度上限為 9.5 小時,
- 音訊檔案會重新取樣為 16 Kbps 的資料解析度,並將多個音訊頻道合併為單一聲道。
- 單一提示中的音訊檔案數量沒有特定限制,但單一提示中所有音訊檔案的總長度不得超過 9.5 小時。
影片格式
您可以使用影片資料,透過 gemini-1.5-pro
模型提示。
下列常見的影片格式 MIME 類型支援影片資料:
- 影片/mp4
- 影片/mpeg
- 影片/移動
- 影片/avi
- video/x-flv
- 影片/mpg
- 影片/Webm
- 影片/wmv
- 影片/3gpp
File API 服務會將影片取樣成每秒 1 個影格 (FPS)。為提供最佳推論品質,可能會有所變動。無論解析度和品質為何,個別圖片最多會佔用 258 個符記。
純文字格式
File API 支援上傳以下 MIME 類型的純文字檔案:
- 文字/plain
- text/html
- text/css
- text/javascript
- application/x-javascript
- 文字/x-typescript
- 應用程式/x-typescript
- 文字/csv
- 文字/Markdown
- 文字/x-python
- application/x-python-code
- application/json
- text/xml
- 應用程式/rtf
- 文字/rtf
針對不在清單上的 MIME 類型純文字檔案,您可以嘗試手動指定上述其中一種 MIME 類型。