使用媒體檔案提示


前往 ai.google.dev 查看 在 Google Colab 中執行 在 GitHub 上查看原始碼

Gemini API 支援以文字、圖片、音訊和影片資料建立提示,又稱為「多模態」提示,也就是說,您可以在提示中加入這些類型的媒體檔案。針對小型檔案,您可以在提供提示時,將 Gemini 模型直接指向本機檔案。先使用 File API 上傳大型檔案,再納入提示中。

File API 可讓您為每個專案儲存最多 20 GB 的檔案,每個檔案的大小不得超過 2 GB。檔案會儲存 48 小時,並可在該時間範圍內使用 API 金鑰產生,而無法透過 API 下載。在所有提供 Genmini API 的地區,可免費使用 Files API。

File API 會處理可用來透過 model.generateContentmodel.streamGenerateContent 產生內容的輸入。如要瞭解有效的檔案格式 (MIME 類型) 和支援的模型,請參閱支援的檔案格式

本指南將說明如何使用 File API 上傳媒體檔案,並將這些檔案納入對 Gemini API 的 GenerateContent 呼叫。詳情請參閱程式碼範例

支援的檔案格式

Gemini 模型支援提示功能,且支援多種檔案格式。本節說明使用一般媒體格式提示時 (特別是圖片、音訊、影片和純文字檔案) 需要注意的事項。您可以使用媒體檔案,僅針對特定模型版本發出提示,如下表所示。

型號 圖片 音訊 影片 純文字
Gemini 1.5 Pro (008 以上版本) ✔ (檔案大小上限為 3600)
Gemini Pro Vision ✔ (最多 16 個圖片檔)

圖片格式

您可以使用圖片資料,透過 gemini-pro-visiongemini-1.5-pro 模型發出提示。使用圖片發出提示時,必須遵循下列限制和規定:

  • 圖片必須是下列其中一種圖片資料 MIME 類型
    • PNG - 圖片/png
    • JPEG - 圖片/jpeg
    • WebP - 圖片/Webp
    • HEIC - 圖片/圖片
    • HEIF - 圖片/heif
  • gemini-pro-visiongemini-1.5-pro 的個別圖片上限為 16 張
  • 圖片中的像素數量沒有具體限制。不過,系統會縮小圖片,以符合 3072 x 3072 的最大解析度,同時保留原始長寬比。

音訊格式

您可以使用音訊資料,透過 gemini-1.5-pro 模型提示。使用音訊進行提示時,必須遵守下列限制和規定:

  • 下列常見的音訊格式 MIME 類型支援音訊資料:
    • WAV - 音訊/WAV
    • MP3 - 音訊/mp3
    • AIFF - 音訊/aiff
    • AAC - 音訊/aac
    • OGG Vorbis - 音訊/Ogg
    • FLAC - 音訊/flac
  • 單一提示中的音訊資料長度上限為 9.5 小時,
  • 音訊檔案會重新取樣為 16 Kbps 的資料解析度,並將多個音訊頻道合併為單一聲道。
  • 單一提示中的音訊檔案數量沒有特定限制,但單一提示中所有音訊檔案的總長度不得超過 9.5 小時。

影片格式

您可以使用影片資料,透過 gemini-1.5-pro 模型提示。

  • 下列常見的影片格式 MIME 類型支援影片資料:

    • 影片/mp4
    • 影片/mpeg
    • 影片/移動
    • 影片/avi
    • video/x-flv
    • 影片/mpg
    • 影片/Webm
    • 影片/wmv
    • 影片/3gpp
  • File API 服務會將影片取樣成每秒 1 個影格 (FPS)。為提供最佳推論品質,可能會有所變動。無論解析度和品質為何,個別圖片最多會佔用 258 個符記。

純文字格式

File API 支援上傳以下 MIME 類型的純文字檔案:

  • 文字/plain
  • text/html
  • text/css
  • text/javascript
  • application/x-javascript
  • 文字/x-typescript
  • 應用程式/x-typescript
  • 文字/csv
  • 文字/Markdown
  • 文字/x-python
  • application/x-python-code
  • application/json
  • text/xml
  • 應用程式/rtf
  • 文字/rtf

針對不在清單上的 MIME 類型純文字檔案,您可以嘗試手動指定上述其中一種 MIME 類型。