使用媒體檔案提示


前往 ai.google.dev 查看 在 Google Colab 中執行 前往 GitHub 查看原始碼

Gemini API 支援透過文字、圖片、音訊和影片資料建立提示,這項功能也稱為「多模態」提示。也就是說,您可以在提示中加入這些類型的媒體檔案。若是小型檔案,可以在提供提示時 將 Gemini 模型直接指向本機檔案先使用 File API 上傳較大的檔案,再將檔案加入提示中。

File API 可讓您為每個專案儲存多達 20 GB 的檔案,且每個檔案的大小不超過 2GB。檔案會保留 48 小時,且可在這段時間內用 API 金鑰存取,但無法透過 API 下載。在可使用 Gemini API 的所有區域,皆可免費使用 Files API。

File API 會處理可用來產生 model.generateContentmodel.streamGenerateContent 內容的輸入。如要瞭解有效的檔案格式 (MIME 類型) 和支援的模型,請參閱「支援的檔案格式」一節。

本指南將說明如何使用 File API 上傳媒體檔案,並在對 Gemini API 的 GenerateContent 呼叫中加入媒體檔案。詳情請參閱程式碼範例

支援的檔案格式

Gemini 模型支援多種檔案格式的提示。本節說明在提示中使用一般媒體格式 (尤其是圖片、音訊、影片和純文字檔案) 時需考量的事項。您可以使用媒體檔案,只向特定模型版本提示,如下表所示。

型號 圖片 音訊 影片 純文字
Gemini 1.5 Pro (008 以上版本) ✔ (檔案大小上限為 3600)

圖片格式

Gemini 1.5 模型可以使用圖片資料來建立提示。使用圖片提示時,圖片會遵守下列限制和規定:

  • 圖片必須是下列其中一種圖片資料 MIME 類型
    • PNG - 圖片/png
    • JPEG - 圖片/jpeg
    • WEBP - 圖片/Webp
    • HEIC - 圖片/堆積
    • HEIF - 圖片/heif
  • Gemini 1.5 模型最多可以有 3600 張圖片。
  • 圖片中的像素數量沒有特別限制,不過系統會將較大的圖片縮小,以符合 3072 x 3072 的最大解析度,同時保留圖片的原始長寬比。

音訊格式

您可以在 Gemini 1.5 模型下,使用音訊資料建立提示。您在提示中使用音訊時,必須遵守下列限制和規定:

  • 下列常見的音訊格式 MIME 類型支援音訊資料:
    • WAV - 音訊/WAV
    • MP3 - 音訊/mp3
    • AIFF - 音訊/AI
    • AAC - 音訊/AAC
    • OGG Vorbis - 音訊/ogg
    • FLAC - 音訊/flac
  • 單一提示支援的音訊資料長度上限為 9.5 小時。
  • 音訊檔案會重新取樣為 16 Kbps 的資料解析度,並將多個音訊聲道合併為單一聲道。
  • 單一提示中的音訊檔案數量並無特別限制;不過,單一提示中所有音訊檔案的總長度不能超過 9.5 小時。

影片格式

您可以使用影片資料,在 Gemini 1.5 模型生成提示。

  • 下列常見的影片格式 MIME 類型支援影片資料:

    • 影片/mp4
    • 影片/mpeg
    • 影片/移動
    • 影片/avi
    • video/x-flv
    • 影片/mpg
    • 影片/Webm
    • 影片/每週
    • 影片/3gpp
  • File API 服務是以每秒 1 個影格 (FPS) 的速度將影片取樣為圖片,為提供最佳推論品質,隨時可能變更。無論解析度和品質為何,個別映像檔都會包含 258 個符記。

純文字格式

File API 支援上傳下列 MIME 類型的純文字檔案:

  • 文字/plain
  • text/html
  • text/css
  • text/javascript
  • application/x-javascript
  • 文字/x-typescript
  • 應用程式/x-typescript
  • 文字/csv
  • 文字/markdown
  • 文字/x-python
  • application/x-python-code
  • application/json
  • text/xml
  • 應用程式/rtf
  • 文字/rtf

針對清單未列出 MIME 類型的純文字檔案,您可以嘗試手動指定上述其中一種 MIME 類型。