探索 Gemini API 的音訊功能

Gemini 可以回覆語音提示。舉例來說,Gemini 可以:

  • 說明、總結或回答音訊內容相關問題。
  • 提供音訊的轉錄稿。
  • 提供有關音訊特定片段的解答或轉錄稿。
,瞭解如何調查及移除這項存取權。

本指南將說明幾種操作方法:

  • 將音訊傳送至 Gemini 模型。
  • 輸入 Gemini 模型的音訊。

支援的音訊格式

Gemini 支援下列音訊格式 MIME 類型:

  • WAV - 音訊/WAV
  • MP3 - 音訊/mp3
  • AIFF - 音訊/AI
  • AAC - 音訊/AAC
  • OGG Vorbis - 音訊/ogg
  • FLAC - 音訊/flac

音訊的相關技術詳細資料

Gemini 對音訊有下列規則:

  • Gemini 以 25 個符記表示的每一秒音訊;例如 1,500 個符記表示 1 分鐘的音訊。
  • Gemini 只能推論英語的回覆。
  • Gemini 可以「理解」例如鳥鳴或警笛聲等
  • 單一提示支援的音訊資料長度上限為 9.5 小時。 Gemini 不會在單次提示中限制音訊檔案數量;不過 在單一提示中,所有音訊檔案的總長度不得超過 9.5 小時。
  • Gemini 會將音訊檔案取樣至 16 Kbps 的資料解析度,
  • 如果音訊來源含有多個聲道,Gemini 會合併這些聲道 明確轉換為單一管道