探索 Gemini API 的音訊功能

Gemini 可回應音訊提示。舉例來說,Gemini 可以:

  • 描述、摘要或回答有關音訊內容的問題。
  • 提供音訊轉錄稿。
  • 提供音訊的特定片段答案或轉錄稿。

本指南將示範使用 Gemini API 與音訊檔案和音訊內容互動的不同方式。

支援的音訊格式

Gemini 支援下列音訊格式的 MIME 類型:

  • WAV - audio/wav
  • MP3 - audio/mp3
  • AIFF - audio/aiff
  • AAC - audio/aac
  • OGG Vorbis - audio/ogg
  • FLAC - audio/flac

音訊技術詳細資料

Gemini 對音訊設有以下規則:

  • Gemini 會將每秒的音訊表示為 25 個符記,例如一分鐘的音訊會以 1,500 個符記表示。
  • Gemini 只能針對英文語音推斷回覆。
  • Gemini 可以「理解」非語音的元素,例如鳥鳴或警鈴聲。
  • 單一提示支援的音訊資料長度上限為 9.5 小時。Gemini 不會限制單一提示中的音訊檔案數量,但單一提示中所有音訊檔案的總長度不得超過 9.5 小時。
  • Gemini 會將音訊檔案降採樣至 16 Kbps 資料解析度。
  • 如果音訊來源含有多個聲道,Gemini 會將這些聲道合併為單一聲道。

後續步驟

本指南說明如何使用 File API 上傳音訊檔案,然後從音訊輸入內容產生文字輸出內容。如要進一步瞭解相關內容,請參閱下列資源:

  • 檔案提示策略:Gemini API 支援使用文字、圖片、音訊和影片資料提示,這也稱為多模態提示。
  • 系統指示:系統指示可讓您根據特定需求和用途,引導模型的行為。
  • 安全指南:生成式 AI 模型有時會產生非預期的輸出內容,例如不準確、偏頗或令人反感的輸出內容。後續處理和人工評估是限制這類輸出內容造成危害風險的必要措施。