Gemini 可回應音訊提示。舉例來說,Gemini 可以:
- 描述、摘要或回答音訊內容相關問題。
- 提供音訊轉錄稿。
- 針對音訊的特定片段提供答案或轉錄稿。
本指南將示範使用 Gemini API 與音訊檔案和音訊內容互動的不同方式。
支援的音訊格式
Gemini 支援下列音訊格式的 MIME 類型:
- WAV -
audio/wav
- MP3 -
audio/mp3
- AIFF -
audio/aiff
- AAC -
audio/aac
- OGG Vorbis -
audio/ogg
- FLAC -
audio/flac
音訊技術詳細資料
Gemini 對音訊有以下規則:
- Gemini 會將每秒的音訊表示為 25 個符記,例如一分鐘的音訊會以 1,500 個符記表示。
- Gemini 只能針對英文語音推斷回覆。
- Gemini 可以「理解」非語音內容,例如鳥鳴或警鈴聲。
- 單一提示支援的音訊資料長度上限為 9.5 小時。Gemini 不會限制單一提示中的音訊檔案數量,但單一提示中所有音訊檔案的總長度不得超過 9.5 小時。
- Gemini 會將音訊檔案降採樣至 16 Kbps 資料解析度。
- 如果音訊來源含有多個聲道,Gemini 會將這些聲道合併為單一聲道。
後續步驟
本指南說明如何使用 File API 上傳音訊檔案,然後從音訊輸入內容產生文字輸出內容。如要進一步瞭解相關內容,請參閱下列資源: