您現在可以透過 Google 搜尋進行地面資訊驗證了!
瞭解詳情
探索 Gemini API 的音訊功能
Gemini 可以回覆語音提示。舉例來說,Gemini 可以:
- 說明、總結或回答音訊內容相關問題。
- 提供音訊的轉錄稿。
- 提供有關音訊特定片段的解答或轉錄稿。
,瞭解如何調查及移除這項存取權。
本指南將說明幾種操作方法:
- 將音訊傳送至 Gemini 模型。
- 輸入 Gemini 模型的音訊。
Gemini 支援下列音訊格式 MIME 類型:
- WAV - 音訊/WAV
- MP3 - 音訊/mp3
- AIFF - 音訊/AI
- AAC - 音訊/AAC
- OGG Vorbis - 音訊/ogg
- FLAC - 音訊/flac
音訊的相關技術詳細資料
Gemini 對音訊有下列規則:
- Gemini 以 25 個符記表示的每一秒音訊;例如
1,500 個符記表示 1 分鐘的音訊。
- Gemini 只能推論英語的回覆。
- Gemini 可以「理解」例如鳥鳴或警笛聲等
- 單一提示支援的音訊資料長度上限為 9.5 小時。
Gemini 不會在單次提示中限制音訊檔案數量;不過
在單一提示中,所有音訊檔案的總長度不得超過
9.5 小時。
- Gemini 會將音訊檔案取樣至 16 Kbps 的資料解析度,
- 如果音訊來源含有多個聲道,Gemini 會合併這些聲道
明確轉換為單一管道
除非另有註明,否則本頁面中的內容是採用創用 CC 姓名標示 4.0 授權,程式碼範例則為阿帕契 2.0 授權。詳情請參閱《Google Developers 網站政策》。Java 是 Oracle 和/或其關聯企業的註冊商標。
上次更新時間:2024-09-03 (世界標準時間)。
[[["容易理解","easyToUnderstand","thumb-up"],["確實解決了我的問題","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["缺少我需要的資訊","missingTheInformationINeed","thumb-down"],["過於複雜/步驟過多","tooComplicatedTooManySteps","thumb-down"],["過時","outOfDate","thumb-down"],["翻譯問題","translationIssue","thumb-down"],["示例/程式碼問題","samplesCodeIssue","thumb-down"],["其他","otherDown","thumb-down"]],["上次更新時間:2024-09-03 (世界標準時間)。"],[],[]]