Gemini 3.1 Flash Live Preview 是低延遲的音訊對音訊模型,經過最佳化處理,可即時對話、偵測聲學細微差異、提供數值精確度,以及支援多模態感知,非常適合語音優先的 AI 應用程式。
說明文件
如要全面瞭解功能與功能,請參閱 Live API 指南。
gemini-3.1-flash-live-preview
| 屬性 | 說明 |
|---|---|
| 模型代碼 |
gemini-3.1-flash-live-preview
|
| 支援的資料類型 |
輸入裝置 文字、圖片、音訊、影片 輸出內容 文字和音訊 |
| 代幣限制[*] |
輸入權杖限制 131,072 輸出詞元限制 65,536 |
| 功能 |
語音生成 支援 批次 API 不支援 快取 不支援 程式碼執行 不支援 檔案搜尋 不支援 函式呼叫 支援 利用 Google 地圖建立基準 不支援 圖像生成 不支援 Live API 支援 以搜尋為基準 支援 結構化輸出內容 不支援 思考 支援 網址內容 不支援 |
| 個版本 |
|
| 最新更新 | 2026 年 3 月 |
| 知識截點 | 2025 年 1 月 |
從 Gemini 2.5 Flash Live 遷移
Gemini 3.1 Flash Live Preview 延遲時間最短,適合即時對話。
從 gemini-2.5-flash-native-audio-preview-12-2025 遷移時,請注意下列事項:
- 模型字串:將模型字串從
gemini-2.5-flash-native-audio-preview-12-2025更新為gemini-3.1-flash-live-preview。 - 思考設定:Gemini 3.1 使用
thinkingLevel(包含minimal、low、medium和high等設定),而非thinkingBudget。預設值為minimal,可將延遲降至最低。請參閱思考等級和預算。 - 伺服器事件:單一
BidiGenerateContentServerContent事件現在可以同時包含多個內容部分 (例如音訊區塊和轉錄稿)。更新程式碼,處理每個事件中的所有部分,以免遺漏內容。 - 用戶端內容:
send_client_content僅支援用於植入初始內容記錄 (需要設定initial_history_in_client_contenthistory_config)。在對話期間,請使用send_realtime_input傳送文字更新。請參閱「內容增量更新」。 - 開啟涵蓋範圍:預設為
TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO,而非TURN_INCLUDES_ONLY_ACTIVITY。現在模型的回覆會納入偵測到的音訊活動和所有影片影格。如果應用程式目前會持續傳送影片影格串流,建議您更新應用程式,只在有音訊活動時傳送影片影格,避免產生額外費用。 - 非同步函式呼叫:尚未支援。函式呼叫僅支援同步。您必須先傳送工具回覆,模型才會開始回覆。請參閱非同步函式呼叫。
- 主動式音訊和情感對話:Gemini 3.1 Flash Live 目前不支援這些功能。請從程式碼中移除這些功能的任何設定。請參閱「主動式音訊」和「情緒感知對話」一節。
如需詳細的功能比較,請參閱功能指南中的「模式比較」表格。