Gemini 3.1 Flash Live Preview

Gemini 3.1 Flash Live Preview 是低延遲的音訊對音訊模型,經過最佳化處理,可即時對話、偵測聲學細微差異、提供數值精確度,以及支援多模態感知,非常適合語音優先的 AI 應用程式。

說明文件

如要全面瞭解功能與功能,請參閱 Live API 指南。

gemini-3.1-flash-live-preview

屬性 說明
模型代碼 gemini-3.1-flash-live-preview
支援的資料類型

輸入裝置

文字、圖片、音訊、影片

輸出內容

文字和音訊

代幣限制[*]

輸入權杖限制

131,072

輸出詞元限制

65,536

功能

語音生成

支援

批次 API

不支援

快取

不支援

程式碼執行

不支援

檔案搜尋

不支援

函式呼叫

支援

利用 Google 地圖建立基準

不支援

圖像生成

不支援

Live API

支援

以搜尋為基準

支援

結構化輸出內容

不支援

思考

支援

網址內容

不支援

個版本
如要瞭解詳情,請參閱模型版本模式
  • 預覽:gemini-3.1-flash-live-preview
最新更新 2026 年 3 月
知識截點 2025 年 1 月

從 Gemini 2.5 Flash Live 遷移

Gemini 3.1 Flash Live Preview 延遲時間最短,適合即時對話。 從 gemini-2.5-flash-native-audio-preview-12-2025 遷移時,請注意下列事項:

  • 模型字串:將模型字串從 gemini-2.5-flash-native-audio-preview-12-2025 更新為 gemini-3.1-flash-live-preview
  • 思考設定:Gemini 3.1 使用 thinkingLevel (包含 minimallowmediumhigh 等設定),而非 thinkingBudget。預設值為 minimal,可將延遲降至最低。請參閱思考等級和預算
  • 伺服器事件:單一 BidiGenerateContentServerContent 事件現在可以同時包含多個內容部分 (例如音訊區塊和轉錄稿)。更新程式碼,處理每個事件中的所有部分,以免遺漏內容。
  • 用戶端內容send_client_content 僅支援用於植入初始內容記錄 (需要設定 initial_history_in_client_content history_config)。在對話期間,請使用 send_realtime_input 傳送文字更新。請參閱「內容增量更新」。
  • 開啟涵蓋範圍:預設為 TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO,而非 TURN_INCLUDES_ONLY_ACTIVITY。現在模型的回覆會納入偵測到的音訊活動和所有影片影格。如果應用程式目前會持續傳送影片影格串流,建議您更新應用程式,只在有音訊活動時傳送影片影格,避免產生額外費用。
  • 非同步函式呼叫:尚未支援。函式呼叫僅支援同步。您必須先傳送工具回覆,模型才會開始回覆。請參閱非同步函式呼叫
  • 主動式音訊和情感對話:Gemini 3.1 Flash Live 目前不支援這些功能。請從程式碼中移除這些功能的任何設定。請參閱「主動式音訊」和「情緒感知對話」一節。

如需詳細的功能比較,請參閱功能指南中的「模式比較」表格。