Gemini 3.1 Flash Live 预览版

Gemini 3.1 Flash Live 预览版是一款低延迟的音频转音频模型,经过优化,可用于实时对话和语音优先的 AI 应用,具有声音细微差别检测、数值精确度和多模态感知能力。

文档

如需全面了解功能和能力,请参阅 Live API 指南。

gemini-3.1-flash-live-preview

属性 说明
模型代码 gemini-3.1-flash-live-preview
支持的数据类型

输入源

文本、图片、音频、视频

输出

文字和音频

令牌限制[*]

输入 token 限制

131,072

输出 token 限制

65536

功能

音频生成

支持

批量 API

不受支持

缓存

不受支持

代码执行

不受支持

文件搜索

不支持

函数调用

支持

依托 Google 地图进行接地

不受支持

图片生成

不受支持

Live API

支持

搜索接地

支持

结构化输出

不受支持

思考型

支持

网址上下文

不受支持

版本
如需了解详情,请参阅模型版本模式
  • 预览:gemini-3.1-flash-live-preview
最新更新 2026 年 3 月
知识截点 2025 年 1 月

从 Gemini 2.5 Flash Live 迁移

Gemini 3.1 Flash Live 预览版经过优化,可实现低延迟的实时对话。 从 gemini-2.5-flash-native-audio-preview-12-2025 迁移时,请考虑以下事项:

  • 模型字符串:将模型字符串从 gemini-2.5-flash-native-audio-preview-12-2025 更新为 gemini-3.1-flash-live-preview
  • 思考配置:Gemini 3.1 使用 thinkingLevel(具有 minimallowmediumhigh 等设置),而不是 thinkingBudget。默认值为 minimal,以优化最低延迟。请参阅思考水平和预算
  • 服务器事件:单个 BidiGenerateContentServerContent 事件现在可以同时包含多个内容部分(例如音频块和转写)。更新代码以处理每个事件中的所有部分,避免丢失内容。
  • 客户端内容send_client_content 仅支持用于设定初始上下文历史记录(需要在 history_config 中设置 initial_history_in_client_content)。使用 send_realtime_input 在对话期间发送文本更新。请参阅增量内容更新
  • 开启覆盖率:默认值为 TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO,而不是 TURN_INCLUDES_ONLY_ACTIVITY。模型的回合现在包括检测到的音频活动和所有视频帧。如果您的应用目前会持续发送视频帧,您可能需要更新应用,使其仅在有音频活动时发送视频帧,以免产生额外费用。
  • 异步函数调用:尚不支持。函数调用仅支持同步。在您发送工具响应之前,模型不会开始回答。请参阅异步函数调用
  • 主动音频和情感对话:Gemini 3.1 Flash Live 尚不支持这些功能。从代码中移除这些功能的任何配置。请参阅主动式音频情感对话

如需查看详细的功能比较,请参阅功能指南中的模型对比表格。