Gemini 3.1 Flash Live 预览版是一款低延迟的音频转音频模型,经过优化,可用于实时对话和语音优先的 AI 应用,具有声音细微差别检测、数值精确度和多模态感知能力。
文档
如需全面了解功能和能力,请参阅 Live API 指南。
gemini-3.1-flash-live-preview
| 属性 | 说明 |
|---|---|
| 模型代码 |
gemini-3.1-flash-live-preview
|
| 支持的数据类型 |
输入源 文本、图片、音频、视频 输出 文字和音频 |
| 令牌限制[*] |
输入 token 限制 131,072 输出 token 限制 65536 |
| 功能 |
音频生成 支持 批量 API 不受支持 缓存 不受支持 代码执行 不受支持 文件搜索 不支持 函数调用 支持 依托 Google 地图进行接地 不受支持 图片生成 不受支持 Live API 支持 搜索接地 支持 结构化输出 不受支持 思考型 支持 网址上下文 不受支持 |
| 版本 |
|
| 最新更新 | 2026 年 3 月 |
| 知识截点 | 2025 年 1 月 |
从 Gemini 2.5 Flash Live 迁移
Gemini 3.1 Flash Live 预览版经过优化,可实现低延迟的实时对话。
从 gemini-2.5-flash-native-audio-preview-12-2025 迁移时,请考虑以下事项:
- 模型字符串:将模型字符串从
gemini-2.5-flash-native-audio-preview-12-2025更新为gemini-3.1-flash-live-preview。 - 思考配置:Gemini 3.1 使用
thinkingLevel(具有minimal、low、medium和high等设置),而不是thinkingBudget。默认值为minimal,以优化最低延迟。请参阅思考水平和预算。 - 服务器事件:单个
BidiGenerateContentServerContent事件现在可以同时包含多个内容部分(例如音频块和转写)。更新代码以处理每个事件中的所有部分,避免丢失内容。 - 客户端内容:
send_client_content仅支持用于设定初始上下文历史记录(需要在history_config中设置initial_history_in_client_content)。使用send_realtime_input在对话期间发送文本更新。请参阅增量内容更新。 - 开启覆盖率:默认值为
TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO,而不是TURN_INCLUDES_ONLY_ACTIVITY。模型的回合现在包括检测到的音频活动和所有视频帧。如果您的应用目前会持续发送视频帧,您可能需要更新应用,使其仅在有音频活动时发送视频帧,以免产生额外费用。 - 异步函数调用:尚不支持。函数调用仅支持同步。在您发送工具响应之前,模型不会开始回答。请参阅异步函数调用。
- 主动音频和情感对话:Gemini 3.1 Flash Live 尚不支持这些功能。从代码中移除这些功能的任何配置。请参阅主动式音频和情感对话。
如需查看详细的功能比较,请参阅功能指南中的模型对比表格。