Gemini 3.1 Flash Live 预览版是 Google 的低延迟音频转音频模型,针对实时对话和语音优先 AI 应用进行了优化,具备声学细微差别检测、数值精准处理及多模态感知能力。
文档
如需全面了解各项功能,请访问 Live API 指南。
gemini-3.1-flash-live-preview
| 属性 | 说明 |
|---|---|
| 模型代码 |
gemini-3.1-flash-live-preview
|
| 支持的数据类型 |
输入 文本、图片、音频、视频 输出 文本和音频 |
| Token 限制[*] |
输入 token 限制 131,072 输出 token 限制 65,536 |
| 功能 |
支持 不支持 不支持 不支持 支持 不支持 不支持 支持 支持 不支持 支持 不支持 |
| 使用选项 |
不支持 |
| 版本 |
|
| 最后更新时间 | 2026 年 3 月 |
| 知识截点 | 2025 年 1 月 |
从 Gemini 2.5 Flash Live 迁移
Gemini 3.1 Flash Live 预览版针对低延迟实时对话进行了优化。
从 gemini-2.5-flash-native-audio-preview-12-2025 迁移时,请考虑以下事项:
- 模型字符串:将模型字符串从
gemini-2.5-flash-native-audio-preview-12-2025更新为gemini-3.1-flash-live-preview。 - 思考配置:Gemini 3.1 使用
thinkingLevel(具有minimal、low、medium和high等设置),而不是thinkingBudget。 默认值为minimal,以针对最低延迟进行优化。请参阅 思考级别和预算。 - 服务器事件:单个
BidiGenerateContentServerContent事件现在可以同时包含多个内容部分(例如 音频块和脚本)。更新代码以处理每个事件中的所有部分,避免遗漏内容。 - 客户端内容:
send_client_content仅支持为 初始上下文历史记录植入种子(需要在initial_history_in_client_content中设置history_config)。在对话期间,使用send_realtime_input发送 文本更新。请参阅 增量内容更新。 - 轮次覆盖范围:默认值为
TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO,而不是TURN_INCLUDES_ONLY_ACTIVITY。模型的轮次现在包含检测到的音频活动和所有视频帧。如果您的应用目前发送的是恒定的视频帧流,您可能需要更新应用,使其仅在有音频活动时发送视频帧,以避免产生额外费用。 - 异步函数调用:尚不支持。函数调用仅同步。在您发送工具响应之前,模型不会开始响应。请参阅 异步函数调用。
- 主动音频和共情对话:Gemini 3.1 Flash Live 尚不 支持这些功能。从代码中移除这些功能的任何配置。请参阅 主动音频和 共情对话。
如需详细比较各项功能,请参阅 功能指南中的 模型对比表。