Gemini 3.1 Flash Live Preview 是我们的低延迟音频到音频模型,针对实时对话和语音优先 AI 应用进行了优化,具有声音细微差别检测、数值精度和多模态感知能力。
文档
如需全面了解功能,请访问 Live API 指南。
gemini-3.1-flash-live-preview
| 属性 | 说明 |
|---|---|
| 模型代码 |
gemini-3.1-flash-live-preview
|
| 支持的数据类型 |
输入 文本、图片、音频、视频 输出 文本和音频 |
| Token 限制[*] |
输入 token 限制 131,072 输出 token 限制 65,536 |
| 功能 |
音频生成 支持 批量 API 不支持 缓存 不支持 代码执行 不支持 文件搜索 不支持 函数调用 支持 Grounding with Google Maps 不支持 图片生成 不支持 Live API 支持 搜索接地 支持 结构化输出 不支持 思考型 支持 网址上下文 不支持 |
| 版本 |
|
| 最后更新时间 | 2026 年 3 月 |
| 知识截点 | 2025 年 1 月 |
从 Gemini 2.5 Flash Live 迁移
Gemini 3.1 Flash Live Preview 针对低延迟实时对话进行了优化。
从 gemini-2.5-flash-native-audio-preview-12-2025 迁移时,请考虑以下事项:
- 模型字符串:将模型字符串从
gemini-2.5-flash-native-audio-preview-12-2025更新为gemini-3.1-flash-live-preview。 - 思考配置:Gemini 3.1 使用
thinkingLevel(具有minimal、low、medium和high等设置),而不是thinkingBudget。 默认值为minimal,以针对最低延迟进行优化。请参阅 思考级别和预算。 - 服务器事件:单个
BidiGenerateContentServerContent事件现在可以同时包含多个内容部分(例如 音频块和脚本)。更新代码以处理每个事件中的所有部分,避免遗漏内容。 - 客户端内容:
send_client_content仅支持为 初始上下文历史记录植入种子(需要在initial_history_in_client_content中设置history_config)。在对话期间,使用send_realtime_input发送 文本更新。请参阅 增量内容更新。 - 轮次覆盖范围:默认为
TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO,而不是TURN_INCLUDES_ONLY_ACTIVITY。模型的轮次现在包含检测到的音频活动和所有视频帧。如果您的应用目前发送的是恒定的视频帧流,您可能需要更新应用,使其仅在有音频活动时发送视频帧,以避免产生额外费用。 - 异步函数调用:尚不支持。函数调用仅同步。在您发送工具响应之前,模型不会开始响应。请参阅 异步函数调用。
- 主动音频和共情对话:Gemini 3.1 Flash Live 尚不 支持这些功能。从代码中移除这些功能的任何配置。请参阅 主动音频和 共情对话。
如需详细比较功能,请参阅功能指南中的 模型对比表。