Interactions API 现已正式发布。我们建议使用此 API 来访问所有最新功能和模型。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemini 3.1 Flash Live 预览版

Gemini 3.1 Flash Live 预览版是 Google 的低延迟音频转音频模型，针对实时对话和语音优先 AI 应用进行了优化，具备声学细微差别检测、数值精准处理及多模态感知能力。

文档

如需全面了解各项功能，请访问 Live API 指南。

gemini-3.1-flash-live-preview

属性	说明
模型代码	`gemini-3.1-flash-live-preview`
支持的数据类型	输入文本、图片、音频、视频输出文本和音频
Token 限制^[*]	输入 token 限制 131,072 输出 token 限制 65,536
功能	音频生成支持缓存不支持代码执行不支持文件搜索不支持函数调用支持 Grounding with Google Maps 不支持图片生成不支持 Live API 支持搜索接地支持结构化输出不支持思考型支持网址上下文不支持
使用选项	批量 API 不支持
版本	如需了解详情，请参阅模型版本模式。预览：`gemini-3.1-flash-live-preview`
最后更新时间	2026 年 3 月
知识截点	2025 年 1 月

从 Gemini 2.5 Flash Live 迁移

Gemini 3.1 Flash Live 预览版针对低延迟实时对话进行了优化。从 gemini-2.5-flash-native-audio-preview-12-2025 迁移时，请考虑以下事项：

模型字符串：将模型字符串从 gemini-2.5-flash-native-audio-preview-12-2025更新为 gemini-3.1-flash-live-preview。
思考配置：Gemini 3.1 使用 thinkingLevel（具有 minimal、low、medium 和 high 等设置），而不是 thinkingBudget。默认值为 minimal，以针对最低延迟进行优化。请参阅思考级别和预算。
服务器事件：单个 BidiGenerateContentServerContent 事件现在可以同时包含多个内容部分（例如音频块和脚本）。更新代码以处理每个事件中的所有部分，避免遗漏内容。
客户端内容：send_client_content 仅支持为初始上下文历史记录植入种子（需要在 initial_history_in_client_content中设置 history_config）。在对话期间，使用 send_realtime_input发送文本更新。请参阅增量内容更新。
轮次覆盖范围：默认值为 TURN_INCLUDES_AUDIO_ACTIVITY_AND_ALL_VIDEO，而不是 TURN_INCLUDES_ONLY_ACTIVITY。模型的轮次现在包含检测到的音频活动和所有视频帧。如果您的应用目前发送的是恒定的视频帧流，您可能需要更新应用，使其仅在有音频活动时发送视频帧，以避免产生额外费用。
异步函数调用：尚不支持。函数调用仅同步。在您发送工具响应之前，模型不会开始响应。请参阅异步函数调用。
主动音频和共情对话：Gemini 3.1 Flash Live 尚不支持这些功能。从代码中移除这些功能的任何配置。请参阅主动音频和共情对话。

如需详细比较各项功能，请参阅功能指南中的模型对比表。