Gemini Interactions API 是一项实验性 API,可让开发者使用 Gemini 模型构建生成式 AI 应用。Gemini 是我们迄今为止最强大的模型,专为多模态应用而生。它不仅能理解和处理语言、图像、音频、视频和代码等各种信息,更能跨越不同模态,实现信息的融会贯通。您可以使用 Gemini API 来实现各种用例,例如跨文本和图像进行推理、生成内容、构建对话代理、开发总结和分类系统等。
CreateWebhook
创建新的 Webhook。
请求正文
请求正文中包含结构如下的数据:
可选。用户提供的 webhook 名称。
必需。将向其发送网络钩子事件的 URI。
必需。Webhook 订阅的事件。 可用事件: - batch.succeeded - batch.expired - batch.failed - interaction.requires_action - interaction.completed - interaction.failed - video.generated
响应
如果成功,响应正文将包含结构如下的数据:
可选。用户提供的 webhook 名称。
必需。将向其发送网络钩子事件的 URI。
必需。Webhook 订阅的事件。 可用事件: - batch.succeeded - batch.expired - batch.failed - interaction.requires_action - interaction.completed - interaction.failed - video.generated
仅限输出。创建 Webhook 时的时间戳。
仅限输出。上次更新 Webhook 时的时间戳。
signing_secrets SigningSecret (可选)
仅限输出。与此 webhook 关联的签名密钥。
字段
仅限输出。签名密钥的截断版本。
仅限输出。签名密钥的失效日期。
仅限输出。webhook 的状态。
可能的值:
-
enabled -
disabled -
disabled_due_to_failed_deliveries
仅限输出。网络钩子的新签名密钥。仅在创建时填充。
仅限输出。网络钩子的 ID。
示例
示例响应
{ "name": "string", "uri": "string", "subscribed_events": [ "string" ], "create_time": "string", "update_time": "string", "signing_secrets": [ { "truncated_secret": "string", "expire_time": "string" } ], "state": "enabled", "new_signing_secret": "string", "id": "string" }
ListWebhooks
列出所有 Webhook。
路径 / 查询参数
可选。要返回的 Webhook 数量上限。服务返回的值可能小于此值。如果未指定,则最多返回 50 个 Webhook。 最大值为 1000。
可选。从之前的 `ListWebhooks` 调用中收到的页面令牌。 利用其进行后续页面检索。
响应
如果成功,响应正文将包含结构如下的数据:
Webhook。
可作为 `page_token` 发送并用于检索下一页的令牌。 如果省略此字段,则不存在后续页面。
示例
示例响应
{ "webhooks": [ { "name": "string", "uri": "string", "subscribed_events": [ "string" ], "create_time": "string", "update_time": "string", "signing_secrets": [ { "truncated_secret": "string", "expire_time": "string" } ], "state": "enabled", "new_signing_secret": "string", "id": "string" } ], "next_page_token": "string" }
GetWebhook
获取特定的 Webhook。
路径 / 查询参数
必需。要检索的 webhook 的 ID。
响应
如果成功,响应正文将包含结构如下的数据:
可选。用户提供的 webhook 名称。
必需。将向其发送网络钩子事件的 URI。
必需。Webhook 订阅的事件。 可用事件: - batch.succeeded - batch.expired - batch.failed - interaction.requires_action - interaction.completed - interaction.failed - video.generated
仅限输出。创建 Webhook 时的时间戳。
仅限输出。上次更新 Webhook 时的时间戳。
signing_secrets SigningSecret (可选)
仅限输出。与此 webhook 关联的签名密钥。
字段
仅限输出。签名密钥的截断版本。
仅限输出。签名密钥的失效日期。
仅限输出。webhook 的状态。
可能的值:
-
enabled -
disabled -
disabled_due_to_failed_deliveries
仅限输出。网络钩子的新签名密钥。仅在创建时填充。
仅限输出。网络钩子的 ID。
示例
示例响应
{ "name": "string", "uri": "string", "subscribed_events": [ "string" ], "create_time": "string", "update_time": "string", "signing_secrets": [ { "truncated_secret": "string", "expire_time": "string" } ], "state": "enabled", "new_signing_secret": "string", "id": "string" }
UpdateWebhook
更新现有 Webhook。
路径 / 查询参数
必需。要更新的 webhook 的 ID。
可选。要更新的字段列表。
请求正文
请求正文中包含结构如下的数据:
可选。用户提供的 webhook 名称。
可选。将向其发送网络钩子事件的 URI。
可选。Webhook 订阅的事件。 可用事件: - batch.succeeded - batch.expired - batch.failed - interaction.requires_action - interaction.completed - interaction.failed - video.generated
可选。webhook 的状态。
可能的值:
-
enabled -
disabled -
disabled_due_to_failed_deliveries
响应
如果成功,响应正文将包含结构如下的数据:
可选。用户提供的 webhook 名称。
必需。将向其发送网络钩子事件的 URI。
必需。Webhook 订阅的事件。 可用事件: - batch.succeeded - batch.expired - batch.failed - interaction.requires_action - interaction.completed - interaction.failed - video.generated
仅限输出。创建 Webhook 时的时间戳。
仅限输出。上次更新 Webhook 时的时间戳。
signing_secrets SigningSecret (可选)
仅限输出。与此 webhook 关联的签名密钥。
字段
仅限输出。签名密钥的截断版本。
仅限输出。签名密钥的失效日期。
仅限输出。webhook 的状态。
可能的值:
-
enabled -
disabled -
disabled_due_to_failed_deliveries
仅限输出。网络钩子的新签名密钥。仅在创建时填充。
仅限输出。网络钩子的 ID。
示例
示例响应
{ "name": "string", "uri": "string", "subscribed_events": [ "string" ], "create_time": "string", "update_time": "string", "signing_secrets": [ { "truncated_secret": "string", "expire_time": "string" } ], "state": "enabled", "new_signing_secret": "string", "id": "string" }
DeleteWebhook
删除网络钩子。
路径 / 查询参数
必需。要删除的 webhook 的 ID。 格式:`{webhook_id}`
响应
如果成功,则响应为空。
示例
RotateSigningSecret
为 Webhook 生成新的签名密钥。
路径 / 查询参数
必需。要为其生成签名密钥的 Webhook 的 ID。 格式:`{webhook_id}`
请求正文
请求正文中包含结构如下的数据:
可选。之前签名密钥的撤消行为。
可能的值:
-
revoke_previous_secrets_after_h24 -
revoke_previous_secrets_immediately
响应
如果成功,响应正文将包含结构如下的数据:
仅限输出。新生成的签名密钥。
示例
示例响应
{ "secret": "string" }
PingWebhook
向 Webhook 发送 ping 事件。
路径 / 查询参数
必需。要 ping 的 webhook 的 ID。 格式:`{webhook_id}`
请求正文
请求正文中包含结构如下的数据:
响应
如果成功,则响应为空。
示例
资源
网络钩子
一种网络钩子资源。
字段
可选。用户提供的 webhook 名称。
必需。将向其发送网络钩子事件的 URI。
必需。Webhook 订阅的事件。 可用事件: - batch.succeeded - batch.expired - batch.failed - interaction.requires_action - interaction.completed - interaction.failed - video.generated
仅限输出。创建 Webhook 时的时间戳。
仅限输出。上次更新 Webhook 时的时间戳。
signing_secrets SigningSecret (可选)
仅限输出。与此 webhook 关联的签名密钥。
字段
仅限输出。签名密钥的截断版本。
仅限输出。签名密钥的失效日期。
仅限输出。webhook 的状态。
可能的值:
-
enabled -
disabled -
disabled_due_to_failed_deliveries
仅限输出。网络钩子的新签名密钥。仅在创建时填充。
仅限输出。webhook 的 ID。
数据模型
InteractionSseEvent
可能的类型
多态鉴别器:event_type
InteractionCreatedEvent
没有提供说明。
一律设置为 "interaction.created"
互动 互动 (必需)
没有提供说明。
字段
model ModelOption (可选)
用于生成互动的 `Model` 的名称。
可能的值:
-
gemini-2.5-computer-use-preview-10-2025一种智能体功能模型,专为直接界面互动而设计,可让 Gemini 感知和浏览数字环境。
-
gemini-2.5-flash我们的首款混合推理模型,支持 100 万个 token 的上下文窗口,并具有思考预算。
-
gemini-2.5-flash-image我们的原生图片生成模型,在速度、灵活性和上下文理解方面经过优化。文本输入和输出的价格与 2.5 Flash 相同。
-
gemini-2.5-flash-liteGoogle 旗下最小巧且最具成本效益的模型,专为大规模使用而打造。
-
gemini-2.5-flash-lite-preview-09-2025基于 Gemini 2.5 Flash Lite 的最新模型,经过优化,可实现高成本效益、高吞吐量和高质量。
-
gemini-2.5-flash-native-audio-preview-12-2025我们的原生音频模型经过优化,可提供更高质量的音频输出,并能更好地控制语速、声音自然度、表达详略和情绪。
-
gemini-2.5-flash-preview-09-2025基于 2.5 Flash 模型的最新模型。2.5 Flash 预览版最适合大规模处理、低延迟时间、需要思考的高数据量任务以及智能体应用场景。
-
gemini-2.5-flash-preview-tts我们的 2.5 Flash 文字转语音模型经过优化,可生成强大的低延迟可控语音。
-
gemini-2.5-proGoogle 旗下先进的多用途模型,擅长处理编码和复杂的推理任务。
-
gemini-2.5-pro-preview-tts我们的 2.5 Pro 文字转语音音频模型经过优化,可实现强大的低延迟语音生成,从而提供更自然的输出,并更轻松地引导提示。
-
gemini-3-flash-preview我们打造的最智能的模型,专为速度而生,将前沿智能技术与出色的搜索和事实依据能力相结合。
-
gemini-3-pro-image-preview先进的图片生成和编辑模型。
-
gemini-3-pro-preview我们最智能的模型,具有前沿的推理和多模态理解能力,以及强大的智能体和氛围编程 (vibe coding) 功能。
-
gemini-3.1-pro-preview我们最新的 SOTA 推理模型,具有前所未有的深度和细致度,以及强大的多模态理解和编码能力。
-
gemini-3.1-flash-image-preview专业级视觉智能,兼具 Flash 速度的效率和贴近现实的生成能力。
-
gemini-3.1-flash-lite-previewGoogle 旗下最具成本效益的模型,针对高容量智能体任务、翻译和简单的数据处理进行了优化。
-
gemini-3.1-flash-tts-previewGemini 3.1 Flash TTS:功能强大,可生成低延迟的语音。享受自然流畅的输出、可控的提示,以及用于精准控制旁白的新颖的表达性音频标记。
-
lyria-3-clip-preview我们的低延迟音乐创作模型经过优化,可生成高保真音频片段并实现精准的节奏控制。
-
lyria-3-pro-preview我们先进的全歌曲生成模型,具有深厚的作曲理解能力,经过优化,可实现精准的结构控制,并在各种音乐风格之间实现复杂的过渡。
agent AgentOption (可选)
用于生成互动的“代理”的名称。
可能的值:
-
deep-research-pro-preview-12-2025Gemini Deep Research Agent
-
deep-research-preview-04-2026Gemini Deep Research Agent
-
deep-research-max-preview-04-2026Gemini Deep Research Max Agent
必需。仅限输出。互动完成的唯一标识符。
必需。仅限输出。互动的状态。
可能的值:
-
in_progress -
requires_action -
completed -
failed -
cancelled -
incomplete
必需。仅限输出。回答的创建时间,采用 ISO 8601 格式 (YYYY-MM-DDThh:mm:ssZ)。
必需。仅限输出。回答的上次更新时间,采用 ISO 8601 格式 (YYYY-MM-DDThh:mm:ssZ)。
仅限输出。互动的角色。
互动的系统指令。
工具 工具 (可选)
模型在互动期间可能会调用的工具声明列表。
可能的类型
多态鉴别器:type
函数
可供模型使用的工具。
没有提供说明。
一律设置为 "function"
函数的名称。
函数的说明。
函数的参数的 JSON 架构。
CodeExecution
一种可供模型用来执行代码的工具。
没有提供说明。
一律设置为 "code_execution"
UrlContext
一种可供模型用来提取网址上下文的工具。
没有提供说明。
一律设置为 "url_context"
ComputerUse
一种可供模型用于与计算机互动的工具。
没有提供说明。
一律设置为 "computer_use"
正在运行的环境。
可能的值:
-
browser
从模型调用中排除的预定义函数列表。
McpServer
MCPServer 是一种可供模型调用以执行操作的服务器。
没有提供说明。
一律设置为 "mcp_server"
MCPServer 的名称。
MCPServer 端点的完整网址。 示例:“https://api.example.com/mcp”
可选:身份验证标头、超时等字段(如果需要)。
allowed_tools AllowedTools (可选)
允许使用的工具。
字段
mode ToolChoiceType (可选)
工具选择的模式。
可能的值:
-
auto -
any -
none -
validated
允许使用的工具的名称。
GoogleSearch
模型可用于搜索 Google 的工具。
没有提供说明。
一律设置为 "google_search"
要启用的搜索接地类型。
可能的值:
-
web_search -
image_search -
enterprise_web_search
FileSearch
一种可供模型用来搜索文件的工具。
没有提供说明。
一律设置为 "file_search"
要搜索的文件搜索存储区名称。
要检索的语义检索块数量。
要应用于语义检索文档和块的元数据过滤条件。
GoogleMaps
一种可供模型用来调用 Google 地图的工具。
没有提供说明。
一律设置为 "google_maps"
是否在响应的工具调用结果中返回 widget 上下文令牌。
用户所在位置的纬度。
用户所在位置的经度。
检索
一种可供模型用来检索文件的工具。
没有提供说明。
一律设置为 "retrieval"
要启用的文件检索类型。
可能的值:
-
vertex_ai_search
vertex_ai_search_config VertexAISearchConfig (可选)
用于指定 VertexAISearch 的配置。
字段
可选。用于指定 Vertex AI Search 引擎。
可选。用于指定 Vertex AI Search 数据存储区。
用法 用法 (可选)
仅限输出。互动请求的令牌使用情况统计信息。
字段
提示(上下文)中的 token 数量。
input_tokens_by_modality ModalityTokens (可选)
按模态划分的输入令牌用量细分。
字段
modality ResponseModality (可选)
与令牌数量关联的模态。
可能的值:
-
text -
image -
audio -
video -
document
模态的令牌数量。
提示的缓存部分(即缓存的内容)中的 token 数量。
cached_tokens_by_modality ModalityTokens (可选)
按模态划分的缓存令牌使用情况细分。
字段
modality ResponseModality (可选)
与令牌数量关联的模态。
可能的值:
-
text -
image -
audio -
video -
document
模态的令牌数量。
所有生成的回答中的 token 总数。
output_tokens_by_modality ModalityTokens (可选)
按模态划分的输出 token 用量细分。
字段
modality ResponseModality (可选)
与令牌数量关联的模态。
可能的值:
-
text -
image -
audio -
video -
document
模态的令牌数量。
工具使用提示中的 token 数量。
tool_use_tokens_by_modality ModalityTokens (可选)
按模态划分的工具使用情况令牌用量细分。
字段
modality ResponseModality (可选)
与令牌数量关联的模态。
可能的值:
-
text -
image -
audio -
video -
document
模态的令牌数量。
思考模型的思考 token 数。
互动请求(提示 + 回答 + 其他内部 token)的总 token 数。
grounding_tool_count GroundingToolCount (可选)
接地工具数量。
字段
与相应数量关联的依据工具类型。
可能的值:
-
google_search -
google_maps -
retrieval
接地工具数量。
response_modalities ResponseModality (可选)
响应的请求模态(TEXT、IMAGE、AUDIO)。
可能的值:
-
text -
image -
audio -
video -
document
响应的 MIME 类型。如果设置了 response_format,则此字段为必需字段。
上一次互动的 ID(如果有)。
service_tier ServiceTier (可选)
互动的服务层级。
可能的值:
-
flex -
standard -
priority
webhook_config WebhookConfig (可选)
可选。用于在互动完成时接收通知的网络钩子配置。
字段
可选。如果设置,这些网络钩子 URI 将用于网络钩子事件,而不是注册的网络钩子。
可选。每次向 webhook 发送事件时返回的用户元数据。
步骤 步骤 (可选)
仅限输出。构成互动的步骤。
可能的类型
多态鉴别器:type
UserInputStep
用户提供的输入内容。
没有提供说明。
一律设置为 "user_input"
content Content (optional)
没有提供说明。
可能的类型
多态鉴别器:type
TextContent
文本内容块。
没有提供说明。
一律设置为 "text"
必需。文本内容。
注释 注释 (可选)
模型生成的内容的引用信息。
可能的类型
多态鉴别器:type
UrlCitation
网址引用注释。
没有提供说明。
一律设置为 "url_citation"
网址。
相应网址的标题。
归因于相应来源的响应部分的起始位置。 索引指示段落的开始,以字节为单位衡量。
归因段落的结束,不包括此索引。
FileCitation
文件引用注释。
没有提供说明。
一律设置为 "file_citation"
文件的 URI。
相应文件的名称。
文本部分的归因来源。
用户提供的有关检索到的上下文的元数据。
所引用文档的页码(如适用)。
图片引用对应的媒体 ID(如果适用)。
归因于相应来源的响应部分的起始位置。 索引指示段落的开始,以字节为单位衡量。
归因段落的结束,不包括此索引。
PlaceCitation
地点引用注释。
没有提供说明。
一律设置为 "place_citation"
地点的 ID,格式为 `places/{place_id}`。
地点的名称。
地点的 URI 引用。
review_snippets ReviewSnippet (可选)
用于生成有关 Google 地图中指定地点的特征的回答的评价摘要。
字段
评价的标题。
与 Google 地图上的用户评价对应的链接。
评价摘要的 ID。
归因于相应来源的响应部分的起始位置。 索引指示段落的开始,以字节为单位衡量。
归因段落的结束,不包括此索引。
ImageContent
图片内容块。
没有提供说明。
一律设置为 "image"
图片内容。
图片的 URI。
图片的 MIME 类型。
可能的值:
-
image/png -
image/jpeg -
image/webp -
image/heic -
image/heif -
image/gif -
image/bmp -
image/tiff
分辨率 MediaResolution (可选)
媒体的分辨率。
可能的值:
-
low -
medium -
high -
ultra_high
AudioContent
音频内容块。
没有提供说明。
一律设置为 "audio"
音频内容。
音频的 URI。
音频的 MIME 类型。
可能的值:
-
audio/wav -
audio/mp3 -
audio/aiff -
audio/aac -
audio/ogg -
audio/flac -
audio/mpeg -
audio/m4a -
audio/l16 -
audio/opus -
audio/alaw -
audio/mulaw
音频声道数。
音频的采样率。
DocumentContent
文档内容块。
没有提供说明。
一律设置为 "document"
文档内容。
文档的 URI。
文档的 MIME 类型。
可能的值:
-
application/pdf
VideoContent
视频内容块。
没有提供说明。
一律设置为 "video"
视频内容。
视频的 URI。
视频的 MIME 类型。
可能的值:
-
video/mp4 -
video/mpeg -
video/mpg -
video/mov -
video/avi -
video/x-flv -
video/webm -
video/wmv -
video/3gpp
分辨率 MediaResolution (可选)
媒体的分辨率。
可能的值:
-
low -
medium -
high -
ultra_high
ModelOutputStep
模型生成的输出。
没有提供说明。
一律设置为 "model_output"
content Content (optional)
没有提供说明。
可能的类型
多态鉴别器:type
TextContent
文本内容块。
没有提供说明。
一律设置为 "text"
必需。文本内容。
注释 注释 (可选)
模型生成的内容的引用信息。
可能的类型
多态鉴别器:type
UrlCitation
网址引用注释。
没有提供说明。
一律设置为 "url_citation"
网址。
相应网址的标题。
归因于相应来源的响应部分的起始位置。 索引指示段落的开始,以字节为单位衡量。
归因段落的结束,不包括此索引。
FileCitation
文件引用注释。
没有提供说明。
一律设置为 "file_citation"
文件的 URI。
相应文件的名称。
文本部分的归因来源。
用户提供的有关检索到的上下文的元数据。
所引用文档的页码(如适用)。
图片引用对应的媒体 ID(如果适用)。
归因于相应来源的响应部分的起始位置。 索引指示段落的开始,以字节为单位衡量。
归因段落的结束,不包括此索引。
PlaceCitation
地点引用注释。
没有提供说明。
一律设置为 "place_citation"
地点的 ID,格式为 `places/{place_id}`。
地点的名称。
地点的 URI 引用。
review_snippets ReviewSnippet (可选)
用于生成有关 Google 地图中指定地点的特征的回答的评价摘要。
字段
评价的标题。
与 Google 地图上的用户评价对应的链接。
评价摘要的 ID。
归因于相应来源的响应部分的起始位置。 索引指示段落的开始,以字节为单位衡量。
归因段落的结束,不包括此索引。
ImageContent
图片内容块。
没有提供说明。
一律设置为 "image"
图片内容。
图片的 URI。
图片的 MIME 类型。
可能的值:
-
image/png -
image/jpeg -
image/webp -
image/heic -
image/heif -
image/gif -
image/bmp -
image/tiff
分辨率 MediaResolution (可选)
媒体的分辨率。
可能的值:
-
low -
medium -
high -
ultra_high
AudioContent
音频内容块。
没有提供说明。
一律设置为 "audio"
音频内容。
音频的 URI。
音频的 MIME 类型。
可能的值:
-
audio/wav -
audio/mp3 -
audio/aiff -
audio/aac -
audio/ogg -
audio/flac -
audio/mpeg -
audio/m4a -
audio/l16 -
audio/opus -
audio/alaw -
audio/mulaw
音频声道数。
音频的采样率。
DocumentContent
文档内容块。
没有提供说明。
一律设置为 "document"
文档内容。
文档的 URI。
文档的 MIME 类型。
可能的值:
-
application/pdf
VideoContent
视频内容块。
没有提供说明。
一律设置为 "video"
视频内容。
视频的 URI。
视频的 MIME 类型。
可能的值:
-
video/mp4 -
video/mpeg -
video/mpg -
video/mov -
video/avi -
video/x-flv -
video/webm -
video/wmv -
video/3gpp
分辨率 MediaResolution (可选)
媒体的分辨率。
可能的值:
-
low -
medium -
high -
ultra_high
ThoughtStep
思考步骤。
没有提供说明。
一律设置为 "thought"
用于后端验证的签名哈希。
总结 ThoughtSummaryContent (可选)
想法的总结。
可能的类型
多态鉴别器:type
TextContent
文本内容块。
没有提供说明。
一律设置为 "text"
必需。文本内容。
注释 注释 (可选)
模型生成的内容的引用信息。
可能的类型
多态鉴别器:type
UrlCitation
网址引用注释。
没有提供说明。
一律设置为 "url_citation"
网址。
相应网址的标题。
归因于相应来源的响应部分的起始位置。 索引指示段落的开始,以字节为单位衡量。
归因段落的结束,不包括此索引。
FileCitation
文件引用注释。
没有提供说明。
一律设置为 "file_citation"
文件的 URI。
相应文件的名称。
文本部分的归因来源。
用户提供的有关检索到的上下文的元数据。
所引用文档的页码(如适用)。
图片引用对应的媒体 ID(如果适用)。
归因于相应来源的响应部分的起始位置。 索引指示段落的开始,以字节为单位衡量。
归因段落的结束,不包括此索引。
PlaceCitation
地点引用注释。
没有提供说明。
一律设置为 "place_citation"
地点的 ID,格式为 `places/{place_id}`。
地点的名称。
地点的 URI 引用。
review_snippets ReviewSnippet (可选)
用于生成有关 Google 地图中指定地点的特征的回答的评价摘要。
字段
评价的标题。
与 Google 地图上的用户评价对应的链接。
评价摘要的 ID。
归因于相应来源的响应部分的起始位置。 索引指示段落的开始,以字节为单位衡量。
归因段落的结束,不包括此索引。
ImageContent
图片内容块。
没有提供说明。
一律设置为 "image"
图片内容。
图片的 URI。
图片的 MIME 类型。
可能的值:
-
image/png -
image/jpeg -
image/webp -
image/heic -
image/heif -
image/gif -
image/bmp -
image/tiff
分辨率 MediaResolution (可选)
媒体的分辨率。
可能的值:
-
low -
medium -
high -
ultra_high
FunctionCallStep
函数工具调用步骤。
没有提供说明。
一律设置为 "function_call"
必需。要调用的工具的名称。
必需。要传递给函数的实参。
必需。此特定工具调用的唯一 ID。
用于后端验证的签名哈希。
CodeExecutionCallStep
代码执行调用步骤。
没有提供说明。
一律设置为 "code_execution_call"
实参 CodeExecutionCallStepArguments (必需)
必需。要传递给代码执行的实参。
字段
相应 `code` 的编程语言。
可能的值:
-
python
要执行的代码。
必需。此特定工具调用的唯一 ID。
用于后端验证的签名哈希。
UrlContextCallStep
网址上下文调用步骤。
没有提供说明。
一律设置为 "url_context_call"
arguments UrlContextCallStepArguments (必需)
必需。要传递给网址上下文的实参。
字段
要提取的网址。
必需。此特定工具调用的唯一 ID。
用于后端验证的签名哈希。
McpServerToolCallStep
MCPServer 工具调用步骤。
没有提供说明。
一律设置为 "mcp_server_tool_call"
必需。被调用的工具的名称。
必需。所用 MCP 服务器的名称。
必需。函数的实参 JSON 对象。
必需。此特定工具调用的唯一 ID。
用于后端验证的签名哈希。
GoogleSearchCallStep
Google 搜索通话步骤。
没有提供说明。
一律设置为 "google_search_call"
实参 GoogleSearchCallStepArguments (必需)
必需。要传递给 Google 搜索的实参。
字段
后续网络搜索的网页搜索查询。
已启用的搜索接地类型。
可能的值:
-
web_search -
image_search -
enterprise_web_search
必需。此特定工具调用的唯一 ID。
用于后端验证的签名哈希。
FileSearchCallStep
文件搜索调用步骤。
没有提供说明。
一律设置为 "file_search_call"
必需。此特定工具调用的唯一 ID。
用于后端验证的签名哈希。
GoogleMapsCallStep
Google 地图通话步骤。
没有提供说明。
一律设置为 "google_maps_call"
arguments GoogleMapsCallStepArguments (可选)
要传递给 Google 地图工具的实参。
字段
要执行的查询。
必需。此特定工具调用的唯一 ID。
用于后端验证的签名哈希。
FunctionResultStep
函数工具调用的结果。
没有提供说明。
一律设置为 "function_result"
所调用工具的名称。
工具调用是否导致了错误。
必需。用于与函数调用块中的 ID 相匹配的 ID。
用于后端验证的签名哈希。
工具调用的结果。
CodeExecutionResultStep
代码执行结果步骤。
没有提供说明。
一律设置为 "code_execution_result"
必需。代码执行的输出。
代码执行是否导致了错误。
必需。用于与函数调用块中的 ID 相匹配的 ID。
用于后端验证的签名哈希。
UrlContextResultStep
网址上下文结果步骤。
没有提供说明。
一律设置为 "url_context_result"
result UrlContextResultItem (必需)
必需。网址上下文的结果。
字段
提取的网址。
网址检索的状态。
可能的值:
-
success -
error -
paywall -
unsafe
网址上下文是否导致了错误。
必需。用于与函数调用块中的 ID 相匹配的 ID。
用于后端验证的签名哈希。
GoogleSearchResultStep
Google 搜索结果步骤。
没有提供说明。
一律设置为 "google_search_result"
result GoogleSearchResultItem (必需)
必需。Google 搜索的结果。
字段
可嵌入网页或应用 WebView 中的 Web 内容代码段。
Google 搜索是否导致了错误。
必需。用于与函数调用块中的 ID 相匹配的 ID。
用于后端验证的签名哈希。
McpServerToolResultStep
MCPServer 工具结果步骤。
没有提供说明。
一律设置为 "mcp_server_tool_result"
针对此特定工具调用而调用的工具的名称。
所用 MCP 服务器的名称。
必需。用于与函数调用块中的 ID 相匹配的 ID。
用于后端验证的签名哈希。
MCP 服务器调用的输出。可以是纯文本,也可以是富媒体内容。
FileSearchResultStep
文件搜索结果步骤。
没有提供说明。
一律设置为 "file_search_result"
必需。用于与函数调用块中的 ID 相匹配的 ID。
用于后端验证的签名哈希。
GoogleMapsResultStep
Google 地图结果步骤。
没有提供说明。
一律设置为 "google_maps_result"
result GoogleMapsResultItem (必需)
没有提供说明。
字段
places GoogleMapsResultPlaces (可选)
没有提供说明。
字段
没有提供说明。
没有提供说明。
没有提供说明。
review_snippets ReviewSnippet (可选)
没有提供说明。
字段
评价的标题。
与 Google 地图上的用户评价对应的链接。
评价摘要的 ID。
没有提供说明。
必需。用于与函数调用块中的 ID 相匹配的 ID。
用于后端验证的签名哈希。
互动的输入。
强制要求生成的回答是符合此字段中指定的 JSON 架构的 JSON 对象。
agent_config object (可选)
代理互动的配置参数。
可能的类型
多态鉴别器:type
DynamicAgentConfig
动态代理的配置。
没有提供说明。
一律设置为 "dynamic"
DeepResearchAgentConfig
Deep Research 代理的配置。
没有提供说明。
一律设置为 "deep-research"
thinking_summaries ThinkingSummaries (可选)
是否在回答中包含思路总结。
可能的值:
-
auto -
none
是否在回答中包含可视化图表。
可能的值:
-
off -
auto
为 Deep Research 智能体启用人机协同规划。如果设置为 true,Deep Research 智能体将在其回答中提供研究计划。然后,只有在用户在下一轮对话中确认方案后,代理才会继续。
用于从相应事件恢复互动流的 event_id 令牌。
InteractionCompletedEvent
没有提供说明。
一律设置为 "interaction.completed"
互动 互动 (必需)
必需。已完成的互动,输出为空,以减小载荷大小。 使用前面的 ContentDelta 事件作为实际输出。
字段
model ModelOption (可选)
用于生成互动的 `Model` 的名称。
可能的值:
-
gemini-2.5-computer-use-preview-10-2025一种智能体功能模型,专为直接界面互动而设计,可让 Gemini 感知和浏览数字环境。
-
gemini-2.5-flash我们的首款混合推理模型,支持 100 万个 token 的上下文窗口,并具有思考预算。
-
gemini-2.5-flash-image我们的原生图片生成模型,在速度、灵活性和上下文理解方面经过优化。文本输入和输出的价格与 2.5 Flash 相同。
-
gemini-2.5-flash-liteGoogle 旗下最小巧且最具成本效益的模型,专为大规模使用而打造。
-
gemini-2.5-flash-lite-preview-09-2025基于 Gemini 2.5 Flash Lite 的最新模型,经过优化,可实现高成本效益、高吞吐量和高质量。
-
gemini-2.5-flash-native-audio-preview-12-2025我们的原生音频模型经过优化,可提供更高质量的音频输出,并能更好地控制语速、声音自然度、表达详略和情绪。
-
gemini-2.5-flash-preview-09-2025基于 2.5 Flash 模型的最新模型。2.5 Flash 预览版最适合大规模处理、低延迟时间、需要思考的高数据量任务以及智能体应用场景。
-
gemini-2.5-flash-preview-tts我们的 2.5 Flash 文字转语音模型经过优化,可生成强大的低延迟可控语音。
-
gemini-2.5-proGoogle 旗下先进的多用途模型,擅长处理编码和复杂的推理任务。
-
gemini-2.5-pro-preview-tts我们的 2.5 Pro 文字转语音音频模型经过优化,可实现强大的低延迟语音生成,从而提供更自然的输出,并更轻松地引导提示。
-
gemini-3-flash-preview我们打造的最智能的模型,专为速度而生,将前沿智能技术与出色的搜索和事实依据能力相结合。
-
gemini-3-pro-image-preview先进的图片生成和编辑模型。
-
gemini-3-pro-preview我们最智能的模型,具有前沿的推理和多模态理解能力,以及强大的智能体和氛围编程 (vibe coding) 功能。
-
gemini-3.1-pro-preview我们最新的 SOTA 推理模型,具有前所未有的深度和细致度,以及强大的多模态理解和编码能力。
-
gemini-3.1-flash-image-preview专业级视觉智能,兼具 Flash 速度的效率和贴近现实的生成能力。
-
gemini-3.1-flash-lite-previewGoogle 旗下最具成本效益的模型,针对高容量智能体任务、翻译和简单的数据处理进行了优化。
-
gemini-3.1-flash-tts-previewGemini 3.1 Flash TTS:功能强大,可生成低延迟的语音。享受自然流畅的输出、可控的提示,以及用于精准控制旁白的新颖的表达性音频标记。
-
lyria-3-clip-preview我们的低延迟音乐创作模型经过优化,可生成高保真音频片段并实现精准的节奏控制。
-
lyria-3-pro-preview我们先进的全歌曲生成模型,具有深厚的作曲理解能力,经过优化,可实现精准的结构控制,并在各种音乐风格之间实现复杂的过渡。
agent AgentOption (可选)
用于生成互动的“代理”的名称。
可能的值:
-
deep-research-pro-preview-12-2025Gemini Deep Research Agent
-
deep-research-preview-04-2026Gemini Deep Research Agent
-
deep-research-max-preview-04-2026Gemini Deep Research Max Agent
必需。仅限输出。互动完成的唯一标识符。
必需。仅限输出。互动的状态。
可能的值:
-
in_progress -
requires_action -
completed -
failed -
cancelled -
incomplete
必需。仅限输出。回答的创建时间,采用 ISO 8601 格式 (YYYY-MM-DDThh:mm:ssZ)。
必需。仅限输出。回答的上次更新时间,采用 ISO 8601 格式 (YYYY-MM-DDThh:mm:ssZ)。
仅限输出。互动的角色。
互动的系统指令。
工具 工具 (可选)
模型在互动期间可能会调用的工具声明列表。
可能的类型
多态鉴别器:type
函数
可供模型使用的工具。
没有提供说明。
一律设置为 "function"
函数的名称。
函数的说明。
函数的参数的 JSON 架构。
CodeExecution
一种可供模型用来执行代码的工具。
没有提供说明。
一律设置为 "code_execution"
UrlContext
一种可供模型用来提取网址上下文的工具。
没有提供说明。
一律设置为 "url_context"
ComputerUse
一种可供模型用于与计算机互动的工具。
没有提供说明。
一律设置为 "computer_use"
正在运行的环境。
可能的值:
-
browser
从模型调用中排除的预定义函数列表。
McpServer
MCPServer 是一种可供模型调用以执行操作的服务器。
没有提供说明。
一律设置为 "mcp_server"
MCPServer 的名称。
MCPServer 端点的完整网址。 示例:“https://api.example.com/mcp”
可选:身份验证标头、超时等字段(如果需要)。
allowed_tools AllowedTools (可选)
允许使用的工具。
字段
mode ToolChoiceType (可选)
工具选择的模式。
可能的值:
-
auto -
any -
none -
validated
允许使用的工具的名称。
GoogleSearch
模型可用于搜索 Google 的工具。
没有提供说明。
一律设置为 "google_search"
要启用的搜索接地类型。
可能的值:
-
web_search -
image_search -
enterprise_web_search
FileSearch
一种可供模型用来搜索文件的工具。
没有提供说明。
一律设置为 "file_search"
要搜索的文件搜索存储区名称。
要检索的语义检索块数量。
要应用于语义检索文档和块的元数据过滤条件。
GoogleMaps
一种可供模型用来调用 Google 地图的工具。
没有提供说明。
一律设置为 "google_maps"
是否在响应的工具调用结果中返回 widget 上下文令牌。
用户所在位置的纬度。
用户所在位置的经度。
检索
一种可供模型用来检索文件的工具。
没有提供说明。
一律设置为 "retrieval"
要启用的文件检索类型。
可能的值:
-
vertex_ai_search
vertex_ai_search_config VertexAISearchConfig (可选)
用于指定 VertexAISearch 的配置。
字段
可选。用于指定 Vertex AI Search 引擎。
可选。用于指定 Vertex AI Search 数据存储区。
用法 用法 (可选)
仅限输出。互动请求的令牌使用情况统计信息。
字段
提示(上下文)中的 token 数量。
input_tokens_by_modality ModalityTokens (可选)
按模态划分的输入令牌用量细分。
字段
modality ResponseModality (可选)
与令牌数量关联的模态。
可能的值:
-
text -
image -
audio -
video -
document
模态的令牌数量。
提示的缓存部分(即缓存的内容)中的 token 数量。
cached_tokens_by_modality ModalityTokens (可选)
按模态划分的缓存令牌使用情况细分。
字段
modality ResponseModality (可选)
与令牌数量关联的模态。
可能的值:
-
text -
image -
audio -
video -
document
模态的令牌数量。
所有生成的回答中的 token 总数。
output_tokens_by_modality ModalityTokens (可选)
按模态划分的输出 token 用量细分。
字段
modality ResponseModality (可选)
与令牌数量关联的模态。
可能的值:
-
text -
image -
audio -
video -
document
模态的令牌数量。
工具使用提示中的 token 数量。
tool_use_tokens_by_modality ModalityTokens (可选)
按模态划分的工具使用情况令牌用量细分。
字段
modality ResponseModality (可选)
与令牌数量关联的模态。
可能的值:
-
text -
image -
audio -
video -
document
模态的令牌数量。
思考模型的思考 token 数。
互动请求(提示 + 回答 + 其他内部 token)的总 token 数。
grounding_tool_count GroundingToolCount (可选)
接地工具数量。
字段
与相应数量关联的依据工具类型。
可能的值:
-
google_search -
google_maps -
retrieval
接地工具数量。
response_modalities ResponseModality (可选)
响应的请求模态(TEXT、IMAGE、AUDIO)。
可能的值:
-
text -
image -
audio -
video -
document
响应的 MIME 类型。如果设置了 response_format,则此字段为必需字段。
上一次互动的 ID(如果有)。
service_tier ServiceTier (可选)
互动的服务层级。
可能的值:
-
flex -
standard -
priority
webhook_config WebhookConfig (可选)
可选。用于在互动完成时接收通知的网络钩子配置。
字段
可选。如果设置,这些网络钩子 URI 将用于网络钩子事件,而不是注册的网络钩子。
可选。每次向 webhook 发送事件时返回的用户元数据。
步骤 步骤 (可选)
仅限输出。构成互动的步骤。
可能的类型
多态鉴别器:type
UserInputStep
用户提供的输入内容。
没有提供说明。
一律设置为 "user_input"
content Content (optional)
没有提供说明。
可能的类型
多态鉴别器:type
TextContent
文本内容块。
没有提供说明。
一律设置为 "text"
必需。文本内容。
注释 注释 (可选)
模型生成的内容的引用信息。
可能的类型
多态鉴别器:type
UrlCitation
网址引用注释。
没有提供说明。
一律设置为 "url_citation"
网址。
相应网址的标题。
归因于相应来源的响应部分的起始位置。 索引指示段落的开始,以字节为单位衡量。
归因段落的结束,不包括此索引。
FileCitation
文件引用注释。
没有提供说明。
一律设置为 "file_citation"
文件的 URI。
相应文件的名称。
文本部分的归因来源。
用户提供的有关检索到的上下文的元数据。
所引用文档的页码(如适用)。
图片引用对应的媒体 ID(如果适用)。
归因于相应来源的响应部分的起始位置。 索引指示段落的开始,以字节为单位衡量。
归因段落的结束,不包括此索引。
PlaceCitation
地点引用注释。
没有提供说明。
一律设置为 "place_citation"
地点的 ID,格式为 `places/{place_id}`。
地点的名称。
地点的 URI 引用。
review_snippets ReviewSnippet (可选)
用于生成有关 Google 地图中指定地点的特征的回答的评价摘要。
字段
评价的标题。
与 Google 地图上的用户评价对应的链接。
评价摘要的 ID。
归因于相应来源的响应部分的起始位置。 索引指示段落的开始,以字节为单位衡量。
归因段落的结束,不包括此索引。
ImageContent
图片内容块。
没有提供说明。
一律设置为 "image"
图片内容。
图片的 URI。
图片的 MIME 类型。
可能的值:
-
image/png -
image/jpeg -
image/webp -
image/heic -
image/heif -
image/gif -
image/bmp -
image/tiff
分辨率 MediaResolution (可选)
媒体的分辨率。
可能的值:
-
low -
medium -
high -
ultra_high
AudioContent
音频内容块。
没有提供说明。
一律设置为 "audio"
音频内容。
音频的 URI。
音频的 MIME 类型。
可能的值:
-
audio/wav -
audio/mp3 -
audio/aiff -
audio/aac -
audio/ogg -
audio/flac -
audio/mpeg -
audio/m4a -
audio/l16 -
audio/opus -
audio/alaw -
audio/mulaw
音频声道数。
音频的采样率。
DocumentContent
文档内容块。
没有提供说明。
一律设置为 "document"
文档内容。
文档的 URI。
文档的 MIME 类型。
可能的值:
-
application/pdf
VideoContent
视频内容块。
没有提供说明。
一律设置为 "video"
视频内容。
视频的 URI。
视频的 MIME 类型。
可能的值:
-
video/mp4 -
video/mpeg -
video/mpg -
video/mov -
video/avi -
video/x-flv -
video/webm -
video/wmv -
video/3gpp
分辨率 MediaResolution (可选)
媒体的分辨率。
可能的值:
-
low -
medium -
high -
ultra_high
ModelOutputStep
模型生成的输出。
没有提供说明。
一律设置为 "model_output"
content Content (optional)
没有提供说明。
可能的类型
多态鉴别器:type
TextContent
文本内容块。
没有提供说明。
一律设置为 "text"
必需。文本内容。
注释 注释 (可选)
模型生成的内容的引用信息。
可能的类型
多态鉴别器:type
UrlCitation
网址引用注释。
没有提供说明。
一律设置为 "url_citation"
网址。
相应网址的标题。
归因于相应来源的响应部分的起始位置。 索引指示段落的开始,以字节为单位衡量。
归因段落的结束,不包括此索引。
FileCitation
文件引用注释。
没有提供说明。
一律设置为 "file_citation"
文件的 URI。
相应文件的名称。
文本部分的归因来源。
用户提供的有关检索到的上下文的元数据。
所引用文档的页码(如适用)。
图片引用对应的媒体 ID(如果适用)。
归因于相应来源的响应部分的起始位置。 索引指示段落的开始,以字节为单位衡量。
归因段落的结束,不包括此索引。
PlaceCitation
地点引用注释。
没有提供说明。
一律设置为 "place_citation"
地点的 ID,格式为 `places/{place_id}`。
地点的名称。
地点的 URI 引用。
review_snippets ReviewSnippet (可选)
用于生成有关 Google 地图中指定地点的特征的回答的评价摘要。
字段
评价的标题。
与 Google 地图上的用户评价对应的链接。
评价摘要的 ID。
归因于相应来源的响应部分的起始位置。 索引指示段落的开始,以字节为单位衡量。
归因段落的结束,不包括此索引。
ImageContent
图片内容块。
没有提供说明。
一律设置为 "image"
图片内容。
图片的 URI。
图片的 MIME 类型。
可能的值:
-
image/png -
image/jpeg -
image/webp -
image/heic -
image/heif -
image/gif -
image/bmp -
image/tiff
分辨率 MediaResolution (可选)
媒体的分辨率。
可能的值:
-
low -
medium -
high -
ultra_high
AudioContent
音频内容块。
没有提供说明。
一律设置为 "audio"
音频内容。
音频的 URI。
音频的 MIME 类型。
可能的值:
-
audio/wav -
audio/mp3 -
audio/aiff -
audio/aac -
audio/ogg -
audio/flac -
audio/mpeg -
audio/m4a -
audio/l16 -
audio/opus -
audio/alaw -
audio/mulaw
音频声道数。
音频的采样率。
DocumentContent
文档内容块。
没有提供说明。
一律设置为 "document"
文档内容。
文档的 URI。
文档的 MIME 类型。
可能的值:
-
application/pdf
VideoContent
视频内容块。
没有提供说明。
一律设置为 "video"
视频内容。
视频的 URI。
视频的 MIME 类型。
可能的值:
-
video/mp4 -
video/mpeg -
video/mpg -
video/mov -
video/avi -
video/x-flv -
video/webm -
video/wmv -
video/3gpp
分辨率 MediaResolution (可选)
媒体的分辨率。
可能的值:
-
low -
medium -
high -
ultra_high
ThoughtStep
思考步骤。
没有提供说明。
一律设置为 "thought"
用于后端验证的签名哈希。
总结 ThoughtSummaryContent (可选)
想法的总结。
可能的类型
多态鉴别器:type
TextContent
文本内容块。
没有提供说明。
一律设置为 "text"
必需。文本内容。
注释 注释 (可选)
模型生成的内容的引用信息。
可能的类型
多态鉴别器:type
UrlCitation
网址引用注释。
没有提供说明。
一律设置为 "url_citation"
网址。
相应网址的标题。
归因于相应来源的响应部分的起始位置。 索引指示段落的开始,以字节为单位衡量。
归因段落的结束,不包括此索引。
FileCitation
文件引用注释。
没有提供说明。
一律设置为 "file_citation"
文件的 URI。
相应文件的名称。
文本部分的归因来源。
用户提供的有关检索到的上下文的元数据。
所引用文档的页码(如适用)。
图片引用对应的媒体 ID(如果适用)。
归因于相应来源的响应部分的起始位置。 索引指示段落的开始,以字节为单位衡量。
归因段落的结束,不包括此索引。
PlaceCitation
地点引用注释。
没有提供说明。
一律设置为 "place_citation"
地点的 ID,格式为 `places/{place_id}`。
地点的名称。
地点的 URI 引用。
review_snippets ReviewSnippet (可选)
用于生成有关 Google 地图中指定地点的特征的回答的评价摘要。
字段
评价的标题。
与 Google 地图上的用户评价对应的链接。
评价摘要的 ID。
归因于相应来源的响应部分的起始位置。 索引指示段落的开始,以字节为单位衡量。
归因段落的结束,不包括此索引。
ImageContent
图片内容块。
没有提供说明。
一律设置为 "image"
图片内容。
图片的 URI。
图片的 MIME 类型。
可能的值:
-
image/png -
image/jpeg -
image/webp -
image/heic -
image/heif -
image/gif -
image/bmp -
image/tiff
分辨率 MediaResolution (可选)
媒体的分辨率。
可能的值:
-
low -
medium -
high -
ultra_high
FunctionCallStep
函数工具调用步骤。
没有提供说明。
一律设置为 "function_call"
必需。要调用的工具的名称。
必需。要传递给函数的实参。
必需。此特定工具调用的唯一 ID。
用于后端验证的签名哈希。
CodeExecutionCallStep
代码执行调用步骤。
没有提供说明。
一律设置为 "code_execution_call"
实参 CodeExecutionCallStepArguments (必需)
必需。要传递给代码执行的实参。
字段
相应 `code` 的编程语言。
可能的值:
-
python
要执行的代码。
必需。此特定工具调用的唯一 ID。
用于后端验证的签名哈希。
UrlContextCallStep
网址上下文调用步骤。
没有提供说明。
一律设置为 "url_context_call"
arguments UrlContextCallStepArguments (必需)
必需。要传递给网址上下文的实参。
字段
要提取的网址。
必需。此特定工具调用的唯一 ID。
用于后端验证的签名哈希。
McpServerToolCallStep
MCPServer 工具调用步骤。
没有提供说明。
一律设置为 "mcp_server_tool_call"
必需。被调用的工具的名称。
必需。所用 MCP 服务器的名称。
必需。函数的实参 JSON 对象。
必需。此特定工具调用的唯一 ID。
用于后端验证的签名哈希。
GoogleSearchCallStep
Google 搜索通话步骤。
没有提供说明。
一律设置为 "google_search_call"
实参 GoogleSearchCallStepArguments (必需)
必需。要传递给 Google 搜索的实参。
字段
后续网络搜索的网页搜索查询。
已启用的搜索接地类型。
可能的值:
-
web_search -
image_search -
enterprise_web_search
必需。此特定工具调用的唯一 ID。
用于后端验证的签名哈希。
FileSearchCallStep
文件搜索调用步骤。
没有提供说明。
一律设置为 "file_search_call"
必需。此特定工具调用的唯一 ID。
用于后端验证的签名哈希。
GoogleMapsCallStep
Google 地图通话步骤。
没有提供说明。
一律设置为 "google_maps_call"
arguments GoogleMapsCallStepArguments (可选)
要传递给 Google 地图工具的实参。
字段
要执行的查询。
必需。此特定工具调用的唯一 ID。
用于后端验证的签名哈希。
FunctionResultStep
函数工具调用的结果。
没有提供说明。
一律设置为 "function_result"
所调用工具的名称。
工具调用是否导致了错误。
必需。用于与函数调用块中的 ID 相匹配的 ID。
用于后端验证的签名哈希。
工具调用的结果。
CodeExecutionResultStep
代码执行结果步骤。
没有提供说明。
一律设置为 "code_execution_result"
必需。代码执行的输出。
代码执行是否导致了错误。
必需。用于与函数调用块中的 ID 相匹配的 ID。
用于后端验证的签名哈希。
UrlContextResultStep
网址上下文结果步骤。
没有提供说明。
一律设置为 "url_context_result"
result UrlContextResultItem (必需)
必需。网址上下文的结果。
字段
提取的网址。
网址检索的状态。
可能的值:
-
success -
error -
paywall -
unsafe
网址上下文是否导致了错误。
必需。用于与函数调用块中的 ID 相匹配的 ID。
用于后端验证的签名哈希。
GoogleSearchResultStep
Google 搜索结果步骤。
没有提供说明。
一律设置为 "google_search_result"
result GoogleSearchResultItem (必需)
必需。Google 搜索的结果。
字段
可嵌入网页或应用 WebView 中的 Web 内容代码段。
Google 搜索是否导致了错误。
必需。用于与函数调用块中的 ID 相匹配的 ID。
用于后端验证的签名哈希。
McpServerToolResultStep
MCPServer 工具结果步骤。
没有提供说明。
一律设置为 "mcp_server_tool_result"
针对此特定工具调用而调用的工具的名称。
所用 MCP 服务器的名称。
必需。用于与函数调用块中的 ID 相匹配的 ID。
用于后端验证的签名哈希。
MCP 服务器调用的输出。可以是纯文本,也可以是富媒体内容。
FileSearchResultStep
文件搜索结果步骤。
没有提供说明。
一律设置为 "file_search_result"
必需。用于与函数调用块中的 ID 相匹配的 ID。
用于后端验证的签名哈希。
GoogleMapsResultStep
Google 地图结果步骤。
没有提供说明。
一律设置为 "google_maps_result"
result GoogleMapsResultItem (必需)
没有提供说明。
字段
places GoogleMapsResultPlaces (可选)
没有提供说明。
字段
没有提供说明。
没有提供说明。
没有提供说明。
review_snippets ReviewSnippet (可选)
没有提供说明。
字段
评价的标题。
与 Google 地图上的用户评价对应的链接。
评价摘要的 ID。
没有提供说明。
必需。用于与函数调用块中的 ID 相匹配的 ID。
用于后端验证的签名哈希。
互动的输入。
强制要求生成的回答是符合此字段中指定的 JSON 架构的 JSON 对象。
agent_config object (可选)
代理互动的配置参数。
可能的类型
多态鉴别器:type
DynamicAgentConfig
动态代理的配置。
没有提供说明。
一律设置为 "dynamic"
DeepResearchAgentConfig
Deep Research 代理的配置。
没有提供说明。
一律设置为 "deep-research"
thinking_summaries ThinkingSummaries (可选)
是否在回答中包含思路总结。
可能的值:
-
auto -
none
是否在回答中包含可视化图表。
可能的值:
-
off -
auto
为 Deep Research 智能体启用人机协同规划。如果设置为 true,Deep Research 智能体将在其回答中提供研究计划。然后,只有在用户在下一轮对话中确认方案后,代理才会继续。
用于从相应事件恢复互动流的 event_id 令牌。
InteractionStatusUpdate
没有提供说明。
一律设置为 "interaction.status_update"
没有提供说明。
没有提供说明。
可能的值:
-
in_progress -
requires_action -
completed -
failed -
cancelled -
incomplete
用于从相应事件恢复互动流的 event_id 令牌。
ErrorEvent
没有提供说明。
一律设置为 "error"
error Error (optional)
没有提供说明。
字段
用于标识错误类型的 URI。
人类可读的错误消息。
用于从相应事件恢复互动流的 event_id 令牌。
StepStart
没有提供说明。
一律设置为 "step.start"
没有提供说明。
step Step (必需)
没有提供说明。
可能的类型
多态鉴别器:type
UserInputStep
用户提供的输入内容。
没有提供说明。
一律设置为 "user_input"
content Content (optional)
没有提供说明。
可能的类型
多态鉴别器:type
TextContent
文本内容块。
没有提供说明。
一律设置为 "text"
必需。文本内容。
注释 注释 (可选)
模型生成的内容的引用信息。
可能的类型
多态鉴别器:type
UrlCitation
网址引用注释。
没有提供说明。
一律设置为 "url_citation"
网址。
相应网址的标题。
归因于相应来源的响应部分的起始位置。 索引指示段落的开始,以字节为单位衡量。
归因段落的结束,不包括此索引。
FileCitation
文件引用注释。
没有提供说明。
一律设置为 "file_citation"
文件的 URI。
相应文件的名称。
文本部分的归因来源。
用户提供的有关检索到的上下文的元数据。
所引用文档的页码(如适用)。
图片引用对应的媒体 ID(如果适用)。
归因于相应来源的响应部分的起始位置。 索引指示段落的开始,以字节为单位衡量。
归因段落的结束,不包括此索引。
PlaceCitation
地点引用注释。
没有提供说明。
一律设置为 "place_citation"
地点的 ID,格式为 `places/{place_id}`。
地点的名称。
地点的 URI 引用。
review_snippets ReviewSnippet (可选)
用于生成有关 Google 地图中指定地点的特征的回答的评价摘要。
字段
评价的标题。
与 Google 地图上的用户评价对应的链接。
评价摘要的 ID。
归因于相应来源的响应部分的起始位置。 索引指示段落的开始,以字节为单位衡量。
归因段落的结束,不包括此索引。
ImageContent
图片内容块。
没有提供说明。
一律设置为 "image"
图片内容。
图片的 URI。
图片的 MIME 类型。
可能的值:
-
image/png -
image/jpeg -
image/webp -
image/heic -
image/heif -
image/gif -
image/bmp -
image/tiff
分辨率 MediaResolution (可选)
媒体的分辨率。
可能的值:
-
low -
medium -
high -
ultra_high
AudioContent
音频内容块。
没有提供说明。
一律设置为 "audio"
音频内容。
音频的 URI。
音频的 MIME 类型。
可能的值:
-
audio/wav -
audio/mp3 -
audio/aiff -
audio/aac -
audio/ogg -
audio/flac -
audio/mpeg -
audio/m4a -
audio/l16 -
audio/opus -
audio/alaw -
audio/mulaw
音频声道数。
音频的采样率。
DocumentContent
文档内容块。
没有提供说明。
一律设置为 "document"
文档内容。
文档的 URI。
文档的 MIME 类型。
可能的值:
-
application/pdf
VideoContent
视频内容块。
没有提供说明。
一律设置为 "video"
视频内容。
视频的 URI。
视频的 MIME 类型。
可能的值:
-
video/mp4 -
video/mpeg -
video/mpg -
video/mov -
video/avi -
video/x-flv -
video/webm -
video/wmv -
video/3gpp
分辨率 MediaResolution (可选)
媒体的分辨率。
可能的值:
-
low -
medium -
high -
ultra_high
ModelOutputStep
模型生成的输出。
没有提供说明。
一律设置为 "model_output"
content Content (optional)
没有提供说明。
可能的类型
多态鉴别器:type
TextContent
文本内容块。
没有提供说明。
一律设置为 "text"
必需。文本内容。
注释 注释 (可选)
模型生成的内容的引用信息。
可能的类型
多态鉴别器:type
UrlCitation
网址引用注释。
没有提供说明。
一律设置为 "url_citation"
网址。
相应网址的标题。
归因于相应来源的响应部分的起始位置。 索引指示段落的开始,以字节为单位衡量。
归因段落的结束,不包括此索引。
FileCitation
文件引用注释。
没有提供说明。
一律设置为 "file_citation"
文件的 URI。
相应文件的名称。
文本部分的归因来源。
用户提供的有关检索到的上下文的元数据。
所引用文档的页码(如适用)。
图片引用对应的媒体 ID(如果适用)。
归因于相应来源的响应部分的起始位置。 索引指示段落的开始,以字节为单位衡量。
归因段落的结束,不包括此索引。
PlaceCitation
地点引用注释。
没有提供说明。
一律设置为 "place_citation"
地点的 ID,格式为 `places/{place_id}`。
地点的名称。
地点的 URI 引用。
review_snippets ReviewSnippet (可选)
用于生成有关 Google 地图中指定地点的特征的回答的评价摘要。
字段
评价的标题。
与 Google 地图上的用户评价对应的链接。
评价摘要的 ID。
归因于相应来源的响应部分的起始位置。 索引指示段落的开始,以字节为单位衡量。
归因段落的结束,不包括此索引。
ImageContent
图片内容块。
没有提供说明。
一律设置为 "image"
图片内容。
图片的 URI。
图片的 MIME 类型。
可能的值:
-
image/png -
image/jpeg -
image/webp -
image/heic -
image/heif -
image/gif -
image/bmp -
image/tiff
分辨率 MediaResolution (可选)
媒体的分辨率。
可能的值:
-
low -
medium -
high -
ultra_high
AudioContent
音频内容块。
没有提供说明。
一律设置为 "audio"
音频内容。
音频的 URI。
音频的 MIME 类型。
可能的值:
-
audio/wav -
audio/mp3 -
audio/aiff -
audio/aac -
audio/ogg -
audio/flac -
audio/mpeg -
audio/m4a -
audio/l16 -
audio/opus -
audio/alaw -
audio/mulaw
音频声道数。
音频的采样率。
DocumentContent
文档内容块。
没有提供说明。
一律设置为 "document"
文档内容。
文档的 URI。
文档的 MIME 类型。
可能的值:
-
application/pdf
VideoContent
视频内容块。
没有提供说明。
一律设置为 "video"
视频内容。
视频的 URI。
视频的 MIME 类型。
可能的值:
-
video/mp4 -
video/mpeg -
video/mpg -
video/mov -
video/avi -
video/x-flv -
video/webm -
video/wmv -
video/3gpp
分辨率 MediaResolution (可选)
媒体的分辨率。
可能的值:
-
low -
medium -
high -
ultra_high
ThoughtStep
思考步骤。
没有提供说明。
一律设置为 "thought"
用于后端验证的签名哈希。
总结 ThoughtSummaryContent (可选)
想法的总结。
可能的类型
多态鉴别器:type
TextContent
文本内容块。
没有提供说明。
一律设置为 "text"
必需。文本内容。
注释 注释 (可选)
模型生成的内容的引用信息。
可能的类型
多态鉴别器:type
UrlCitation
网址引用注释。
没有提供说明。
一律设置为 "url_citation"
网址。
相应网址的标题。
归因于相应来源的响应部分的起始位置。 索引指示段落的开始,以字节为单位衡量。
归因段落的结束,不包括此索引。
FileCitation
文件引用注释。
没有提供说明。
一律设置为 "file_citation"
文件的 URI。
相应文件的名称。
文本部分的归因来源。
用户提供的有关检索到的上下文的元数据。
所引用文档的页码(如适用)。
图片引用对应的媒体 ID(如果适用)。
归因于相应来源的响应部分的起始位置。 索引指示段落的开始,以字节为单位衡量。
归因段落的结束,不包括此索引。
PlaceCitation
地点引用注释。
没有提供说明。
一律设置为 "place_citation"
地点的 ID,格式为 `places/{place_id}`。
地点的名称。
地点的 URI 引用。
review_snippets ReviewSnippet (可选)
用于生成有关 Google 地图中指定地点的特征的回答的评价摘要。
字段
评价的标题。
与 Google 地图上的用户评价对应的链接。
评价摘要的 ID。
归因于相应来源的响应部分的起始位置。 索引指示段落的开始,以字节为单位衡量。
归因段落的结束,不包括此索引。
ImageContent
图片内容块。
没有提供说明。
一律设置为 "image"
图片内容。
图片的 URI。
图片的 MIME 类型。
可能的值:
-
image/png -
image/jpeg -
image/webp -
image/heic -
image/heif -
image/gif -
image/bmp -
image/tiff
分辨率 MediaResolution (可选)
媒体的分辨率。
可能的值:
-
low -
medium -
high -
ultra_high
FunctionCallStep
函数工具调用步骤。
没有提供说明。
一律设置为 "function_call"
必需。要调用的工具的名称。
必需。要传递给函数的实参。
必需。此特定工具调用的唯一 ID。
用于后端验证的签名哈希。
CodeExecutionCallStep
代码执行调用步骤。
没有提供说明。
一律设置为 "code_execution_call"
实参 CodeExecutionCallStepArguments (必需)
必需。要传递给代码执行的实参。
字段
相应 `code` 的编程语言。
可能的值:
-
python
要执行的代码。
必需。此特定工具调用的唯一 ID。
用于后端验证的签名哈希。
UrlContextCallStep
网址上下文调用步骤。
没有提供说明。
一律设置为 "url_context_call"
arguments UrlContextCallStepArguments (必需)
必需。要传递给网址上下文的实参。
字段
要提取的网址。
必需。此特定工具调用的唯一 ID。
用于后端验证的签名哈希。
McpServerToolCallStep
MCPServer 工具调用步骤。
没有提供说明。
一律设置为 "mcp_server_tool_call"
必需。被调用的工具的名称。
必需。所用 MCP 服务器的名称。
必需。函数的实参 JSON 对象。
必需。此特定工具调用的唯一 ID。
用于后端验证的签名哈希。
GoogleSearchCallStep
Google 搜索通话步骤。
没有提供说明。
一律设置为 "google_search_call"
实参 GoogleSearchCallStepArguments (必需)
必需。要传递给 Google 搜索的实参。
字段
后续网络搜索的网页搜索查询。
已启用的搜索接地类型。
可能的值:
-
web_search -
image_search -
enterprise_web_search
必需。此特定工具调用的唯一 ID。
用于后端验证的签名哈希。
FileSearchCallStep
文件搜索调用步骤。
没有提供说明。
一律设置为 "file_search_call"
必需。此特定工具调用的唯一 ID。
用于后端验证的签名哈希。
GoogleMapsCallStep
Google 地图通话步骤。
没有提供说明。
一律设置为 "google_maps_call"
arguments GoogleMapsCallStepArguments (可选)
要传递给 Google 地图工具的实参。
字段
要执行的查询。
必需。此特定工具调用的唯一 ID。
用于后端验证的签名哈希。
FunctionResultStep
函数工具调用的结果。
没有提供说明。
一律设置为 "function_result"
所调用工具的名称。
工具调用是否导致了错误。
必需。用于与函数调用块中的 ID 相匹配的 ID。
用于后端验证的签名哈希。
工具调用的结果。
CodeExecutionResultStep
代码执行结果步骤。
没有提供说明。
一律设置为 "code_execution_result"
必需。代码执行的输出。
代码执行是否导致了错误。
必需。用于与函数调用块中的 ID 相匹配的 ID。
用于后端验证的签名哈希。
UrlContextResultStep
网址上下文结果步骤。
没有提供说明。
一律设置为 "url_context_result"
result UrlContextResultItem (必需)
必需。网址上下文的结果。
字段
提取的网址。
网址检索的状态。
可能的值:
-
success -
error -
paywall -
unsafe
网址上下文是否导致了错误。
必需。用于与函数调用块中的 ID 相匹配的 ID。
用于后端验证的签名哈希。
GoogleSearchResultStep
Google 搜索结果步骤。
没有提供说明。
一律设置为 "google_search_result"
result GoogleSearchResultItem (必需)
必需。Google 搜索的结果。
字段
可嵌入网页或应用 WebView 中的 Web 内容代码段。
Google 搜索是否导致了错误。
必需。用于与函数调用块中的 ID 相匹配的 ID。
用于后端验证的签名哈希。
McpServerToolResultStep
MCPServer 工具结果步骤。
没有提供说明。
一律设置为 "mcp_server_tool_result"
针对此特定工具调用而调用的工具的名称。
所用 MCP 服务器的名称。
必需。用于与函数调用块中的 ID 相匹配的 ID。
用于后端验证的签名哈希。
MCP 服务器调用的输出。可以是纯文本,也可以是富媒体内容。
FileSearchResultStep
文件搜索结果步骤。
没有提供说明。
一律设置为 "file_search_result"
必需。用于与函数调用块中的 ID 相匹配的 ID。
用于后端验证的签名哈希。
GoogleMapsResultStep
Google 地图结果步骤。
没有提供说明。
一律设置为 "google_maps_result"
result GoogleMapsResultItem (必需)
没有提供说明。
字段
places GoogleMapsResultPlaces (可选)
没有提供说明。
字段
没有提供说明。
没有提供说明。
没有提供说明。
review_snippets ReviewSnippet (可选)
没有提供说明。
字段
评价的标题。
与 Google 地图上的用户评价对应的链接。
评价摘要的 ID。
没有提供说明。
必需。用于与函数调用块中的 ID 相匹配的 ID。
用于后端验证的签名哈希。
用于从相应事件恢复互动流的 event_id 令牌。
StepDelta
没有提供说明。
一律设置为 "step.delta"
没有提供说明。
delta StepDeltaData (必需)
没有提供说明。
可能的类型
多态鉴别器:type
TextDelta
没有提供说明。
一律设置为 "text"
没有提供说明。
ImageDelta
没有提供说明。
一律设置为 "image"
没有提供说明。
没有提供说明。
没有提供说明。
可能的值:
-
image/png -
image/jpeg -
image/webp -
image/heic -
image/heif -
image/gif -
image/bmp -
image/tiff
分辨率 MediaResolution (可选)
媒体的分辨率。
可能的值:
-
low -
medium -
high -
ultra_high
AudioDelta
没有提供说明。
一律设置为 "audio"
没有提供说明。
没有提供说明。
没有提供说明。
可能的值:
-
audio/wav -
audio/mp3 -
audio/aiff -
audio/aac -
audio/ogg -
audio/flac -
audio/mpeg -
audio/m4a -
audio/l16 -
audio/opus -
audio/alaw -
audio/mulaw
已弃用。请改用 sample_rate。系统会忽略该值。
音频的采样率。
音频声道数。
DocumentDelta
没有提供说明。
一律设置为 "document"
没有提供说明。
没有提供说明。
没有提供说明。
可能的值:
-
application/pdf
VideoDelta
没有提供说明。
一律设置为 "video"
没有提供说明。
没有提供说明。
没有提供说明。
可能的值:
-
video/mp4 -
video/mpeg -
video/mpg -
video/mov -
video/avi -
video/x-flv -
video/webm -
video/wmv -
video/3gpp
分辨率 MediaResolution (可选)
媒体的分辨率。
可能的值:
-
low -
medium -
high -
ultra_high
ThoughtSummaryDelta
没有提供说明。
一律设置为 "thought_summary"
content ThoughtSummaryContent (可选)
要添加到想法中的新总结项。
可能的类型
多态鉴别器:type
TextContent
文本内容块。
没有提供说明。
一律设置为 "text"
必需。文本内容。
注释 注释 (可选)
模型生成的内容的引用信息。
可能的类型
多态鉴别器:type
UrlCitation
网址引用注释。
没有提供说明。
一律设置为 "url_citation"
网址。
相应网址的标题。
归因于相应来源的响应部分的起始位置。 索引指示段落的开始,以字节为单位衡量。
归因段落的结束,不包括此索引。
FileCitation
文件引用注释。
没有提供说明。
一律设置为 "file_citation"
文件的 URI。
相应文件的名称。
文本部分的归因来源。
用户提供的有关检索到的上下文的元数据。
所引用文档的页码(如适用)。
图片引用对应的媒体 ID(如果适用)。
归因于相应来源的响应部分的起始位置。 索引指示段落的开始,以字节为单位衡量。
归因段落的结束,不包括此索引。
PlaceCitation
地点引用注释。
没有提供说明。
一律设置为 "place_citation"
地点的 ID,格式为 `places/{place_id}`。
地点的名称。
地点的 URI 引用。
review_snippets ReviewSnippet (可选)
用于生成有关 Google 地图中指定地点的特征的回答的评价摘要。
字段
评价的标题。
与 Google 地图上的用户评价对应的链接。
评价摘要的 ID。
归因于相应来源的响应部分的起始位置。 索引指示段落的开始,以字节为单位衡量。
归因段落的结束,不包括此索引。
ImageContent
图片内容块。
没有提供说明。
一律设置为 "image"
图片内容。
图片的 URI。
图片的 MIME 类型。
可能的值:
-
image/png -
image/jpeg -
image/webp -
image/heic -
image/heif -
image/gif -
image/bmp -
image/tiff
分辨率 MediaResolution (可选)
媒体的分辨率。
可能的值:
-
low -
medium -
high -
ultra_high
ThoughtSignatureDelta
没有提供说明。
一律设置为 "thought_signature"
用于匹配要纳入生成范围的后端来源的签名。
TextAnnotationDelta
没有提供说明。
一律设置为 "text_annotation_delta"
注释 注释 (可选)
模型生成的内容的引用信息。
可能的类型
多态鉴别器:type
UrlCitation
网址引用注释。
没有提供说明。
一律设置为 "url_citation"
网址。
相应网址的标题。
归因于相应来源的响应部分的起始位置。 索引指示段落的开始,以字节为单位衡量。
归因段落的结束,不包括此索引。
FileCitation
文件引用注释。
没有提供说明。
一律设置为 "file_citation"
文件的 URI。
相应文件的名称。
文本部分的归因来源。
用户提供的有关检索到的上下文的元数据。
所引用文档的页码(如适用)。
图片引用对应的媒体 ID(如果适用)。
归因于相应来源的响应部分的起始位置。 索引指示段落的开始,以字节为单位衡量。
归因段落的结束,不包括此索引。
PlaceCitation
地点引用注释。
没有提供说明。
一律设置为 "place_citation"
地点的 ID,格式为 `places/{place_id}`。
地点的名称。
地点的 URI 引用。
review_snippets ReviewSnippet (可选)
用于生成有关 Google 地图中指定地点的特征的回答的评价摘要。
字段
评价的标题。
与 Google 地图上的用户评价对应的链接。
评价摘要的 ID。
归因于相应来源的响应部分的起始位置。 索引指示段落的开始,以字节为单位衡量。
归因段落的结束,不包括此索引。
ArgumentsDelta
没有提供说明。
一律设置为 "arguments_delta"
没有提供说明。
用于从相应事件恢复互动流的 event_id 令牌。
StepStop
没有提供说明。
一律设置为 "step.stop"
没有提供说明。
用于从相应事件恢复互动流的 event_id 令牌。
示例
创建了互动
{ "event_type": "interaction.created", "interaction": { "id": "v1_ChdXS0l4YWZXTk9xbk0xZThQczhEcmlROBIXV0tJeGFmV05PcW5NMWU4UHM4RHJpUTg", "model": "gemini-3-flash-preview", "status": "in_progress", "created": "2025-12-04T15:01:45Z", "updated": "2025-12-04T15:01:45Z" }, "event_id": "evt_123" }
互动完成
{ "event_type": "interaction.completed", "interaction": { "id": "v1_ChdXS0l4YWZXTk9xbk0xZThQczhEcmlROBIXV0tJeGFmV05PcW5NMWU4UHM4RHJpUTg", "model": "gemini-3-flash-preview", "status": "completed", "created": "2025-12-04T15:01:45Z", "updated": "2025-12-04T15:01:45Z" }, "event_id": "evt_123" }
互动状态更新
{ "event_type": "interaction.status_update", "interaction_id": "v1_ChdTMjQ0YWJ5TUF1TzcxZThQdjRpcnFRcxIXUzI0NGFieU1BdU83MWU4UHY0aXJxUXM", "status": "in_progress" }
错误事件
{ "event_type": "error", "error": { "message": "Failed to get completed interaction: Result not found.", "code": "not_found" } }
步骤开始
{ "event_type": "step.start", "index": 0, "step": { "type": "model_output" } }
步数增量
{ "event_type": "step.delta", "index": 0, "delta": { "type": "text", "text": "Hello" } }
步进停止
{ "event_type": "step.stop", "index": 0 }