将工具和代理与 Gemini API 搭配使用

工具和代理可扩展 Gemini 模型的功能，使其能够执行实际操作、访问实时信息并执行复杂的计算任务。模型可以使用工具，无论是标准请求-响应互动，还是使用 Live API 的实时流式传输会话。

Gemini API 提供了一套针对 Gemini 模型优化的全托管式内置工具和代理，您也可以使用函数调用来定义自定义工具。

可用的内置工具

工具	说明	使用场景
Google 搜索	根据当前事件和网络上的事实信息来生成回答，以减少幻觉。	- 回答有关近期活动的问题 - 通过各种来源验证事实
Google 地图	构建位置感知助理，该助理可以查找地点、获取路线，并提供丰富的本地背景信息。	- 规划包含多个经停点的旅游行程 - 根据用户条件查找本地商家
代码执行	允许模型编写和运行 Python 代码，以准确解决数学问题或处理数据。	- 解出复杂的数学方程 - 精确处理和分析文本数据
网址上下文	指示模型读取和分析特定网页或文档中的内容。	- 根据特定网址或文档回答问题 - 检索不同网页中的信息
计算机使用（预览版）	使 Gemini 能够查看屏幕并生成与 Web 浏览器界面互动的操作（客户端执行）。	- 自动执行重复的基于 Web 的工作流 - 测试 Web 应用界面
文件搜索	为自己的文档编制索引并进行搜索，以实现检索增强生成 (RAG)。	- 搜索技术手册 - 基于专有数据回答问题

如需详细了解与特定工具相关的费用，请参阅价格页面。

代理	说明	使用场景
Deep Research	自主规划、执行和总结多步骤研究任务。	- 市场分析 - 尽职调查 - 文献综述

借助工具，模型可以在对话期间请求执行操作。流程因工具是内置（由 Google 管理）还是自定义（由您管理）而有所不同。

对于 Google 搜索或代码执行等内置工具，整个过程都在一次 API 调用中完成：

对于自定义工具和“计算机使用”，您的应用会处理执行：

您发送提示以及函数（工具）声明。
Gemini 可能会发回结构化 JSON 来调用特定函数（例如 {"name": "get_order_status", "args": {"order_id": "123"}}）。
您可以在应用或环境中执行该函数。
您将函数结果发送回 Gemini。
Gemini 会使用结果生成最终回答或其他工具调用。

如需了解详情，请参阅函数调用指南。

Gemini 提供了两种生成结构化输出的方法。当模型需要通过连接到您自己的工具或数据系统来执行中间步骤时，请使用函数调用。如果您需要模型的最终回答严格遵循特定架构（例如用于呈现自定义界面），请使用结构化输出。

您可以将结构化输出与内置工具相结合，以确保基于外部数据或计算结果的模型回答仍遵循严格的架构。

如需查看代码示例，请参阅使用工具生成结构化输出。

智能体是使用模型和工具来完成多步任务的系统。虽然 Gemini 提供了推理能力（“大脑”）和基本工具（“双手”），但您通常需要一个编排框架来管理代理的记忆、规划循环和执行复杂的工具链。

为了最大限度地提高多步工作流的可靠性，您应精心设计指令，明确控制模型的推理和规划方式。虽然 Gemini 具有强大的通用推理能力，但复杂的智能体可以从强制执行特定行为（例如在遇到问题时保持持久性、风险评估和主动规划）的提示中受益。

如需了解设计这些提示的策略，请参阅智能体工作流。以下是一个系统指令的示例，该指令使多个智能体基准的性能提升了约 5%。

Gemini 与以下领先的开源代理框架集成：