智能体是利用 Gemini 模型、一系列工具和推理能力来执行复杂的多步骤任务并实现特定目标的系统。与单个模型调用不同,智能体可以规划、执行一系列操作、与外部系统交互并综合信息以满足用户的请求。
借助 Gemini API,您可以使用以下功能构建强大的智能体:
- Gemini 模型:核心智能, 提供推理和语言理解能力。
- **工具**:将模型与 现实世界的信息和操作联系起来的功能。这些工具可以是内置工具(例如 Google 搜索、Google 地图、代码执行)或自定义工具。
- **函数调用**:用于 定义自定义工具和 API 并将其连接到 Gemini 模型的机制。
- **思考**:增强模型 推理和规划复杂任务的能力的功能。
- **长上下文**:使智能体能够在长时间的交互中 保持状态和信息。
可用智能体
- 深度研究智能体: 一种自主智能体,可规划、执行和综合多步骤研究任务,适用于市场分析、尽职调查和文献综述等用例。
构建智能体
智能体使用模型和工具来完成多步骤任务。虽然 Gemini 提供了推理能力(“大脑”)和基本工具(“手”),但您通常需要一个编排框架来管理智能体的记忆、规划循环和执行复杂的工具链。
为了最大限度地提高多步骤工作流的可靠性,您应该编写明确控制模型推理和规划方式的说明。虽然 Gemini 提供了强大的通用推理能力,但复杂的智能体可以从提示中受益,这些提示可以强制执行特定行为,例如在遇到问题时坚持不懈、风险评估和主动规划。
如需了解有关设计这些提示的策略,请参阅智能体 工作流。以下是一个系统 指令示例,该指令将多个智能体基准的性能提高了约 5%。
智能体框架
Gemini 与领先的开源智能体框架集成,例如:
- LangChain / LangGraph:使用图 结构构建有状态的复杂应用流和多智能体系统。
- LlamaIndex:将 Gemini 智能体连接到 您的私有数据,以实现 RAG 增强型工作流。
- CrewAI:编排协作式 角色扮演的自主 AI 智能体。
- Vercel AI SDK:在 JavaScript/TypeScript 中构建 AI 赋能的用户界面和智能体。
- Google ADK: An 一个用于构建和编排可互操作的 AI 智能体的开源框架。