代理程式總覽

代理是運用 Gemini 模型、一組工具和推論能力的系統,可執行複雜的多步驟工作,並達成特定目標。與單一模型呼叫不同,代理可以規劃及執行一系列動作、與外部系統互動,並彙整資訊來滿足使用者的要求。

透過 Gemini API,您可以運用下列功能建構強大的代理程式:

  • Gemini 模型核心智慧,提供推理和語言理解能力。
  • 工具可將模型連結至真實世界資訊和動作的功能。這些工具可以是內建工具 (例如 Google 搜尋、地圖、程式碼執行),也可以是自訂工具。
  • 函式呼叫定義及連結自訂工具和 API 至 Gemini 模型的機制。
  • 思考可提升模型推論能力,並規劃複雜工作。
  • 長脈絡讓代理程式在長時間的互動中,持續記住狀態和資訊。

可用的服務專員

  • 深入研究代理自主代理,可規劃、執行及整合多步驟研究工作,適用於市場分析、盡職調查和文獻回顧等用途。

建構代理

代理會使用模型和工具完成多步驟工作。Gemini 提供推理能力 (「大腦」) 和必要工具 (「雙手」),但您通常需要調度管理架構來管理代理程式的記憶體、規劃迴圈,以及執行複雜的工具鍊結。

如要盡量提升多步驟工作流程的穩定性,請編寫明確控制模型推論和規劃方式的指令。雖然 Gemini 提供強大的通用推論功能,但複雜的代理程式需要提示來強制執行特定行為,例如在遇到問題時保持不懈、評估風險及主動規劃。

如需設計這些提示的策略,請參閱代理程式工作流程。以下是系統指令範例,可將多個代理程式基準的效能提升約 5%。

代理架構

Gemini 整合了領先業界的開放原始碼代理框架,例如:

  • LangChain / LangGraph:使用圖表結構建構有狀態的複雜應用程式流程和多代理系統。
  • LlamaIndex:將 Gemini 代理程式連結至私人資料,以 RAG 增強工作流程。
  • CrewAI:自動調度管理角色扮演的自主式 AI 代理,進行協作。
  • Vercel AI SDK:在 JavaScript/TypeScript 中建構 AI 輔助的使用者介面和代理程式。
  • Google ADK:開放原始碼架構,用於建構及協調可互通的 AI 代理程式。