代理是運用 Gemini 模型、一組工具和推論能力的系統,可執行複雜的多步驟工作,並達成特定目標。與單一模型呼叫不同,代理可以規劃及執行一系列動作、與外部系統互動,並彙整資訊來滿足使用者的要求。
透過 Gemini API,您可以運用下列功能建構強大的代理程式:
- Gemini 模型:核心智慧,提供推理和語言理解能力。
- 工具:可將模型連結至真實世界資訊和動作的功能。這些工具可以是內建工具 (例如 Google 搜尋、地圖、程式碼執行),也可以是自訂工具。
- 函式呼叫:定義及連結自訂工具和 API 至 Gemini 模型的機制。
- 思考:可提升模型推論能力,並規劃複雜工作。
- 長脈絡:讓代理程式在長時間的互動中,持續記住狀態和資訊。
可用的服務專員
- 深入研究代理:自主代理,可規劃、執行及整合多步驟研究工作,適用於市場分析、盡職調查和文獻回顧等用途。
建構代理
代理會使用模型和工具完成多步驟工作。Gemini 提供推理能力 (「大腦」) 和必要工具 (「雙手」),但您通常需要調度管理架構來管理代理程式的記憶體、規劃迴圈,以及執行複雜的工具鍊結。
如要盡量提升多步驟工作流程的穩定性,請編寫明確控制模型推論和規劃方式的指令。雖然 Gemini 提供強大的通用推論功能,但複雜的代理程式需要提示來強制執行特定行為,例如在遇到問題時保持不懈、評估風險及主動規劃。
如需設計這些提示的策略,請參閱代理程式工作流程。以下是系統指令範例,可將多個代理程式基準的效能提升約 5%。
代理架構
Gemini 整合了領先業界的開放原始碼代理框架,例如:
- LangChain / LangGraph:使用圖表結構建構有狀態的複雜應用程式流程和多代理系統。
- LlamaIndex:將 Gemini 代理程式連結至私人資料,以 RAG 增強工作流程。
- CrewAI:自動調度管理角色扮演的自主式 AI 代理,進行協作。
- Vercel AI SDK:在 JavaScript/TypeScript 中建構 AI 輔助的使用者介面和代理程式。
- Google ADK:開放原始碼架構,用於建構及協調可互通的 AI 代理程式。