工具可擴充 Gemini 模型的功能,讓模型在現實世界中採取行動、存取即時資訊,以及執行複雜的運算工作。模型可以透過 Live API,在標準要求/回應互動和即時串流工作階段中使用工具。
Gemini API 提供一系列全代管的內建工具,這些工具經過最佳化調整,可搭配 Gemini 模型使用,您也可以使用函式呼叫功能定義自訂工具。
可用的內建工具
| 工具 | 說明 | 應用實例 |
|---|---|---|
| Google 搜尋 | 以網路上的時事和事實做為回覆基準,減少幻覺。 | - 回答近期活動相關問題 - 根據各種來源驗證事實 |
| Google 地圖 | 建構位置辨識助理,尋找地點、規劃路線及提供豐富的當地資訊。 | - 規劃包含多個停靠點的旅遊行程 - 根據使用者條件尋找當地商家 |
| 程式碼執行 | 允許模型撰寫及執行 Python 程式碼,準確解決數學問題或處理資料。 | - 解出複雜的數學方程式 - 準確處理及分析文字資料 |
| 網址環境 | 指示模型讀取及分析特定網頁或文件中的內容。 | - 根據特定網址或文件回答問題 - 擷取不同網頁的資訊 |
| 電腦使用 (預覽) | 啟用 Gemini 來查看畫面,並生成與網頁瀏覽器 UI 互動的操作 (用戶端執行)。 | - 自動執行重複的網頁工作流程 - 測試網頁應用程式使用者介面 |
| 檔案搜尋 | 為自己的文件建立索引並進行搜尋,啟用檢索增強生成 (RAG)。 | - 搜尋技術手冊 - 回答有關專有資料的問題 |
如要瞭解特定工具的相關費用,請參閱定價頁面。
工具執行的運作方式
模型可在對話期間要求執行動作。流程會因工具是內建 (由 Google 管理) 或自訂 (由您管理) 而異。
內建工具流程
如果是 Google 搜尋或程式碼執行等內建工具,整個程序會在一次 API 呼叫中完成:
- 你傳送提示:「GOOG 最新股價的平方根是多少?」
- Gemini 判斷需要工具,並在 Google 伺服器上執行這些工具 (例如搜尋股價,然後執行 Python 程式碼來計算平方根)。
- Gemini 會根據工具結果傳回最終答案。
自訂工具流程 (函式呼叫)
如果是自訂工具和電腦使用,則由應用程式處理執行作業:
- 您會連同函式 (工具) 宣告傳送提示。
- Gemini 可能會傳回結構化 JSON,以呼叫特定函式 (例如
{"name": "get_order_status", "args": {"order_id": "123"}})。 - 您可以在應用程式或環境中執行函式。
- 您將函式結果傳回給 Gemini。
- Gemini 會使用這些結果生成最終回覆,或呼叫其他工具。
詳情請參閱函式呼叫指南。
結構化輸出內容與函式呼叫
Gemini 提供兩種產生結構化輸出的方法。當模型需要連結至您自己的工具或資料系統,以執行中繼步驟時,請使用函式呼叫。如果模型最終回覆必須嚴格遵循特定結構 (例如用於算繪自訂 UI),請使用「結構化輸出」。
建構代理程式
代理程式是使用模型和工具完成多步驟工作的系統。Gemini 提供推理能力 (「大腦」) 和基本工具 (「雙手」),但您通常需要自動調度管理架構,才能管理代理程式的記憶體、規劃迴圈,以及執行複雜的工具鍊結。
Gemini 整合了領先業界的開放原始碼代理架構:
- LangChain / LangGraph:使用圖表結構建構具狀態的複雜應用程式流程和多代理系統。
- LlamaIndex:將 Gemini 代理程式連結至私人資料,以利 RAG 增強型工作流程。
- CrewAI:自動化調度管理角色扮演的自動化 AI 代理。
- Vercel AI SDK:以 JavaScript/TypeScript 建構 AI 輔助的使用者介面和代理程式。
- Google ADK:開放原始碼架構,用於建構及協調可互通的 AI 代理。