Gemini API でツールとエージェントを使用する

ツールとエージェントは Gemini モデルの機能を拡張し、現実世界でのアクションの実行、リアルタイム情報へのアクセス、複雑な計算タスクの実行を可能にします。モデルは、標準のリクエストとレスポンスのやり取りと、Live API を使用したリアルタイムストリーミングセッションの両方でツールを使用できます。

ツールは、モデルがクエリへの回答に使用できる特定の機能（Google 検索やコード実行など）です。
エージェントは、ユーザーの目標を達成するために、複数ステップのタスクを計画、実行、合成できるシステムです。

Gemini API は、Gemini モデル用に最適化されたフルマネージドの組み込みツールとエージェントのスイートを提供します。また、関数呼び出しを使用してカスタムツールを定義することもできます。

使用可能な組み込みツール

ツール	説明	ユースケース
Google 検索	ウェブ上の最新の出来事や事実に基づいて回答を生成し、ハルシネーションを減らします。	- 最近の出来事に関する質問に答える - さまざまなソースで事実を確認する
Google マップ	場所の検索、ルートの取得、豊富なローカルコンテキストの提供が可能な位置認識アシスタントを構築します。	- 複数の立ち寄り先を含む旅行プランの作成 - ユーザーの条件に基づいてローカルビジネスを検索する
コードの実行	モデルが Python コードを記述して実行し、数学の問題を解決したり、データを正確に処理したりできるようにします。	- 複雑な数式を解く - テキストデータを正確に処理、分析する
URL コンテキスト	特定のウェブページやドキュメントのコンテンツを読み取って分析するようにモデルに指示します。	- 特定の URL またはドキュメントに基づいて質問に回答する - さまざまなウェブページから情報を取得する
コンピュータの使用（プレビュー）	Gemini が画面を表示し、ウェブブラウザの UI を操作するアクションを生成できるようにします（クライアントサイド実行）。	- 繰り返し発生するウェブベースのワークフローの自動化 - ウェブアプリケーションのユーザーインターフェースのテスト
ファイル検索	独自のドキュメントをインデックス登録して検索し、検索拡張生成（RAG）を有効にします。	- 技術マニュアルの検索 - 独自データに関する質問への回答

特定のツールに関連する費用の詳細については、料金ページをご覧ください。

Available Agents

エージェント	説明	ユースケース
Deep Research	複数のステップからなるリサーチタスクを自律的に計画、実行、統合します。	- 市場分析 - デューデリジェンス - 文献レビュー

ツールの実行の仕組み

ツールを使用すると、モデルは会話中にアクションをリクエストできます。ツールが組み込み（Google が管理）かカスタム（ユーザーが管理）かによって、フローは異なります。

組み込みツールのフロー

Google 検索やコード実行などの組み込みツールの場合、プロセス全体が 1 回の API 呼び出しで実行されます。

ユーザーが「GOOG の最新の株価の平方根は？」というプロンプトを送信します。
Gemini はツールが必要であると判断し、Google のサーバーでツールを実行します（株価を検索してから、Python コードを実行して平方根を計算するなど）。
Gemini は、ツールの結果に基づいて最終的な回答を返します。

カスタムツールフロー（関数呼び出し）

カスタムツールとコンピュータ使用の場合、アプリケーションが実行を処理します。

ユーザーは、関数（ツール）宣言とともにプロンプトを送信します。
Gemini は、特定の関数（{"name": "get_order_status", "args": {"order_id": "123"}} など）を呼び出すために、構造化された JSON を返すことがあります。
ユーザーがアプリケーションまたは環境で関数を実行します。
ユーザーは、関数の結果を Gemini に送り返します。
Gemini は、結果を使用して最終的なレスポンスまたは別のツール呼び出しを生成します。

詳しくは、関数呼び出しガイドをご覧ください。

構造化出力と関数呼び出し

Gemini では、構造化された出力を生成する 2 つの方法が用意されています。モデルが独自のツールやデータシステムに接続して中間ステップを実行する必要がある場合は、関数呼び出しを使用します。カスタム UI のレンダリングなど、モデルの最終的なレスポンスが特定のスキーマに厳密に準拠する必要がある場合は、構造化出力を使用します。

ツールを使用した構造化出力

構造化出力と組み込みツールを組み合わせて、外部データまたは計算に基づいてグラウンディングされたモデルのレスポンスが厳格なスキーマに準拠するようにできます。

コード例については、ツールを使用した構造化出力をご覧ください。

エージェントの構築

エージェントは、モデルとツールを使用してマルチステップタスクを完了するシステムです。Gemini は推論機能（「脳」）と不可欠なツール（「手」）を提供しますが、エージェントのメモリの管理、ループの計画、複雑なツールチェーンの実行には、オーケストレーションフレームワークが必要になることがよくあります。

マルチステップワークフローの信頼性を最大限に高めるには、モデルの推論と計画の方法を明示的に制御する手順を作成する必要があります。Gemini は強力な一般的な推論を提供しますが、複雑なエージェントは、問題に直面した際の永続性、リスク評価、事前計画などの特定の動作を強制するプロンプトの恩恵を受けます。

これらのプロンプトの設計戦略については、エージェントワークフローをご覧ください。次に、いくつかのエージェントベンチマークでパフォーマンスを約 5% 向上させたシステム指示の例を示します。

エージェントフレームワーク

Gemini は、次のような主要なオープンソースエージェントフレームワークと統合されています。

LangChain / LangGraph: グラフ構造を使用して、ステートフルで複雑なアプリケーションフローとマルチエージェントシステムを構築します。
LlamaIndex: Gemini エージェントをプライベートデータに接続して、RAG 強化ワークフローを実現します。
CrewAI: 共同作業を行うロールプレイングの自律型 AI エージェントをオーケストレートします。
Vercel AI SDK: JavaScript/TypeScript で AI を活用したユーザーインターフェースとエージェントを構築します。
Google ADK: 相互運用可能な AI エージェントを構築してオーケストレートするためのオープンソースフレームワーク。