エージェントの概要

エージェントは、Gemini モデル、一連のツール、推論機能を活用して、複雑なマルチステップ タスクを実行し、特定の目標を達成するシステムです。単一のモデル呼び出しとは異なり、エージェントは、ユーザーのリクエストを満たすために、一連のアクションを計画して実行し、外部システムとやり取りして、情報を合成できます。

Gemini API を使用すると、次のような機能を活用して強力なエージェントを構築できます。

  • Gemini モデル: 推論と言語理解を提供するコア インテリジェンス。
  • ツール: モデルを現実世界の情報やアクションに接続する機能。これらは、組み込みツール(Google 検索、マップ、コード実行など)またはカスタムツールにすることができます。
  • 関数呼び出し: 独自のカスタムツールと API を Gemini モデルに定義して接続するメカニズム。
  • 思考: 複雑なタスクの推論と計画を行うモデルの能力を高める機能。
  • 長いコンテキスト: エージェントが拡張されたインタラクション全体にわたって状態と情報を維持できるようにします。

Available Agents

  • Deep Research Agent: 市場分析、デュー デリジェンス、文献レビューなどのユースケースで、複数ステップのリサーチタスクを計画、実行、合成する自律型エージェント。

エージェントの構築

エージェントは、モデルとツールを使用してマルチステップ タスクを完了します。Gemini は推論機能(「脳」)と不可欠なツール(「手」)を提供しますが、エージェントのメモリの管理、プランニング ループ、複雑なツール チェーンの実行には、オーケストレーション フレームワークが必要になることがよくあります。

マルチステップ ワークフローの信頼性を最大限に高めるには、モデルの推論と計画の方法を明示的に制御する手順を作成する必要があります。Gemini は強力な一般的な推論を提供しますが、複雑なエージェントは、問題に直面した際の永続性、リスク評価、事前計画などの特定の動作を強制するプロンプトの恩恵を受けます。

これらのプロンプトの設計戦略については、エージェント ワークフローをご覧ください。次に、いくつかのエージェント ベンチマークでパフォーマンスを約 5% 向上させたシステム指示の例を示します。

エージェント フレームワーク

Gemini は、次のような主要なオープンソース エージェント フレームワークと統合されています。

  • LangChain / LangGraph: グラフ構造を使用して、ステートフルで複雑なアプリケーション フローとマルチエージェント システムを構築します。
  • LlamaIndex: Gemini エージェントをプライベート データに接続して、RAG 強化ワークフローを実現します。
  • CrewAI: 共同作業を行うロールプレイングの自律型 AI エージェントをオーケストレートします。
  • Vercel AI SDK: JavaScript/TypeScript で AI を活用したユーザー インターフェースとエージェントを構築します。
  • Google ADK: 相互運用可能な AI エージェントを構築してオーケストレートするためのオープンソース フレームワーク。