エージェントの概要

エージェントは、Gemini モデル、一連のツール、推論機能を活用して、複雑な複数ステップのタスクを実行し、特定の目標を達成するシステムです。単一のモデル呼び出しとは異なり、エージェントは計画を立て、一連のアクションを実行し、外部システムとやり取りして情報を合成し、ユーザーのリクエストに応えることができます。

Gemini API を使用すると、次のような機能を利用して強力なエージェントを構築できます。

  • Gemini モデル: 推論と言語理解を提供するコア インテリジェンス。
  • ツール: モデルを 現実世界の情報やアクションに接続する機能。組み込みツール(Google 検索、マップ、コード実行など)またはカスタムツールを使用できます。
  • 関数呼び出し: 独自のカスタムツールと API を Gemini モデルに 定義して接続するメカニズム。
  • 思考モード: 複雑なタスクに対するモデルの 推論と計画の能力を強化する機能。
  • 長いコンテキスト: エージェントが 長時間のインタラクションにわたって状態と情報を維持できるようにします。

Available Agents

  • Deep Research Agent: 市場分析、デュー デリジェンス、文献レビューなどの ユースケースで、複数ステップのリサーチタスクを計画、実行、合成する 自律型エージェント。

エージェントの構築

エージェントはモデルとツールを使用して、複数ステップのタスクを完了します。Gemini は推論機能(「頭脳」)と不可欠なツール(「手」)を提供しますが、エージェントのメモリの管理、計画ループ、複雑なツールチェーンの実行には、オーケストレーション フレームワークが必要になることがよくあります。

複数ステップのワークフローで信頼性を最大限に高めるには、モデルの推論と計画の方法を明示的に制御する手順を作成する必要があります。Gemini は強力な一般的な推論を提供しますが、複雑なエージェントでは、問題に直面した際の永続性、リスク評価、事前計画などの特定の動作を強制するプロンプトが役立ちます。

これらのプロンプトの設計戦略については、エージェント ワークフローをご覧ください。次に、いくつかのエージェント ベンチマークでパフォーマンスを約 5% 向上させたシステム 命令の例を示します。

エージェント フレームワーク

Gemini は、次のような主要なオープンソース エージェント フレームワークと統合されています。

  • LangChain / LangGraph: Build stateful, complex application flows and multi-agent systems using graph structures.
  • LlamaIndex: Gemini エージェントを プライベート データに接続して、RAG 強化ワークフローを実現します。
  • CrewAI: 共同作業を行う、 ロールプレイング自律型 AI エージェントをオーケストレートします。
  • Vercel AI SDK: JavaScript/TypeScript で AI を活用したユーザー インターフェースとエージェントを構築します。
  • Google ADK: 相互運用可能な AI エージェントを構築してオーケストレートするための オープンソース フレームワーク。