Gemini Deep Research がプレビュー版で利用可能になりました。共同プランニング、可視化、MCP サポートなどが含まれています。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

エージェントの概要

エージェントは、Gemini モデル、一連のツール、推論機能を活用して、複雑な複数ステップのタスクを実行し、特定の目標を達成するシステムです。単一のモデル呼び出しとは異なり、エージェントは計画を立て、一連のアクションを実行し、外部システムとやり取りして情報を合成し、ユーザーのリクエストに応えることができます。

Gemini API を使用すると、次のような機能を利用して強力なエージェントを構築できます。

Gemini モデル: 推論と言語理解を提供するコアインテリジェンス。
ツール: モデルを現実世界の情報やアクションに接続する機能。組み込みツール（Google 検索、マップ、コード実行など）またはカスタムツールを使用できます。
関数呼び出し: 独自のカスタムツールと API を Gemini モデルに定義して接続するメカニズム。
思考モード: 複雑なタスクに対するモデルの推論と計画の能力を強化する機能。
長いコンテキスト: エージェントが長時間のインタラクションにわたって状態と情報を維持できるようにします。

Available Agents

Deep Research Agent: 市場分析、デューデリジェンス、文献レビューなどのユースケースで、複数ステップのリサーチタスクを計画、実行、合成する自律型エージェント。

エージェントの構築

エージェントはモデルとツールを使用して、複数ステップのタスクを完了します。Gemini は推論機能（「頭脳」）と不可欠なツール（「手」）を提供しますが、エージェントのメモリの管理、計画ループ、複雑なツールチェーンの実行には、オーケストレーションフレームワークが必要になることがよくあります。

複数ステップのワークフローで信頼性を最大限に高めるには、モデルの推論と計画の方法を明示的に制御する手順を作成する必要があります。Gemini は強力な一般的な推論を提供しますが、複雑なエージェントでは、問題に直面した際の永続性、リスク評価、事前計画などの特定の動作を強制するプロンプトが役立ちます。

これらのプロンプトの設計戦略については、エージェントワークフローをご覧ください。次に、いくつかのエージェントベンチマークでパフォーマンスを約 5% 向上させたシステム命令の例を示します。

エージェントフレームワーク

Gemini は、次のような主要なオープンソースエージェントフレームワークと統合されています。

LangChain / LangGraph: Build stateful, complex application flows and multi-agent systems using graph structures.
LlamaIndex: Gemini エージェントをプライベートデータに接続して、RAG 強化ワークフローを実現します。
CrewAI: 共同作業を行う、ロールプレイング自律型 AI エージェントをオーケストレートします。
Vercel AI SDK: JavaScript/TypeScript で AI を活用したユーザーインターフェースとエージェントを構築します。
Google ADK: 相互運用可能な AI エージェントを構築してオーケストレートするためのオープンソースフレームワーク。

エージェントの概要

Available Agents

エージェントの構築

エージェント フレームワーク

エージェントフレームワーク