2026 年 10 月 16 日
Firecrawl は Gemini 2.5 Pro を使用して AI アプリケーション用のウェブデータを構造化します

検索拡張生成(RAG)システムや自律型エージェントなどの AI アプリケーションでは、ウェブ上のリアルタイムの現実世界の情報へのアクセスがますます必要になっています。しかし、ウェブ コンテンツは構造化されておらず、動的で一貫性がないことが多いため、信頼性の高いデータ抽出は開発者にとって大きな課題となっています。
AI ファーストのウェブデータ プラットフォームである Firecrawl は、デベロッパーと AI システムがウェブデータを大規模にプログラムで検索、取得、解析、構造化できる API を提供しています。従来のウェブ スクレイピングの複雑さを抽象化し、非構造化ウェブ コンテンツをクリーンで使いやすいデータに変換します。
これを実現するために、Firecrawl は Gemini 2.5 Pro を使用してコア抽出エンジンを強化しています。Gemini モデルは、多様で不規則なウェブ コンテンツを正確に解析するために必要な高度な言語理解機能と推論機能を提供します。
非構造化ウェブを実用的なデータに変換する
Firecrawl は、ウェブ全体を AI システムでアクセスできるようにすることを目的としています。従来のルールベースのウェブ スクレイピング方法は、ウェブサイトの構造が頻繁に変更されるため、多くの場合、脆弱で、常にメンテナンスが必要です。Firecrawl は、コンテキストを理解し、変動の大きいソースからでもデータを確実に抽出できるソリューションを必要としていました。
Firecrawl は、Gemini 2.5 Pro を使用して 2 つのコアプロダクトを開発しました。
- SmartScrape: Gemini 2.5 Pro の言語理解と推論機能を使用して、未加工の HTML を JSON やキーと値のペアなどの構造化された出力に変換する抽出ツール。コンテキストを認識した抽出を行い、ページ上の位置だけでなく、ユーザーが指定した目標に関連するデータの意味を理解します。
- FIRE-1: Gemini 2.5 Pro を使用してユーザーの意図を解釈し、ウェブ コンテンツをナビゲートして、ライブ ウェブデータに基づいて出力を生成する試験運用版のエージェント フレームワーク。
Gemini 2.5 Pro を採用する前に、Firecrawl はいくつかの主要なモデルを評価しました。他のモデルは、本番環境の規模で現実世界のウェブ コンテンツの複雑さと変動性を処理するのに苦労することがわかりました。
「Gemini 2.5 Pro がなければ、このプロジェクトは実現不可能でした」と、Firecrawl の共同創業者である Eric Ciarla 氏は述べています。「Gemini 2.5 Pro を使用する前は、テストしたモデルでは、現実世界のウェブ コンテンツを抽出して推論するために必要な複雑さを確実に処理できませんでした。Gemini 2.5 Pro の推論機能、精度、安定性により、自信を持って前進することができました。」
ツール呼び出しによる Gemini 2.5 Pro の実装
Firecrawl は、約 1 週間で Gemini 2.5 Pro をプロダクトに統合しました。エージェント アーキテクチャ内でモデルの推論機能とツール呼び出し機能を活用します。
FIRE-1 エージェント フレームワークでは、Gemini 2.5 Pro の推論と決定論的制御フローを組み合わせたエージェント ループ内でモデルが動作します。このプロセスは次のように動作します。
- 入力: エージェントは、ウェブページのドキュメント オブジェクト モデル(DOM)と定義されたユーザーの目標(例: 「このウェブサイトのすべてのページを取得して」)。
- 推論: Gemini 2.5 Pro は入力を分析し、必要なアクションを判断します。
- 実行: モデルは、ツール呼び出し(関数呼び出し)を介してこれらのアクションを実行します。ナビゲーション タスクの場合、エージェントは click(next_page) などの関数を自律的に呼び出して、必要なデータを取得することがあります。
このアプローチにより、Firecrawl は柔軟性と予測可能性の両方を必要とする複雑なウェブ ナビゲーションと抽出タスクを処理できます。
98% の抽出精度を達成
抽出精度と複雑なウェブ解析を比較する内部ベンチマークでは、Gemini 2.5 Pro は Firecrawl が評価した他のモデルを大幅に上回りました。
Gemini 2.5 Pro は、Firecrawl の内部評価で 98% の精度を達成しました。テストされた次善のモデルでは、精度は約 80% でした。このパフォーマンスの向上により、抽出出力の品質が向上し、本番環境のワークロードでエージェントの動作の信頼性が高まりました。
「社内テストでは、Gemini 2.5 Pro は、抽出精度、複雑な推論、レイテンシ、全体的なスループットなど、ユースケースのすべての重要な側面で、常に代替手段を上回るパフォーマンスを発揮しました」と Ciarla 氏は述べています。
ウェブ インタラクションの未来を築く
Gemini モデルは Firecrawl の AI インフラストラクチャの基盤コンポーネントとなり、AI プロダクトに信頼性の高いウェブ データ パイプラインを提供できるようになりました。
Firecrawl は現在、リアルタイムのエージェントとのやり取りが不可欠な超低レイテンシを必要とするユースケースでの使用を目的として、Gemini 2.5 Flash を評価しています。Gemini モデル ファミリーの進化に伴い、Firecrawl は新しい機能を統合して、AI エージェントが実世界のウェブデータとやり取りする方法をさらに改善する予定です。
独自のアプリケーションの構築を開始するには、API ドキュメントで Gemini モデルの機能をご確認ください。