اشتراک گذاری

۱۶ اکتبر ۲۰۲۶

فایرکراول از Gemini 2.5 Pro برای ساختاردهی داده‌های وب برای برنامه‌های هوش مصنوعی استفاده می‌کند.

اریک سیارلا

بنیانگذار مشترک

ویشال دارمادیکاری

مهندس راهکارهای محصول

قهرمان نمایشگاه فایرکراول

برنامه‌های کاربردی هوش مصنوعی، مانند سیستم‌های بازیابی-تقویت‌شده نسل (RAG) و عامل‌های خودکار، به طور فزاینده‌ای نیاز به دسترسی به اطلاعات زنده و واقعی از وب دارند. با این حال، محتوای وب اغلب بدون ساختار، پویا و متناقض است و استخراج داده‌های قابل اعتماد را به چالشی مهم برای توسعه‌دهندگان تبدیل می‌کند.

فایرکراول، یک پلتفرم داده وب مبتنی بر هوش مصنوعی، رابط‌های برنامه‌نویسی کاربردی (API) ارائه می‌دهد که توسعه‌دهندگان و سیستم‌های هوش مصنوعی را قادر می‌سازد تا به صورت برنامه‌نویسی‌شده، داده‌های وب را در مقیاس بزرگ پیدا، واکشی، تجزیه و ساختاردهی کنند. آن‌ها پیچیدگی وب اسکرپینگ سنتی را حذف می‌کنند و محتوای وب بدون ساختار را به داده‌های تمیز و قابل استفاده تبدیل می‌کنند.

برای دستیابی به این هدف، Firecrawl از Gemini 2.5 Pro برای قدرت بخشیدن به موتور استخراج هسته خود استفاده می‌کند. مدل‌های Gemini قابلیت‌های پیشرفته درک زبان و استدلال لازم برای تجزیه دقیق محتوای متنوع و نامنظم وب را فراهم می‌کنند.

تبدیل وب بدون ساختار به داده‌های قابل استفاده

هدف فایرکراول این است که کل وب را برای سیستم‌های هوش مصنوعی قابل دسترس کند. روش‌های سنتی استخراج وب مبتنی بر قانون اغلب شکننده هستند و به دلیل تغییر مکرر ساختار وب‌سایت‌ها، نیاز به نگهداری مداوم دارند. فایرکراول به راهکاری نیاز داشت که بتواند زمینه را درک کند و داده‌ها را به طور قابل اعتمادی، حتی از منابع بسیار متغیر، استخراج کند.

فایرکراول با استفاده از Gemini 2.5 Pro دو محصول اصلی توسعه داد:

  • SmartScrape: ابزاری برای استخراج که از قابلیت‌های درک زبان و استدلال Gemini 2.5 Pro برای تبدیل HTML خام به خروجی‌های ساختاریافته، مانند JSON یا جفت‌های کلید-مقدار استفاده می‌کند. این ابزار استخراج آگاه از متن را انجام می‌دهد و معنای داده‌ها را نسبت به اهداف مشخص‌شده توسط کاربر، به جای فقط مکان آنها در صفحه، درک می‌کند.
  • FIRE-1: یک چارچوب عامل آزمایشی که از Gemini 2.5 Pro برای تفسیر قصد کاربر، پیمایش محتوای وب و تولید خروجی‌ها بر اساس داده‌های وب زنده استفاده می‌کند.


قبل از پذیرش Gemini 2.5 Pro، Firecrawl چندین مدل پیشرو را ارزیابی کرد. آنها دریافتند که مدل‌های دیگر برای مدیریت پیچیدگی و تنوع محتوای وب دنیای واقعی در مقیاس تولید، با مشکل مواجه هستند.

اریک سیارلا، یکی از بنیانگذاران Firecrawl، گفت: «Gemini 2.5 Pro کل پروژه را امکان‌پذیر کرد. قبل از استفاده از Gemini 2.5 Pro، مدل‌هایی که ما آزمایش کردیم نمی‌توانستند به طور قابل اعتمادی سطح پیچیدگی مورد نیاز برای استخراج و استدلال بر روی محتوای وب دنیای واقعی را مدیریت کنند. قابلیت‌های استدلال، دقت و پایداری Gemini 2.5 Pro ما را قادر ساخت تا با اطمینان به جلو حرکت کنیم.»

پیاده‌سازی Gemini 2.5 Pro با فراخوانی ابزار

فایرکراول تقریباً در عرض یک هفته، Gemini 2.5 Pro را در محصولات خود ادغام کرد. آنها از قابلیت‌های استدلال و فراخوانی ابزار مدل در معماری عامل خود بهره می‌برند.

در چارچوب عامل FIRE-1، مدل در یک حلقه عامل عمل می‌کند که استدلال Gemini 2.5 Pro را با جریان‌های کنترل قطعی ترکیب می‌کند. این فرآیند به شرح زیر عمل می‌کند:

  • ورودی: عامل، مدل شیء سند (DOM) صفحه وب و یک هدف تعریف‌شده توسط کاربر (مثلاً «تمام صفحات این وب‌سایت را برای من پیدا کن») را دریافت می‌کند.
  • استدلال: Gemini 2.5 Pro ورودی‌ها را تجزیه و تحلیل کرده و اقدامات لازم را تعیین می‌کند.
  • اجرا: مدل این اقدامات را از طریق فراخوانی ابزار (فراخوانی توابع) اجرا می‌کند. برای وظایف ناوبری، عامل ممکن است به طور خودکار توابعی مانند click(next_page) را برای بازیابی داده‌های مورد نیاز فراخوانی کند.


این رویکرد به Firecrawl اجازه می‌دهد تا وظایف پیچیده ناوبری و استخراج وب را که نیاز به انعطاف‌پذیری و پیش‌بینی‌پذیری دارند، مدیریت کند.

دستیابی به دقت استخراج ۹۸٪

در معیارهای داخلی که دقت استخراج و تجزیه وب پیچیده را مقایسه می‌کردند، Gemini 2.5 Pro به طور قابل توجهی از سایر مدل‌های ارزیابی شده توسط Firecrawl پیشی گرفت.

Gemini 2.5 Pro در ارزیابی‌های داخلی Firecrawl به دقت ۹۸٪ دست یافت. مدل برتر بعدی آزمایش‌شده تقریباً به دقت ۸۰٪ رسید. این افزایش عملکرد مستقیماً به خروجی‌های استخراج با کیفیت بالاتر و رفتار عامل قابل اعتمادتر در بارهای کاری تولید منجر شد.

سیارلا خاطرنشان کرد: «در آزمایش داخلی ما، Gemini 2.5 به طور مداوم در هر بُعد کلیدی مورد استفاده ما از جمله دقت استخراج، استدلال پیچیده، تأخیر و توان عملیاتی کلی، از سایر گزینه‌ها بهتر عمل کرد.»

ساختن آینده‌ی تعامل وب

مدل‌های Gemini اکنون جزء بنیادی زیرساخت هوش مصنوعی Firecrawl هستند و آنها را قادر می‌سازند تا خطوط داده وب قابل اعتمادی را برای محصولات هوش مصنوعی فراهم کنند.

فایرکراول در حال حاضر در حال ارزیابی Gemini 2.5 Flash برای مواردی است که نیاز به تأخیر بسیار کم دارند، جایی که تعامل عامل در زمان واقعی بسیار مهم است. با تکامل خانواده مدل Gemini، فایرکراول قصد دارد قابلیت‌های جدیدی را برای بهبود بیشتر نحوه تعامل عامل‌های هوش مصنوعی با داده‌های وب دنیای واقعی ادغام کند.

برای شروع ساخت برنامه‌های خودتان، قابلیت‌های مدل‌های Gemini را در مستندات API ما بررسی کنید.

شرکای ولا

ولا پارتنرز از Grounding به همراه جستجوی گوگل برای بینش‌های عمیق‌تر و سریع‌تر استفاده می‌کند