20 באוקטובר 2025
Firecrawl משתמש ב-Gemini 2.5 Pro כדי לבנות נתונים מהאינטרנט עבור אפליקציות AI
אפליקציות AI, כמו מערכות ליצירת טקסט עם אחזור מידע (RAG) וסוכנים אוטונומיים, דורשות יותר ויותר גישה למידע עדכני מהאינטרנט. עם זאת, תוכן באינטרנט הוא לרוב לא מובנה, דינמי ולא עקבי, ולכן חילוץ נתונים אמין הוא אתגר משמעותי למפתחים.
Firecrawl, פלטפורמה לנתוני אינטרנט שמבוססת על AI, מספקת ממשקי API שמאפשרים למפתחים ולמערכות AI למצוא, לאחזר, לנתח ולבנות נתוני אינטרנט באופן פרוגרמטי בהיקף נרחב. הם מפשטים את המורכבות של גירוד נתונים מסורתי, ומשנים תוכן לא מובנה באינטרנט לנתונים נקיים ושימושיים.
כדי להשיג את זה, Firecrawl משתמשת ב-Gemini 2.5 Pro כדי להפעיל את מנוע החילוץ המרכזי שלה. מודלים של Gemini מספקים את יכולות ההבנה הלשונית והחשיבה המתקדמות שנדרשות כדי לנתח במדויק תוכן מגוון ולא סדיר באינטרנט.
הפיכת האינטרנט הלא מובנה לנתונים שניתן להשתמש בהם
המטרה של Firecrawl היא להפוך את כל האינטרנט לנגיש למערכות AI. שיטות מסורתיות של גירוד נתונים מאתרי אינטרנט שמבוססות על כללים הן לרוב שבירות ודורשות תחזוקה מתמדת, כי מבני האתרים משתנים לעיתים קרובות. חברת Firecrawl חיפשה פתרון שיכול להבין הקשר ולהפיק נתונים בצורה מהימנה, גם ממקורות עם שונות גבוהה.
חברת Firecrawl פיתחה שני מוצרי ליבה באמצעות Gemini 2.5 Pro:
- SmartScrape: כלי לחילוץ נתונים שמשתמש ביכולות ההבנה והחשיבה הרציונלית של שפה ב-Gemini 2.5 Pro כדי להפוך קובץ HTML גולמי לפלט מובנה, כמו JSON או זוגות של מפתח-ערך. הוא מבצע חילוץ בהתאם להקשר, ומבין את המשמעות של הנתונים ביחס ליעדים שהמשתמש הגדיר, ולא רק את המיקום שלהם בדף.
- FIRE-1: מסגרת ניסיונית של סוכן שמשתמש ב-Gemini 2.5 Pro כדי לפרש את כוונת המשתמש, לנווט בתוכן אינטרנטי וליצור פלט על סמך נתונים חיים מהאינטרנט.
לפני ש-Firecrawl החלה להשתמש ב-Gemini 2.5 Pro, היא בדקה כמה מודלים מובילים. החברה גילתה שמודלים אחרים התקשו להתמודד עם המורכבות והשונות של תוכן מהאינטרנט בעולם האמיתי בקנה מידה של ייצור.
"Gemini 2.5 Pro עזר לנו להפוך את הפרויקט לבר-קיימה," אומר אריק סיארלה, מייסד שותף של Firecrawl. "לפני שהשתמשנו ב-Gemini 2.5 Pro, המודלים שבדקנו לא הצליחו להתמודד באופן מהימן עם רמת המורכבות הנדרשת כדי לחלץ ולנתח תוכן מהאינטרנט בעולם האמיתי. יכולות החשיבה הרציונלית של Gemini 2.5 Pro, הדיוק והיציבות שלו אפשרו לנו להתקדם בביטחון".
הטמעה של Gemini 2.5 Pro עם הפעלת כלים
חברת Firecrawl שילבה את Gemini 2.5 Pro במוצרים שלה תוך שבוע בערך. הם משתמשים ביכולות החשיבה הרציונלית של המודל וביכולות השימוש בכלים במסגרת ארכיטקטורת הסוכן שלהם.
במסגרת הסוכן FIRE-1, המודל פועל בלולאת סוכן שמשלבת את ההיגיון של Gemini 2.5 Pro עם זרימות בקרה דטרמיניסטיות. כך התהליך מתבצע:
- קלט: הסוכן מקבל את מודל אובייקט המסמך (DOM) של דף האינטרנט ומטרה מוגדרת של המשתמש (למשל, תביא לי את כל הדפים באתר הזה").
- הסקת מסקנות: Gemini 2.5 Pro מנתח את הקלט וקובע את הפעולות הנדרשות.
- ביצוע: המודל מבצע את הפעולות האלה באמצעות הפעלת כלים (הפעלת פונקציות). למשימות ניווט, יכול להיות שהסוכן יפעיל באופן אוטונומי פונקציות כמו click(next_page) כדי לאחזר את הנתונים הנדרשים.
הגישה הזו מאפשרת ל-Firecrawl לטפל במשימות מורכבות של ניווט באינטרנט וחילוץ נתונים שדורשות גמישות וצפיות.
השגת דיוק חילוץ של 98%
בבדיקות השוואתיות פנימיות של דיוק החילוץ וניתוח מורכב של דפי אינטרנט, Gemini 2.5 Pro השיג ביצועים טובים משמעותית בהשוואה למודלים אחרים שנבדקו על ידי Firecrawl.
בבדיקות הפנימיות של Firecrawl, Gemini 2.5 Pro הגיע לרמת דיוק של 98%. המודל הבא הכי טוב שנבדק הגיע לרמת דיוק של כ-80%. השיפור בביצועים תורגם ישירות לתפוקות חילוץ איכותיות יותר ולהתנהגות אמינה יותר של הסוכן בעומסי עבודה של ייצור.
"בבדיקות הפנימיות שלנו, Gemini 2.5 Pro עקף באופן עקבי את המתחרים בכל מימד מרכזי בתרחיש השימוש שלנו: דיוק החילוץ, הסקת מסקנות מורכבות, זמן האחזור והתפוקה הכוללת", מציין סיארלה.
בונים את העתיד של האינטראקציה באינטרנט
מודלים של Gemini הם עכשיו רכיב בסיסי בתשתית ה-AI של Firecrawl, והם מאפשרים לחברה לספק צינורות נתונים מהימנים מהאינטרנט למוצרי AI.
Firecrawl בודקת כרגע את Gemini 2.5 Flash לתרחישי שימוש שבהם נדרש זמן אחזור נמוך במיוחד, ואינטראקציה בזמן אמת עם סוכן היא קריטית. ככל שמשפחת מודלי Gemini מתפתחת, Firecrawl מתכננת לשלב יכולות חדשות כדי לשפר עוד יותר את האינטראקציה של סוכני AI עם נתונים מהאינטרנט בעולם האמיתי.
כדי להתחיל לפתח אפליקציות משלכם, כדאי לעיין ביכולות של מודלי Gemini במאמרי העזרה של ה-API.