16 OCT. 2026
Firecrawl utilise Gemini 2.5 Pro pour structurer les données Web pour les applications d'IA

Les applications d'IA, telles que les systèmes de génération augmentée par récupération (RAG) et les agents autonomes, ont de plus en plus besoin d'accéder à des informations Web en temps réel. Toutefois, le contenu Web est souvent non structuré, dynamique et incohérent, ce qui rend l'extraction fiable des données particulièrement difficile pour les développeurs.
Firecrawl, une plate-forme de données Web axée sur l'IA, fournit des API qui permettent aux développeurs et aux systèmes d'IA de trouver, d'extraire, d'analyser et de structurer des données Web à grande échelle de manière programmatique. Ils font abstraction de la complexité du Web Scraping traditionnel, en transformant le contenu Web non structuré en données propres et utilisables.
Pour ce faire, Firecrawl utilise Gemini 2.5 Pro pour alimenter son moteur d'extraction principal. Les modèles Gemini offrent les capacités avancées de compréhension et de raisonnement du langage nécessaires pour analyser avec précision les contenus Web divers et irréguliers.
Transformer le Web non structuré en données utilisables
Firecrawl vise à rendre l'ensemble du Web accessible aux systèmes d'IA. Les méthodes traditionnelles de Web scraping basées sur des règles sont souvent fragiles et nécessitent une maintenance constante, car les structures des sites Web changent fréquemment. Firecrawl avait besoin d'une solution capable de comprendre le contexte et d'extraire les données de manière fiable, même à partir de sources très variables.
Firecrawl a développé deux produits principaux à l'aide de Gemini 2.5 Pro :
- SmartScrape : outil d'extraction qui utilise les capacités de compréhension du langage et de raisonnement de Gemini 2.5 Pro pour transformer le code HTML brut en sorties structurées, telles que des paires clé/valeur ou des fichiers JSON. Elle effectue une extraction contextuelle, en comprenant la signification des données par rapport aux objectifs spécifiés par l'utilisateur, plutôt que leur simple emplacement sur une page.
- FIRE-1 : framework d'agent expérimental qui utilise Gemini 2.5 Pro pour interpréter l'intention de l'utilisateur, parcourir le contenu Web et générer des résultats basés sur des données Web en direct.
Avant d'adopter Gemini 2.5 Pro, Firecrawl a évalué plusieurs modèles de pointe. Ils ont constaté que d'autres modèles avaient du mal à gérer la complexité et la variabilité des contenus Web réels à l'échelle de la production.
"Gemini 2.5 Pro a rendu l'ensemble du projet possible", a déclaré Eric Ciarla, cofondateur de Firecrawl. "Avant d'utiliser Gemini 2.5 Pro, les modèles que nous avons testés n'étaient pas en mesure de gérer de manière fiable le niveau de complexité requis pour extraire et analyser du contenu Web réel. Les capacités de raisonnement, la précision et la stabilité de Gemini 2.5 Pro nous ont permis d'aller de l'avant en toute confiance."
Implémenter Gemini 2.5 Pro avec l'appel d'outils
Firecrawl a intégré Gemini 2.5 Pro à ses produits en une semaine environ. Ils exploitent les capacités de raisonnement et d'appel d'outils du modèle dans leur architecture d'agent.
Dans le framework d'agent FIRE-1, le modèle fonctionne dans une boucle d'agent qui combine le raisonnement de Gemini 2.5 Pro avec des flux de contrôle déterministes. Voici comment cela fonctionne :
- Entrée : l'agent reçoit le modèle DOM (Document Object Model) de la page Web et un objectif utilisateur défini (par exemple, "get me all the pages on this website" (donne-moi toutes les pages de ce site Web).
- Raisonnement : Gemini 2.5 Pro analyse les entrées et détermine les actions nécessaires.
- Exécution : le modèle exécute ces actions via l'appel d'outil (appels de fonction). Pour les tâches de navigation, l'agent peut appeler de manière autonome des fonctions telles que click(next_page) pour récupérer les données requises.
Cette approche permet à Firecrawl de gérer des tâches complexes de navigation et d'extraction Web qui nécessitent à la fois flexibilité et prévisibilité.
Atteindre une précision d'extraction de 98 %
Dans les benchmarks internes comparant la précision de l'extraction et l'analyse complexe du Web, Gemini 2.5 Pro a largement surpassé les autres modèles évalués par Firecrawl.
Gemini 2.5 Pro a atteint une précision de 98 % lors des évaluations internes de Firecrawl. Le modèle le plus performant après celui-ci a atteint une précision d'environ 80 %. Cette amélioration des performances s'est directement traduite par des résultats d'extraction de meilleure qualité et un comportement plus fiable des agents dans les charges de travail de production.
"Lors de nos tests internes, Gemini 2.5 Pro a constamment surpassé les alternatives dans toutes les dimensions clés de notre cas d'utilisation : précision de l'extraction, raisonnement complexe, latence et débit global", a noté Ciarla.
Construire l'avenir de l'interaction Web
Les modèles Gemini sont désormais un élément fondamental de l'infrastructure d'IA de Firecrawl, ce qui lui permet de fournir des pipelines de données Web fiables pour les produits d'IA.
Firecrawl évalue actuellement Gemini 2.5 Flash pour les cas d'utilisation nécessitant une latence ultra-faible, où l'interaction agentique en temps réel est essentielle. À mesure que la famille de modèles Gemini évolue, Firecrawl prévoit d'intégrer de nouvelles fonctionnalités pour améliorer encore la façon dont les agents d'IA interagissent avec les données Web réelles.
Pour commencer à créer vos propres applications, explorez les fonctionnalités des modèles Gemini dans notre documentation de l'API.