Condividi

16 OTTOBRE 2026

Firecrawl utilizza Gemini 2.5 Pro per strutturare i dati web per le applicazioni di AI

Eric Ciarla

Cofondatore

Vishal Dharmadhikari

Product Solutions Engineer

Hero della vetrina di Firecrawl

Le applicazioni di AI, come i sistemi di generazione aumentata dal recupero (RAG) e gli agenti autonomi, richiedono sempre più l'accesso a informazioni in tempo reale e reali dal web. Tuttavia, i contenuti web sono spesso non strutturati, dinamici e incoerenti, il che rende l'estrazione affidabile dei dati una sfida significativa per gli sviluppatori.

Firecrawl, una piattaforma di dati web basata sull'AI, fornisce API che consentono a sviluppatori e sistemi di AI di trovare, recuperare, analizzare e strutturare i dati web in modo programmatico su larga scala. Astraggono la complessità dello scraping web tradizionale, trasformando i contenuti web non strutturati in dati puliti e utilizzabili.

Per raggiungere questo obiettivo, Firecrawl utilizza Gemini 2.5 Pro per potenziare il motore di estrazione principale. I modelli Gemini forniscono le funzionalità avanzate di comprensione del linguaggio e ragionamento necessarie per analizzare con precisione contenuti web diversi e irregolari.

Trasformare il web non strutturato in dati utilizzabili

Firecrawl mira a rendere l'intero web accessibile ai sistemi di AI. I metodi tradizionali di web scraping basati su regole sono spesso fragili e richiedono una manutenzione costante perché le strutture dei siti web cambiano di frequente. Firecrawl aveva bisogno di una soluzione in grado di comprendere il contesto ed estrarre i dati in modo affidabile, anche da origini molto variabili.

Firecrawl ha sviluppato due prodotti principali utilizzando Gemini 2.5 Pro:

  • SmartScrape:uno strumento di estrazione che utilizza le funzionalità di comprensione del linguaggio e di ragionamento di Gemini 2.5 Pro per trasformare l'HTML non elaborato in output strutturati, come JSON o coppie chiave-valore. Esegue l'estrazione in base al contesto, comprendendo il significato dei dati rispetto agli obiettivi specificati dall'utente, anziché solo la loro posizione in una pagina.
  • FIRE-1: un framework di agenti sperimentale che utilizza Gemini 2.5 Pro per interpretare l'intento dell'utente, navigare nei contenuti web e generare output basati su dati web in tempo reale.


Prima di adottare Gemini 2.5 Pro, Firecrawl ha valutato diversi modelli leader. Hanno scoperto che altri modelli faticavano a gestire la complessità e la variabilità dei contenuti web del mondo reale su larga scala.

"Gemini 2.5 Pro ha reso fattibile l'intero progetto", ha affermato Eric Ciarla, co-fondatore di Firecrawl. "Prima di utilizzare Gemini 2.5 Pro, i modelli che abbiamo testato non erano in grado di gestire in modo affidabile il livello di complessità necessario per estrarre e analizzare i contenuti web reali. Le capacità di ragionamento, l'accuratezza e la stabilità di Gemini 2.5 Pro ci hanno permesso di andare avanti con sicurezza".

Implementare Gemini 2.5 Pro con la chiamata di strumenti

Firecrawl ha integrato Gemini 2.5 Pro nei suoi prodotti in circa una settimana. Sfruttano le funzionalità di ragionamento e chiamata di strumenti del modello all'interno dell'architettura dell'agente.

Nel framework dell'agente FIRE-1, il modello opera all'interno di un ciclo di agenti che combina il ragionamento di Gemini 2.5 Pro con flussi di controllo deterministici. La procedura funziona nel seguente modo:

  • Input:l'agente riceve il DOM (Document Object Model) della pagina web e un obiettivo utente definito (ad es. dammi tutte le pagine di questo sito web").
  • Motivazione:Gemini 2.5 Pro analizza gli input e determina le azioni necessarie.
  • Esecuzione:il modello esegue queste azioni tramite la chiamata di strumenti (chiamate di funzione). Per le attività di navigazione, l'agente potrebbe richiamare autonomamente funzioni come click(next_page) per recuperare i dati richiesti.


Questo approccio consente a Firecrawl di gestire attività complesse di navigazione ed estrazione web che richiedono sia flessibilità che prevedibilità.

Raggiungimento di un'accuratezza di estrazione del 98%

Nei benchmark interni che confrontano l'accuratezza dell'estrazione e l'analisi web complessa, Gemini 2.5 Pro ha superato in modo significativo gli altri modelli valutati da Firecrawl.

Gemini 2.5 Pro ha raggiunto una precisione del 98% nelle valutazioni interne di Firecrawl. Il modello successivo migliore testato ha raggiunto una precisione di circa l'80%. Questo aumento delle prestazioni si è tradotto direttamente in output di estrazione di qualità superiore e in un comportamento più affidabile degli agenti nei carichi di lavoro di produzione.

"Nei nostri test interni, Gemini 2.5 Pro ha costantemente superato le alternative in ogni dimensione chiave per il nostro caso d'uso: accuratezza dell'estrazione, ragionamento complesso, latenza e throughput complessivo", ha osservato Ciarla.

Creare il futuro dell'interazione web

I modelli Gemini sono ora un componente fondamentale dell'infrastruttura AI di Firecrawl, che consente di fornire pipeline di dati web affidabili per i prodotti AI.

Firecrawl sta attualmente valutando Gemini 2.5 Flash per i casi d'uso che richiedono una latenza molto bassa, in cui l'interazione in tempo reale con l'agente è fondamentale. Man mano che la famiglia di modelli Gemini si evolve, Firecrawl prevede di integrare nuove funzionalità per migliorare ulteriormente il modo in cui gli agenti AI interagiscono con i dati web del mondo reale.

Per iniziare a creare le tue applicazioni, esplora le funzionalità dei modelli Gemini nella nostra documentazione dell'API.