Bagikan

16 OKT 2026

Firecrawl menggunakan Gemini 2.5 Pro untuk menyusun data web bagi aplikasi AI

Eric Ciarla

Co-Founder

Vishal Dharmadhikari

Product Solutions Engineer

Banner besar Firecrawl

Aplikasi AI, seperti sistem retrieval-augmented generation (RAG) dan agen otonom, semakin memerlukan akses ke informasi langsung dan nyata dari web. Namun, konten web sering kali tidak terstruktur, dinamis, dan tidak konsisten, sehingga membuat ekstraksi data yang andal menjadi tantangan yang signifikan bagi developer.

Firecrawl, platform data web berbasis AI, menyediakan API yang memungkinkan developer dan sistem AI menemukan, mengambil, mengurai, dan menyusun data web secara terprogram dalam skala besar. Mereka mengabstraksi kompleksitas scraping web tradisional, mengubah konten web tidak terstruktur menjadi data yang bersih dan dapat digunakan.

Untuk mencapainya, Firecrawl menggunakan Gemini 2.5 Pro untuk mendukung mesin ekstraksi intinya. Model Gemini memberikan kemampuan pemahaman dan penalaran bahasa tingkat lanjut yang diperlukan untuk mengurai konten web yang beragam dan tidak beraturan secara akurat.

Mengubah web tidak terstruktur menjadi data yang dapat digunakan

Firecrawl bertujuan membuat seluruh web dapat diakses oleh sistem AI. Metode scraping web berbasis aturan tradisional sering kali rapuh dan memerlukan pemeliharaan yang konstan karena struktur situs sering berubah. Firecrawl memerlukan solusi yang mampu memahami konteks dan mengekstrak data secara andal, bahkan dari sumber yang sangat bervariasi.

Firecrawl mengembangkan dua produk inti menggunakan Gemini 2.5 Pro:

  • SmartScrape: Alat ekstraksi yang menggunakan kemampuan pemahaman bahasa dan penalaran Gemini 2.5 Pro untuk mengubah HTML mentah menjadi output terstruktur, seperti JSON atau pasangan nilai kunci. Fitur ini melakukan ekstraksi yang sadar konteks, memahami arti data yang relatif terhadap sasaran yang ditentukan pengguna, bukan hanya lokasinya di halaman.
  • FIRE-1: Framework agen eksperimental yang menggunakan Gemini 2.5 Pro untuk menafsirkan maksud pengguna, menjelajahi konten web, dan membuat output berdasarkan data web langsung.


Sebelum mengadopsi Gemini 2.5 Pro, Firecrawl mengevaluasi beberapa model terkemuka. Mereka menemukan bahwa model lain kesulitan menangani kompleksitas dan variabilitas konten web dunia nyata dalam skala produksi.

"Gemini 2.5 Pro membuat keseluruhan proyek menjadi layak," kata Eric Ciarla, salah satu pendiri Firecrawl. "Sebelum menggunakan Gemini 2.5 Pro, model yang kami uji tidak dapat menangani tingkat kompleksitas yang diperlukan untuk mengekstrak dan menyimpulkan konten web dunia nyata secara andal. Kemampuan penalaran, akurasi, dan stabilitas Gemini 2.5 Pro memungkinkan kami melangkah maju dengan percaya diri."

Menerapkan Gemini 2.5 Pro dengan panggilan alat

Firecrawl mengintegrasikan Gemini 2.5 Pro ke dalam produk mereka dalam waktu sekitar satu minggu. Mereka memanfaatkan kemampuan penalaran dan pemanggilan alat model dalam arsitektur agen mereka.

Dalam framework agen FIRE-1, model beroperasi dalam loop agen yang menggabungkan penalaran Gemini 2.5 Pro dengan alur kontrol deterministik. Prosesnya berjalan sebagai berikut:

  • Input: Agen menerima Document Object Model (DOM) halaman web dan tujuan pengguna yang ditentukan (misalnya, "get me all the pages on this website" (tampilkan semua halaman di situs ini).
  • Penalaran: Gemini 2.5 Pro menganalisis input dan menentukan tindakan yang diperlukan.
  • Eksekusi: Model mengeksekusi tindakan ini melalui panggilan alat (panggilan fungsi). Untuk tugas navigasi, agen dapat memanggil fungsi secara mandiri seperti click(next_page) untuk mengambil data yang diperlukan.


Pendekatan ini memungkinkan Firecrawl menangani tugas ekstraksi dan navigasi web yang kompleks yang memerlukan fleksibilitas dan prediktabilitas.

Mencapai akurasi ekstraksi 98%

Dalam tolok ukur internal yang membandingkan akurasi ekstraksi dan parsing web yang kompleks, Gemini 2.5 Pro secara signifikan mengungguli model lain yang dievaluasi Firecrawl.

Gemini 2.5 Pro mencapai akurasi 98% dalam evaluasi internal Firecrawl. Model terbaik berikutnya yang diuji mencapai akurasi sekitar 80%. Peningkatan performa ini secara langsung menghasilkan output ekstraksi yang berkualitas lebih tinggi dan perilaku agen yang lebih andal dalam workload produksi.

"Dalam pengujian internal kami, Gemini 2.5 Pro secara konsisten mengungguli alternatif di setiap dimensi utama untuk kasus penggunaan kami: akurasi ekstraksi, penalaran kompleks, latensi, dan throughput keseluruhan," kata Ciarla.

Membangun masa depan interaksi web

Model Gemini kini menjadi komponen dasar infrastruktur AI Firecrawl, sehingga memungkinkan mereka menyediakan pipeline data web yang andal untuk produk AI.
Firecrawl saat ini mengevaluasi Gemini 2.5 Flash untuk kasus penggunaan yang memerlukan latensi sangat rendah, dengan interaksi agentik real-time yang sangat penting.
Seiring berkembangnya keluarga model Gemini, Firecrawl berencana mengintegrasikan kemampuan baru untuk lebih meningkatkan cara agen AI berinteraksi dengan data web dunia nyata.

Untuk mulai membangun aplikasi Anda sendiri, pelajari kemampuan model Gemini dalam dokumentasi API kami.