Bagikan

29 AGUSTUS 2025

InstaLILY: Mesin telusur perusahaan berbasis agen, yang didukung oleh Gemini

Amit Shah

CEO & Co-Founder, Instalily.ai

Matt Ridenour

Head of Accelerator & Startup Ecosystem USA, Google

Banner besar showcase AgentOps

Agen AI tingkat perusahaan yang mengotomatiskan alur kerja yang kompleks, seperti penjualan B2B atau pemeliharaan industri, memerlukan model yang dilatih menggunakan sejumlah besar data spesifik per domain yang berkualitas tinggi. Bagi banyak perusahaan, pembuatan data ini menjadi hambatan utama, karena pemberian label secara manual lambat dan mahal, serta model generik mungkin tidak memiliki nuansa yang diperlukan.

InstaLILY AI, platform perusahaan untuk agen AI vertikal dan mandiri, membantu perusahaan mengotomatiskan dan menjalankan alur kerja yang kompleks dalam penjualan, layanan, dan operasi. Untuk salah satu kliennya, PartsTown, mereka perlu membuat mesin telusur real-time agar Agen AI dapat langsung mencocokkan teknisi layanan lapangan dengan suku cadang tertentu dari katalog yang berisi lebih dari lima juta item. Hal ini memerlukan cara yang skalabel untuk membuat jutaan label berkualitas tinggi untuk pelatihan model.

Untuk mengatasi hal ini, InstaLILY AI mengembangkan pipeline pembuatan data sintetis multi-tahap. Pipeline ini menggunakan arsitektur guru-siswa, dengan Gemini 2.5 Pro bertindak sebagai model “guru” untuk menghasilkan data pelatihan standar emas, dan model Gemma yang telah disesuaikan sebagai “siswa” untuk memungkinkan deployment produksi yang skalabel dan berbiaya rendah.

Tantangan membuat data pelatihan khusus dalam skala besar

Inti mesin telusur suku cadang adalah model relevansi yang menghubungkan kueri teknisi servis (misalnya, "kompresor untuk kulkas Northland") ke nomor suku cadang yang tepat. Pelatihan model ini memerlukan set data besar yang berisi pasangan bagian kueri.

InstaLILY AI menghadapi beberapa tantangan dengan metode tradisional:

  • Skalabilitas: Pelabelan jutaan baris perintah kerja secara manual tidak dapat dilakukan.
  • Biaya dan kualitas: Penggunaan model canggih lainnya untuk pelabelan tiga kali lebih mahal dan menghasilkan tingkat kesepakatan 15% lebih rendah dibandingkan dengan solusi akhir mereka.
  • Performa: Penelusuran yang didukung LLM secara real time akan terlalu lambat, dengan pengujian awal menunjukkan latensi dua menit, dan tidak dapat menangani lebih dari 500 kueri per detik (QPS) yang diperlukan dalam produksi.


Mereka memerlukan sistem yang dapat menghasilkan data berkualitas tinggi secara hemat biaya, sehingga menghasilkan model akhir yang cepat dan akurat.

Pipeline tiga tahap dengan Gemini dan Gemma

InstaLILY AI merekayasa pipeline tiga tahap yang menggunakan penalaran canggih Gemini 2.5 Pro untuk membuat label berkualitas tinggi, lalu menyaring pengetahuan tersebut ke dalam model yang lebih kecil dan efisien untuk produksi.

Pipeline ini berfungsi sebagai berikut:

  • Pembuatan data sintetis (model pengajar): Gemini 2.5 Pro menghasilkan label standar emas untuk pasangan bagian kueri. Untuk mencapai akurasi yang tinggi, AI InstaLILY menggunakan penalaran multi-perspektif chain-of-thought (Multi-CoT), yang mendorong model untuk menganalisis bagian dari berbagai sudut pandang, termasuk merek, kategori, spesifikasi, dan logika bisnis yang kompleks untuk kompatibilitas. Pendekatan ini mencapai kesepakatan 94% dengan pakar manusia pada set pengujian buta.
  • Pelatihan model siswa: Label berkualitas tinggi dari Gemini 2.5 Pro digunakan untuk menyempurnakan Gemma-7B. AI InstaLILY menggunakan beberapa teknik untuk mengoptimalkan model siswa, termasuk Direct Preference Optimization (DPO), yang mengurangi positif palsu sebesar 40%. Mereka juga membuat ansambel tiga varian Gemma yang di-fine-tune yang memberikan suara pada setiap sampel, sehingga meningkatkan presisi label hingga 96%.
  • Penayangan produksi: Pengetahuan dari model Gemma disaring ke dalam model BERT ringan (110 juta parameter) untuk lingkungan produksi akhir. Model yang lebih kecil ini mempertahankan akurasi skor F1 sebesar 89% sekaligus melayani permintaan pada 600 QPS.


"Tanpa pelabelan chain-of-thought LLM untuk mem-bootstrap model yang disederhanakan, kami harus memberi tag pada data dalam jumlah yang sangat besar secara manual," kata tim AI InstaLILY. "Gemini secara signifikan mempercepat penyiapan data dan memungkinkan kami mengalokasikan kembali ratusan jam kerja engineering untuk tugas-tugas yang lebih penting seperti penyesuaian dan orkestrasi.”

Mengurangi latensi sebesar 99,8% dan biaya sebesar 98,3%

Arsitektur pengajar-siswa memberikan peningkatan yang signifikan dalam kecepatan, biaya, dan akurasi.

Sistem akhir mencapai:

  • Pengurangan latensi kueri: Dari 2 menit menjadi 0,2 detik (peningkatan sebesar 99,8%).
  • Pengurangan biaya penayangan: Dari $0,12 menjadi $0,002 per 1.000 kueri (pengurangan sebesar 98,3%).
  • Akurasi tinggi: Skor F1 ~90% pada set data hold-out yang tidak diketahui.


Proses pengembangan juga dipercepat. Tim tersebut membangun prototipe dalam 48 jam dan pipeline yang siap produksi dalam empat minggu—proses yang diperkirakan akan memakan waktu tiga hingga empat bulan tanpa ekosistem Gemini dan Gemma.

“Menjadi bagian dari Google Accelerator telah membuka seluruh pendekatan ini,” kata Amit Shah, Pendiri & CEO InstaLILY. “Dukungan teknis langsung, akses awal ke Gemini dan Gemma, serta kredit Cloud yang besar membantu kami beralih dari prototipe ke produksi dalam beberapa minggu, bukan berbulan-bulan.”

Pengembangan mendatang dengan pembelajaran multimodal dan berkelanjutan

InstaLILY AI berencana memperluas kemampuan agen AI-nya dengan menggabungkan fitur multimodal Gemini. Dengan begitu, teknisi dapat mengupload foto unit yang rusak untuk membantu diagnosis. Mereka juga mengembangkan layanan active learning berkelanjutan yang menandai kueri aktif dengan tingkat keyakinan rendah, mengarahkannya ke Gemini untuk anotasi, dan melatih ulang model produksi setiap minggu.

Keberhasilan mesin telusur InstaLILY AI untuk Agen AI mereka menunjukkan bagaimana arsitektur guru-siswa, yang menggabungkan kemampuan penalaran Gemini 2.5 Pro dengan efisiensi model Gemma yang telah disesuaikan, dapat memecahkan tantangan pembuatan data yang kompleks dan memungkinkan aplikasi AI yang skalabel dan berperforma tinggi.

Untuk mulai membangun dengan model Gemini dan Gemma, baca dokumentasi API kami.