Chia sẻ

Ngày 29 tháng 8 năm 2025

InstaLILY: Một công cụ tìm kiếm doanh nghiệp tự động, dựa trên Gemini

Amit Shah

Giám đốc điều hành kiêm Nhà đồng sáng lập, Instalily.ai

Matt Ridenour

Trưởng nhóm Accelerator & Startup Ecosystem tại Hoa Kỳ, Google

Hình ảnh chính minh hoạ AgentOps

Các tác nhân AI doanh nghiệp tự động hoá quy trình làm việc phức tạp, chẳng hạn như bán hàng B2B hoặc bảo trì công nghiệp, yêu cầu các mô hình được huấn luyện trên một lượng lớn dữ liệu chất lượng cao, dành riêng cho từng miền. Đối với nhiều công ty, việc tạo dữ liệu này là một trở ngại chính, vì việc gắn nhãn thủ công rất chậm và tốn kém, còn các mô hình chung có thể thiếu sắc thái cần thiết.

InstaLILY AI, một nền tảng doanh nghiệp dành cho các tác nhân AI tự động và theo chiều dọc, giúp các công ty tự động hoá và chạy các quy trình công việc phức tạp trong hoạt động bán hàng, dịch vụ và vận hành. Đối với một trong những khách hàng của mình là PartsTown, họ cần xây dựng một công cụ tìm kiếm theo thời gian thực cho các Đặc vụ AI để ngay lập tức kết nối kỹ thuật viên dịch vụ tại hiện trường với các phụ tùng thay thế cụ thể trong danh mục gồm hơn 5 triệu mặt hàng. Điều này đòi hỏi một cách thức linh hoạt về quy mô để tạo ra hàng triệu nhãn chất lượng cao cho việc huấn luyện mô hình.

Để giải quyết vấn đề này, InstaLILY AI đã phát triển một quy trình tạo dữ liệu tổng hợp nhiều giai đoạn. Quy trình này sử dụng cấu trúc giáo viên – học viên, trong đó Gemini 2.5 Pro đóng vai trò là mô hình "giáo viên" để tạo dữ liệu huấn luyện đạt tiêu chuẩn vàng, còn mô hình Gemma được tinh chỉnh đóng vai trò là "học viên" để cho phép triển khai sản xuất có thể mở rộng với chi phí thấp.

Thách thức khi tạo dữ liệu huấn luyện chuyên biệt trên quy mô lớn

Trọng tâm của công cụ tìm kiếm phụ tùng là một mô hình mức độ liên quan, kết nối cụm từ tìm kiếm của kỹ thuật viên dịch vụ (ví dụ: "máy nén cho tủ lạnh Northland") cho đến số linh kiện chính xác. Để huấn luyện mô hình này, chúng tôi cần một tập dữ liệu khổng lồ gồm các cặp phần truy vấn.

AI InstaLILY gặp phải một số thách thức với các phương pháp truyền thống:

  • Khả năng mở rộng: Không thể gắn nhãn hàng triệu dòng lệnh sản xuất theo cách thủ công.
  • Chi phí và chất lượng: Việc sử dụng các mô hình tiên tiến khác để gắn nhãn tốn kém hơn gấp 3 lần và dẫn đến tỷ lệ nhất quán thấp hơn 15% so với giải pháp cuối cùng của họ.
  • Hiệu suất: Một cụm từ tìm kiếm dựa trên LLM đang hoạt động sẽ quá chậm, với các thử nghiệm ban đầu cho thấy độ trễ là 2 phút và không thể xử lý 500 truy vấn trở lên mỗi giây (QPS) cần thiết trong quá trình sản xuất.


Họ cần một hệ thống có thể tạo ra dữ liệu chất lượng cao một cách tiết kiệm chi phí, dẫn đến mô hình cuối cùng nhanh chóng và chính xác.

Quy trình gồm 3 giai đoạn với Gemini và Gemma

InstaLILY AI đã thiết kế một quy trình gồm 3 giai đoạn, sử dụng khả năng suy luận nâng cao của Gemini 2.5 Pro để tạo ra các nhãn chất lượng cao, sau đó chắt lọc kiến thức đó thành các mô hình nhỏ hơn và hiệu quả hơn để sản xuất.

Quy trình hoạt động như sau:

  • Tạo dữ liệu tổng hợp (mô hình giáo viên): Gemini 2.5 Pro tạo nhãn đạt tiêu chuẩn cao cho các cặp phần truy vấn. Để đạt được độ chính xác cao, AI InstaLILY sử dụng phương pháp lập luận chuỗi suy nghĩ đa góc độ (Multi-CoT), nhắc mô hình phân tích các bộ phận từ nhiều góc độ, bao gồm thương hiệu, danh mục, thông số kỹ thuật và logic nghiệp vụ phức tạp để đảm bảo khả năng tương thích. Phương pháp này đạt được độ nhất trí 94% với các chuyên gia là con người trong một bộ thử nghiệm mù.
  • Huấn luyện mô hình cho học viên: Nhãn chất lượng cao từ Gemini 2.5 Pro được dùng để tinh chỉnh Gemma-7B. InstaLILY AI đã sử dụng một số kỹ thuật để tối ưu hoá mô hình học viên, bao gồm cả phương pháp Tối ưu hoá lựa chọn ưu tiên trực tiếp (DPO), giúp giảm 40% kết quả dương tính giả. Họ cũng tạo ra một nhóm gồm 3 biến thể Gemma được tinh chỉnh để bình chọn cho từng mẫu, giúp tăng độ chính xác của nhãn lên 96%.
  • Phân phát trong môi trường sản xuất: Kiến thức từ các mô hình Gemma được chắt lọc thành một mô hình BERT gọn nhẹ (110 triệu tham số) cho môi trường sản xuất cuối cùng. Mô hình nhỏ hơn này duy trì độ chính xác 89% theo điểm F1 trong khi phân phát các yêu cầu ở tốc độ 600 QPS.


"Nếu không có tính năng gắn nhãn chuỗi suy luận của LLM để khởi động mô hình tinh chỉnh của chúng tôi, chúng tôi sẽ phải gắn thẻ thủ công cho một lượng lớn dữ liệu", nhóm AI của InstaLILY cho biết. "Gemini giúp chúng tôi chuẩn bị dữ liệu nhanh hơn đáng kể và cho phép chúng tôi phân bổ lại hàng trăm giờ làm việc của kỹ sư cho các công việc có mức độ tác động cao hơn như tinh chỉnh và điều phối."

Giảm độ trễ 99,8% và chi phí 98,3%

Cấu trúc giáo viên – học viên đã mang lại những cải tiến đáng kể về tốc độ, chi phí và độ chính xác.

Hệ thống cuối cùng đạt được:

  • Giảm độ trễ truy vấn: Từ 2 phút xuống 0,2 giây (cải thiện 99,8%).
  • Giảm chi phí phân phát: Từ 0,12 USD xuống còn 0,002 USD cho mỗi 1.000 truy vấn (giảm 98,3%).
  • Độ chính xác cao: Điểm F1 khoảng 90% trên một tập dữ liệu giữ lại không công khai.


Quá trình phát triển cũng được đẩy nhanh. Nhóm đã tạo một nguyên mẫu trong 48 giờ và một quy trình sẵn sàng sản xuất trong 4 tuần. Họ ước tính rằng quá trình này sẽ mất từ 3 đến 4 tháng nếu không có hệ sinh thái Gemini và Gemma.

Amit Shah, Nhà sáng lập kiêm Giám đốc điều hành của InstaLILY cho biết: "Việc tham gia Chương trình tăng tốc của Google đã giúp chúng tôi áp dụng toàn bộ phương pháp này". "Nhờ sự hỗ trợ kỹ thuật trực tiếp, quyền truy cập sớm vào Gemini và Gemma, cũng như tín dụng Cloud hào phóng, chúng tôi đã chuyển từ nguyên mẫu sang sản xuất chỉ trong vài tuần chứ không phải vài tháng."

Phát triển trong tương lai bằng cách học tập liên tục và đa phương thức

InstaLILY AI dự định mở rộng các chức năng của các tác nhân AI bằng cách kết hợp các tính năng đa phương thức của Gemini. Nhờ đó, kỹ thuật viên có thể tải ảnh của một thiết bị bị hỏng lên để hỗ trợ chẩn đoán. Họ cũng đang phát triển một dịch vụ học tập chủ động liên tục, có thể gắn cờ các cụm từ tìm kiếm trực tiếp có độ tin cậy thấp, chuyển các cụm từ đó đến Gemini để chú thích và huấn luyện lại các mô hình sản xuất hằng tuần.

Thành công của công cụ tìm kiếm InstaLILY AI cho các AI Agent của họ cho thấy cách cấu trúc giáo viên-học viên, kết hợp sức mạnh suy luận của Gemini 2.5 Pro với hiệu quả của các mô hình Gemma được tinh chỉnh, có thể giải quyết các thách thức phức tạp về việc tạo dữ liệu và cho phép các ứng dụng AI có hiệu suất cao, có thể mở rộng.

Để bắt đầu xây dựng bằng các mô hình Gemini và Gemma, hãy đọc tài liệu về API của chúng tôi.