Ngày 29 tháng 8 năm 2025
InstaLILY: Một công cụ tìm kiếm doanh nghiệp đại lý, được hỗ trợ bởi Gemini
Các tác nhân AI doanh nghiệp tự động hóa quy trình làm việc phức tạp, như bán hàng B2B hoặc bảo trì công nghiệp, yêu cầu các mô hình được đào tạo trên lượng lớn dữ liệu chất lượng cao, cụ thể theo từng lĩnh vực. Đối với nhiều công ty, việc tạo dữ liệu này là một nút thắt chính, vì việc gắn nhãn thủ công rất chậm và tốn kém, còn các mô hình chung có thể thiếu sắc thái cần thiết.
InstaLILY AI, một nền tảng doanh nghiệp dành cho các tác nhân AI tự động và theo chiều dọc, giúp các công ty tự động hóa và vận hành các quy trình làm việc phức tạp trong bán hàng, dịch vụ và vận hành. Đối với một trong những khách hàng của mình là PartsTown, họ cần xây dựng một công cụ tìm kiếm theo thời gian thực cho Các tác nhân AI để ngay lập tức kết nối kỹ thuật viên dịch vụ tại hiện trường với các phụ tùng thay thế cụ thể trong danh mục gồm hơn 5 triệu mặt hàng. Điều này đòi hỏi một phương pháp có khả năng mở rộng để tạo ra hàng triệu nhãn chất lượng cao phục vụ cho việc đào tạo mô hình.
Để giải quyết vấn đề này, InstaLILY AI đã phát triển một quy trình tạo dữ liệu tổng hợp nhiều giai đoạn. Quy trình này sử dụng cấu trúc giáo viên – học viên, trong đó Gemini 2.5 Pro đóng vai trò là mô hình "giáo viên" để tạo dữ liệu huấn luyện đạt tiêu chuẩn vàng, còn mô hình Gemma được tinh chỉnh đóng vai trò là "học viên" để cho phép triển khai sản xuất có thể mở rộng với chi phí thấp.
Thách thức trong việc tạo dữ liệu đào tạo chuyên biệt ở quy mô lớn
Cốt lõi của công cụ tìm kiếm phụ tùng là một mô hình liên quan kết nối truy vấn của kỹ thuật viên dịch vụ (ví dụ: "máy nén cho tủ lạnh Northland") đến mã linh kiện chính xác. Để huấn luyện mô hình này, chúng tôi cần một tập dữ liệu khổng lồ gồm các cặp phần truy vấn.
AI InstaLILY gặp phải một số thách thức với các phương pháp truyền thống:
- Khả năng mở rộng: Việc dán nhãn thủ công hàng triệu dòng lệnh công việc là không khả thi.
- Chi phí và chất lượng: Sử dụng các mô hình biên giới khác để dán nhãn đắt hơn gấp ba lần và dẫn đến tỷ lệ đồng ý thấp hơn 15% so với giải pháp cuối cùng.
- Hiệu suất: Tìm kiếm trực tiếp do LLM cung cấp sẽ quá chậm, với các thử nghiệm ban đầu cho thấy độ trễ là hai phút và không thể xử lý 500+ truy vấn mỗi giây (QPS) theo yêu cầu trong quá trình sản xuất.
Họ cần một hệ thống có thể tạo ra dữ liệu chất lượng cao một cách tiết kiệm chi phí, dẫn đến mô hình cuối cùng nhanh chóng và chính xác.
Đường ống ba giai đoạn với Gemini và Gemma
InstaLILY AI đã thiết kế một quy trình gồm 3 giai đoạn, sử dụng khả năng suy luận nâng cao của Gemini 2.5 Pro để tạo ra các nhãn chất lượng cao, sau đó chắt lọc kiến thức đó thành các mô hình nhỏ hơn và hiệu quả hơn để sản xuất.
Quy trình hoạt động như sau:
- Tạo dữ liệu tổng hợp (mô hình giáo viên): Gemini 2.5 Pro tạo nhãn đạt tiêu chuẩn cao cho các cặp phần truy vấn. Để đạt được độ chính xác cao, InstaLILY AI sử dụng lý luận chuỗi suy nghĩ đa góc nhìn (Multi-CoT), thúc đẩy mô hình phân tích các bộ phận từ nhiều góc độ, bao gồm thương hiệu, danh mục, thông số kỹ thuật và logic kinh doanh phức tạp để đảm bảo khả năng tương thích. Phương pháp này đạt được độ chính xác 94% so với các chuyên gia là con người trong một bộ thử nghiệm mù.
- Huấn luyện mô hình cho học viên: Nhãn chất lượng cao từ Gemini 2.5 Pro được dùng để tinh chỉnh Gemma-7B. InstaLILY AI đã sử dụng một số kỹ thuật để tối ưu hoá mô hình học viên, bao gồm cả phương pháp Tối ưu hoá lựa chọn ưu tiên trực tiếp (DPO), giúp giảm 40% kết quả dương tính giả. Họ cũng tạo ra một nhóm gồm 3 biến thể Gemma được tinh chỉnh để bình chọn cho từng mẫu, giúp tăng độ chính xác của nhãn lên 96%.
- Phân phát trong môi trường sản xuất: Kiến thức từ các mô hình Gemma được tinh chỉnh thành một mô hình BERT gọn nhẹ (110 triệu tham số) cho môi trường sản xuất cuối cùng. Mô hình nhỏ hơn này duy trì độ chính xác 89% về điểm F1 trong khi phân phát các yêu cầu ở tốc độ 600 QPS.
"Nếu không có tính năng gắn nhãn chuỗi suy luận của LLM để khởi động mô hình tinh chỉnh của chúng tôi, chúng tôi sẽ phải gắn thẻ thủ công cho một lượng lớn dữ liệu", nhóm AI của InstaLILY cho biết. "Gemini đã giúp chúng tôi chuẩn bị dữ liệu nhanh hơn đáng kể và cho phép chúng tôi phân bổ lại hàng trăm giờ làm việc của kỹ sư cho các công việc có mức độ tác động cao hơn như tinh chỉnh và điều phối."
Giảm độ trễ 99,8% và chi phí 98,3%
Cấu trúc giáo viên-học viên đã mang lại những cải tiến đáng kể về tốc độ, chi phí và độ chính xác.
Hệ thống cuối cùng đạt được:
- Giảm độ trễ của truy vấn: Từ 2 phút xuống 0,2 giây (cải thiện 99,8%).
- Giảm chi phí phân phát: Từ 0,12 USD xuống còn 0,002 USD cho mỗi 1.000 truy vấn (giảm 98,3%).
- Độ chính xác cao: Điểm F1 khoảng 90% trên một tập dữ liệu giữ lại không công khai.
Quá trình phát triển cũng được đẩy nhanh. Nhóm đã tạo một nguyên mẫu trong 48 giờ và một quy trình sẵn sàng sản xuất trong 4 tuần. Theo ước tính của họ, quy trình này sẽ mất từ 3 đến 4 tháng nếu không có hệ sinh thái Gemini và Gemma.
Amit Shah, Nhà sáng lập kiêm Giám đốc điều hành của InstaLILY, cho biết: “Việc tham gia Google Accelerator đã mở ra toàn bộ phương pháp tiếp cận này”. "Nhờ sự hỗ trợ kỹ thuật trực tiếp, quyền truy cập sớm vào Gemini và Gemma, cùng với khoản tín dụng hào phóng trên Cloud, chúng tôi đã chuyển từ giai đoạn tạo nguyên mẫu sang giai đoạn sản xuất chỉ trong vài tuần, thay vì vài tháng."
Phát triển trong tương lai bằng cách học tập liên tục và đa phương thức
InstaLILY AI dự định mở rộng các chức năng của tác nhân AI bằng cách kết hợp các tính năng đa phương thức của Gemini. Tính năng này sẽ cho phép các kỹ thuật viên tải lên ảnh chụp thiết bị bị hỏng để hỗ trợ chẩn đoán. Họ cũng đang phát triển một dịch vụ học tập chủ động liên tục, có thể gắn cờ các cụm từ tìm kiếm trực tiếp có độ tin cậy thấp, chuyển các cụm từ đó đến Gemini để chú thích và huấn luyện lại các mô hình sản xuất hằng tuần.
Thành công của công cụ tìm kiếm AI InstaLILY cho các AI Agent của họ cho thấy cách cấu trúc giáo viên-học viên, kết hợp sức mạnh suy luận của Gemini 2.5 Pro với hiệu quả của các mô hình Gemma được tinh chỉnh, có thể giải quyết các thách thức phức tạp về việc tạo dữ liệu và cho phép các ứng dụng AI có hiệu suất cao, có thể mở rộng.
Để bắt đầu xây dựng với các mô hình Gemini và Gemma, hãy đọc tài liệu API của chúng tôi.