分享

2025 年 8 月 29 日

InstaLILY:由 Gemini 提供支持的智能企业搜索引擎

Amit Shah

Instalily.ai 首席执行官兼联合创始人

Matt Ridenour

Google 美国加速器和初创公司生态系统主管

AgentOps 展示主图

可自动执行复杂工作流程(例如 B2B 销售或工业维护)的企业 AI 代理需要使用大量高质量的特定领域数据训练的模型。对于许多公司来说,创建此类数据是一项主要瓶颈,因为人工标记速度慢且成本高昂,而通用模型可能缺乏必要的细微差别。

InstaLILY AI 是一个面向自主垂直 AI 代理的企业平台,可帮助公司在销售、服务和运营方面实现复杂工作流的自动化和运行。对于其客户 PartsTown,他们需要构建一个实时搜索引擎,以便 AI 代理能够立即将现场服务技术人员与目录中超过 500 万件特定替换零件相匹配。这需要一种可扩缩的方式来生成数百万个高质量的标签,以用于模型训练。

为了解决这个问题,InstaLILY AI 开发了一个多阶段合成数据生成流水线。该流水线采用师生架构,其中 Gemini 2.5 Pro 充当“教师”模型来生成黄金标准训练数据,而微调后的 Gemma 模型充当“学生”模型,以实现可扩缩的低成本生产部署。

大规模创建专业训练数据的挑战

零部件搜索引擎的核心是一个相关性模型,该模型将服务技师的查询(例如““Northland 冰箱的压缩机”)到确切的零件编号。训练此模型需要庞大的查询-部分对数据集。

InstaLILY AI 在使用传统方法时面临着多项挑战:

  • 可扩缩性:手动为数百万个工单行添加标签不可行。
  • 成本和质量:与其他前沿模型相比,使用其最终解决方案进行标签处理的成本高出三倍,但一致率却低了 15%。
  • 性能:由 LLM 提供支持的实时搜索速度太慢,初始测试显示延迟时间为 2 分钟,并且无法在生产环境中处理所需的每秒 500 次以上的查询 (QPS)。


他们需要一个能够经济高效地生成高质量数据的系统,从而快速准确地生成最终模型。

一个包含 Gemini 和 Gemma 的三阶段流水线

InstaLILY AI 设计了一个三阶段流水线,该流水线使用 Gemini 2.5 Pro 的高级推理功能来创建高质量标签,然后将这些知识提炼到更小、更高效的生产模型中。

流水线的工作方式如下:

  • 合成数据生成(教师模型):Gemini 2.5 Pro 为查询-部分对生成黄金标准标签。为了实现高准确度,InstaLILY AI 使用多视角思维链 (Multi-CoT) 推理,提示模型从多个角度分析零件,包括品牌、类别、规格和复杂的业务逻辑(用于兼容性)。在盲测集中,此方法的判断结果与人类专家的判断结果一致的比例达到了 94%。
  • 学生模型训练:使用 Gemini 2.5 Pro 提供的高质量标签来微调 Gemma-7B。InstaLILY AI 采用了多种技术来优化学生模型,包括直接偏好优化 (DPO),该技术可将假正例减少 40%。他们还创建了一个由 3 个微调后的 Gemma 变体组成的集成模型,该模型可对每个样本进行投票,从而将标签精确度提高到 96%。
  • 生产环境服务:将 Gemma 模型中的知识提炼到轻量级 BERT 模型(1.1 亿个参数)中,以用于最终的生产环境。这个较小的模型在以 600 QPS 的速度处理请求时,仍能保持 89% 的 F1 分数准确率。


“如果没有 LLM 的推理链标签来引导我们的精简模型,我们就需要手动标记海量数据,”InstaLILY AI 团队表示。“Gemini 大大加快了数据准备速度,让我们能够将数百小时的工程时间重新分配给微调和编排等更高杠杆的任务。”

将延迟时间缩短了 99.8%,并将费用降低了 98.3%

师生架构在速度、成本和准确性方面取得了显著改进。

最终系统实现:

  • 查询延迟时间缩短:从 2 分钟缩短到 0.2 秒(提高了 99.8%)。
  • 服务费用降低:从每 1,000 次查询 0.12 美元降至 0.002 美元(降幅为 98.3%)。
  • 高准确率:在盲留出数据集上的 F1 得分约为 90%。


开发流程也得到了加速。该团队在 48 小时内构建了一个原型,并在 4 周内构建了一个可投入生产的流水线。他们估计,如果没有 Gemini 和 Gemma 生态系统,这个过程需要 3 到 4 个月。

“加入 Google Accelerator 计划后,我们才得以采用这种全新的方法,”InstaLILY 的创始人兼首席执行官 Amit Shah 说道。“Google 提供的实操技术支持、Gemini 和 Gemma 抢先体验机会以及丰厚的 Cloud 赠金,帮助我们在数周(而非数月)内从原型设计阶段过渡到生产阶段。”

多模态和持续学习方面的未来发展

InstaLILY AI 计划通过纳入 Gemini 的多模态功能来扩展其 AI 代理的功能。这样,技术人员就可以上传损坏设备的照片,以便进行诊断。他们还在开发一项持续主动学习服务,该服务会标记低置信度的实时查询,将其路由到 Gemini 进行注释,并每周重新训练生产模型。

InstaLILY AI 针对其 AI 代理打造的搜索引擎取得了巨大成功,这表明教师-学生架构(将 Gemini 2.5 Pro 的推理能力与经过微调的 Gemma 模型的高效性相结合)可以解决复杂的数据生成难题,并实现高性能、可扩缩的 AI 应用。

如需开始使用 Gemini 和 Gemma 模型进行构建,请参阅我们的 API 文档