공유

2025년 8월 29일

InstaLILY: Gemini 기반의 에이전틱 엔터프라이즈 검색 엔진

아미트 샤

Instalily.ai CEO 겸 공동 창립자

Matt Ridenour

Google 액셀러레이터 및 스타트업 생태계 미국 책임자

AgentOps 쇼케이스 히어로

B2B 영업 또는 산업 유지보수와 같은 복잡한 워크플로를 자동화하는 엔터프라이즈 AI 에이전트에는 방대한 양의 고품질 도메인별 데이터로 학습된 모델이 필요합니다. 많은 기업에서 수동 라벨 지정은 느리고 비용이 많이 들며 일반 모델에는 필요한 미묘한 차이가 없을 수 있으므로 이러한 데이터를 만드는 것이 주요 병목 현상입니다.

자율적이고 수직적인 AI 에이전트를 위한 엔터프라이즈 플랫폼인 InstaLILY AI는 기업이 영업, 서비스, 운영에서 복잡한 워크플로를 자동화하고 실행할 수 있도록 지원합니다. PartsTown이라는 한 고객을 위해 AI 에이전트가 500만 개가 넘는 상품 카탈로그에서 현장 서비스 기술자를 특정 교체 부품과 즉시 매칭할 수 있는 실시간 검색엔진을 구축해야 했습니다. 이를 위해서는 모델 학습을 위한 수백만 개의 고품질 라벨을 생성할 수 있는 확장 가능한 방법이 필요했습니다.

이 문제를 해결하기 위해 InstaLILY AI는 다단계 합성 데이터 생성 파이프라인을 개발했습니다. 이 파이프라인은 교사-학생 아키텍처를 사용하며, Gemini 2.5 Pro가 '교사' 모델로 작동하여 골드 표준 학습 데이터를 생성하고, 미세 조정된 Gemma 모델이 '학생'으로 작동하여 확장 가능하고 저렴한 비용으로 프로덕션 배포를 지원합니다.

전문 학습 데이터를 대규모로 생성하는 문제

부품 검색 엔진의 핵심은 서비스 기술자의 질문 (예: 'Northland 냉장고용 압축기')에서 정확한 부품 번호까지 다양합니다. 이 모델을 학습시키려면 질문-부분 쌍의 방대한 데이터 세트가 필요했습니다.

InstaLILY AI는 기존 방식으로 다음과 같은 여러 문제에 직면했습니다.

  • 확장성: 수백만 개의 작업 주문 항목을 수동으로 라벨링하는 것은 불가능했습니다.
  • 비용 및 품질: 라벨 지정에 다른 최첨단 모델을 사용하면 최종 솔루션에 비해 비용이 3배 더 많이 들고 동의율이 15% 낮아졌습니다.
  • 성능: 라이브 LLM 기반 검색은 너무 느립니다. 초기 테스트에서 2분의 지연 시간이 발생했으며 프로덕션에서 필요한 초당 500개 이상의 쿼리 (QPS)를 처리할 수 없습니다.


이들은 비용 효율적으로 고품질 데이터를 생성하여 빠르고 정확한 최종 모델을 만들 수 있는 시스템이 필요했습니다.

Gemini 및 Gemma를 사용한 3단계 파이프라인

InstaLILY AI는 Gemini 2.5 Pro의 고급 추론을 사용하여 고품질 라벨을 생성한 다음 해당 지식을 더 작고 효율적인 프로덕션 모델로 증류하는 3단계 파이프라인을 설계했습니다.

파이프라인은 다음과 같이 작동합니다.

  • 합성 데이터 생성 (티처 모델): Gemini 2.5 Pro는 질문-부분 쌍의 골드 표준 라벨을 생성합니다. 높은 정확도를 위해 InstaLILY AI는 다각도 사고 흐름 (Multi-CoT) 추론을 사용하여 모델이 호환성을 위해 브랜드, 카테고리, 사양, 복잡한 비즈니스 로직 등 여러 각도에서 부품을 분석하도록 유도합니다. 이 접근 방식은 블라인드 테스트 세트에서 인간 전문가와 94% 의 일치율을 달성했습니다.
  • 학생 모델 학습: Gemini 2.5 Pro의 고품질 라벨을 사용하여 Gemma-7B를 파인 튜닝합니다. InstaLILY AI는 직접 선호도 최적화 (DPO)를 비롯한 여러 기법을 사용하여 학생 모델을 최적화했으며, 이를 통해 오탐이 40% 감소했습니다. 또한 각 샘플에 대해 투표하는 미세 조정된 Gemma 변형 3개로 구성된 앙상블을 만들어 라벨 정밀도를 96%로 높였습니다.
  • 프로덕션 서빙: Gemma 모델의 지식은 최종 프로덕션 환경을 위해 경량 BERT 모델 (1억 1천만 개의 파라미터)로 추출됩니다. 이 소형 모델은 600QPS로 요청을 처리하면서 89% 의 F1 점수 정확도를 유지합니다.


InstaLILY AI팀은 "증류 모델을 부트스트랩하기 위한 LLM의 사고의 흐름 라벨링이 없었다면 엄청난 양의 데이터를 직접 태그해야 했을 것입니다."라고 말했습니다. 'Gemini를 통해 데이터 준비가 크게 가속화되었으며, 미세 조정 및 오케스트레이션과 같은 활용도가 높은 작업에 수백 시간의 엔지니어링 시간을 재할당할 수 있었습니다.'

지연 시간 99.8% 감소, 비용 98.3% 감소

교사-학생 아키텍처는 속도, 비용, 정확성 측면에서 상당한 개선을 제공했습니다.

최종 시스템은 다음을 달성했습니다.

  • 쿼리 지연 시간 감소: 2분에서 0.2초로 감소 (99.8% 개선).
  • 제공 비용 절감: 1,000개 쿼리당 $0.12에서 $0.002로 감소 (98.3% 감소)
  • 높은 정확도: 블라인드 홀드아웃 데이터 세트에서 F1 점수가 약 90% 입니다.


개발 프로세스도 가속화되었습니다. 이 팀은 48시간 만에 프로토타입을, 4주 만에 프로덕션 준비가 완료된 파이프라인을 구축했습니다. Gemini 및 Gemma 생태계가 없었다면 3~4개월이 걸렸을 것으로 예상되는 프로세스입니다.

InstaLILY의 설립자 겸 CEO인 아미트 샤는 'Google 액셀러레이터에 참여하면서 이 접근 방식을 완전히 이해하게 되었습니다'라고 말했습니다. '실습 기술 지원, Gemini 및 Gemma 사전 체험, 넉넉한 Cloud 크레딧 덕분에 몇 달이 아닌 몇 주 만에 프로토타입에서 프로덕션으로 전환할 수 있었습니다.'

멀티모달 및 지속적 학습을 통한 향후 개발

InstaLILY AI는 Gemini의 멀티모달 기능을 통합하여 AI 에이전트의 기능을 확장할 계획입니다. 이를 통해 기술자는 진단에 도움이 되도록 고장난 장치의 사진을 업로드할 수 있습니다. 또한 신뢰도가 낮은 실시간 질문에 플래그를 지정하고, 주석을 달기 위해 Gemini로 라우팅하고, 프로덕션 모델을 매주 재학습시키는 지속적인 능동 학습 서비스도 개발하고 있습니다.

AI 에이전트를 위한 InstaLILY AI의 검색 엔진 성공 사례는 Gemini 2.5 Pro의 추론 기능과 세부 조정된 Gemma 모델의 효율성을 결합한 교사-학생 아키텍처가 복잡한 데이터 생성 문제를 해결하고 고성능의 확장 가능한 AI 애플리케이션을 지원하는 방법을 보여줍니다.

Gemini 및 Gemma 모델로 빌드를 시작하려면 API 문서를 참고하세요.