Ndaj

29 GUSHT 2025

InstaLILY: Një motor kërkimi për ndërmarrje agjentësh, i mundësuar nga Gemini

Amit Shah

Drejtor Ekzekutiv dhe Bashkëthemelues, Instalily.ai

Matt Ridenour

Drejtor i Akseleratorit dhe Ekosistemit të Startup-eve në SHBA, Google

Heroi i shfaqjes së AgentOps

Agjentët e inteligjencës artificiale të ndërmarrjeve që automatizojnë rrjedhat komplekse të punës, si shitjet B2B ose mirëmbajtja industriale, kërkojnë modele të trajnuara në sasi të mëdha të dhënash me cilësi të lartë, specifike për domenin. Për shumë kompani, krijimi i këtyre të dhënave është një pengesë kryesore, pasi etiketimi manual është i ngadaltë dhe i kushtueshëm, dhe modeleve gjenerike mund t'u mungojë nuanca e nevojshme.

InstaLILY AI , një platformë ndërmarrjesh për agjentë autonomë dhe vertikalë të IA-së, i ndihmon kompanitë të automatizojnë dhe të drejtojnë flukse pune komplekse në shitje, shërbime dhe operacione. Për një nga klientët e tyre, PartsTown, ata kishin nevojë të ndërtonin një motor kërkimi në kohë reale për agjentët e IA-së për të gjetur menjëherë përputhjen e teknikëve të shërbimit në terren me pjesë këmbimi specifike nga një katalog me mbi pesë milionë artikuj. Kjo kërkonte një mënyrë të shkallëzueshme për të gjeneruar miliona etiketa me cilësi të lartë për trajnimin e modelit.

Për ta zgjidhur këtë, InstaLILY AI zhvilloi një tubacion gjenerimi të të dhënave sintetike me shumë faza. Tubacioni përdor një arkitekturë mësues-nxënës, me Gemini 2.5 Pro që vepron si modeli "mësues" për të gjeneruar të dhëna trajnimi standarde, dhe një model Gemma të përmirësuar si "nxënës" për të mundësuar vendosjen e prodhimit të shkallëzueshëm dhe me kosto të ulët.

Sfida e krijimit të të dhënave të specializuara të trajnimit në shkallë të gjerë

Thelbi i motorit të kërkimit të pjesëve është një model relevance që lidh pyetjen e një tekniku shërbimi (p.sh., "kompresor për një frigorifer Northland") me numrin e saktë të pjesës. Trajnimi i këtij modeli kërkonte një grup të dhënash masiv të çifteve pyetje-pjesë.

InstaLILY AI u përball me disa sfida me metodat tradicionale:

  • Shkallëzueshmëria: Etiketimi manual i miliona rreshtave të urdhrave të punës nuk ishte i realizueshëm.
  • Kostoja dhe cilësia: Përdorimi i modeleve të tjera të nivelit të lartë për etiketimin ishte tre herë më i kushtueshëm dhe rezultoi në norma pajtimi 15% më të ulëta krahasuar me zgjidhjen e tyre përfundimtare.
  • Performanca: Një kërkim i drejtpërdrejtë i mundësuar nga LLM do të ishte shumë i ngadaltë, me testet fillestare që tregonin vonesë dy-minutëshe dhe të paaftë për të trajtuar mbi 500 pyetje për sekondë (QPS) të kërkuara në prodhim.


Ata kishin nevojë për një sistem që mund të gjeneronte të dhëna me cilësi të lartë me kosto efektive, duke çuar në një model përfundimtar të shpejtë dhe të saktë.

Një tubacion tre-fazor me Gemini dhe Gemma

InstaLILY AI krijoi një tubacion me tre faza që përdor arsyetimin e përparuar të Gemini 2.5 Pro për të krijuar etiketa me cilësi të lartë dhe më pas e distilon këtë njohuri në modele më të vogla dhe më efikase për prodhim.

Tubacioni funksionon si më poshtë:

  • Gjenerimi i të dhënave sintetike (modeli i mësuesit): Gemini 2.5 Pro gjeneron etiketa standarde të arta për çiftet pyetje-pjesë. Për të arritur saktësi të lartë, InstaLILY AI përdor arsyetim shumëperspektiv të zinxhirit të mendimit (Multi-CoT), duke e nxitur modelin të analizojë pjesët nga këndvështrime të shumëfishta, duke përfshirë markën, kategorinë, specifikimet dhe logjikën komplekse të biznesit për përputhshmëri. Kjo qasje arriti 94% pajtueshmëri me ekspertët njerëzorë në një grup testesh të verbër.
  • Trajnimi i modelit për studentët: Etiketat me cilësi të lartë nga Gemini 2.5 Pro përdoren për të përmirësuar Gemma-7B. InstaLILY AI përdori disa teknika për të optimizuar modelin për studentët, duke përfshirë Optimizimin e Preferencës Direkte (DPO), i cili uli pozitivët e rremë me 40%. Ata gjithashtu krijuan një ansambël prej tre variantesh të përmirësuara të Gemma që votojnë për secilën mostër, duke rritur saktësinë e etiketës në 96%.
  • Shërbimi i prodhimit: Njohuritë nga modelet Gemma distilohen në një model BERT të lehtë (110M parametra) për mjedisin përfundimtar të prodhimit. Ky model më i vogël ruan saktësi prej 89% të rezultatit F1 ndërsa shërben kërkesa me 600 QPS.


"Pa etiketimin e zinxhirit të mendimit të LLM për të mbështetur modelin tonë të distiluar, ne do të etiketonim me dorë një sasi të madhe të dhënash", tha ekipi i InstaLILY AI. "Gemini përshpejtoi ndjeshëm përgatitjen e të dhënave dhe na lejoi të rialokonim qindra orë inxhinierike në detyra me influencë më të lartë, si rregullimi i imët dhe orkestrimi."

Ulja e latencës me 99.8% dhe kostove me 98.3%

Arkitektura mësues-nxënës solli përmirësime të konsiderueshme në shpejtësi, kosto dhe saktësi.

Sistemi përfundimtar i arritur:

  • Ulja e latencës së pyetjeve: Nga 2 minuta në 0.2 sekonda (një përmirësim prej 99.8%).
  • Ulje e kostos së shërbimit: Nga 0.12 dollarë në 0.002 dollarë për 1,000 pyetje (një ulje prej 98.3%).
  • Saktësi e lartë: ~90% rezultat F1 në një grup të dhënash të fshehura.


Procesi i zhvillimit u përshpejtua gjithashtu. Ekipi ndërtoi një prototip në 48 orë dhe një linjë të gatshme për prodhim në katër javë - një proces që ata vlerësojnë se do të kishte zgjatur tre deri në katër muaj pa ekosistemin Gemini dhe Gemma.

“Të qenit pjesë e Google Accelerator e zhbllokoi të gjithë këtë qasje”, tha Amit Shah, themelues dhe drejtor ekzekutiv i InstaLILY. “Mbështetja teknike praktike, qasja e hershme në Gemini dhe Gemma, dhe kreditë bujare në Cloud na ndihmuan të kalonim nga prototipi në prodhim brenda javësh - jo muajsh.”

Zhvillimi i ardhshëm me mësim multimodal dhe të vazhdueshëm

InstaLILY AI planifikon të zgjerojë aftësitë e agjentëve të saj të IA-së duke përfshirë veçoritë multimodale të Gemini. Kjo do t'u lejojë teknikëve të ngarkojnë një foto të një njësie të prishur për të ndihmuar në diagnostikim. Ata gjithashtu po zhvillojnë një shërbim të vazhdueshëm të të mësuarit aktiv që sinjalizon pyetjet e drejtpërdrejta me besim të ulët, i drejton ato te Gemini për shënime dhe ritrajnon modelet e prodhimit çdo javë.

Suksesi i motorit të kërkimit të InstaLILY AI për agjentët e tyre të IA-së tregon se si një arkitekturë mësues-nxënës, duke kombinuar fuqinë e arsyetimit të Gemini 2.5 Pro me efikasitetin e modeleve të Gemma të përmirësuara, mund të zgjidhë sfida komplekse të gjenerimit të të dhënave dhe të mundësojë aplikacione të IA-së me performancë të lartë dhe të shkallëzueshme.

Për të filluar ndërtimin me modelet Gemini dhe Gemma, lexoni dokumentacionin tonë të API-t .

Lojërat e Ujkut

Wolf Games përdor Gemini API për të rritur saktësinë e gjenerimit të përmbajtjes në 96% dhe për të ulur vonesën në nën 20 sekonda për historitë e tyre të përditshme të krimit.