Teilen

29. AUGUST 2025

InstaLILY: Eine auf Gemini basierende, agentenbasierte Unternehmenssuchmaschine

Amit Shah

CEO und Mitbegründer, Instalily.ai

Matt Ridenour

Head of Accelerator & Startup Ecosystem USA, Google

AgentOps-Showcase-Hero

Für Enterprise AI-Agents, die komplexe Workflows wie B2B-Verkäufe oder industrielle Wartung automatisieren, sind Modelle erforderlich, die mit großen Mengen an hochwertigen, domänenspezifischen Daten trainiert wurden. Für viele Unternehmen ist die Erstellung dieser Daten ein primärer Engpass, da die manuelle Kennzeichnung langsam und teuer ist und generische Modelle die erforderliche Nuance möglicherweise nicht bieten.

InstaLILY AI ist eine Unternehmensplattform für autonome und vertikale KI-Agenten, mit der Unternehmen komplexe Workflows in den Bereichen Vertrieb, Service und Betrieb automatisieren und ausführen können. Für einen ihrer Kunden, PartsTown, mussten sie eine Echtzeit-Suchmaschine für KI-Agents entwickeln, um Außendiensttechniker sofort mit bestimmten Ersatzteilen aus einem Katalog mit über fünf Millionen Artikeln abzugleichen. Dazu war eine skalierbare Methode zum Generieren von Millionen hochwertiger Labels für das Modelltraining erforderlich.

Um dieses Problem zu lösen, entwickelte InstaLILY AI eine mehrstufige Pipeline zur Generierung synthetischer Daten. Die Pipeline verwendet eine Teacher-Student-Architektur, bei der Gemini 2.5 Pro als „Teacher“-Modell zum Generieren von Goldstandard-Trainingsdaten und ein feinabgestimmtes Gemma-Modell als „Student“-Modell für eine skalierbare, kostengünstige Produktionsbereitstellung fungiert.

Die Herausforderung, spezialisierte Trainingsdaten in großem Maßstab zu erstellen

Das Herzstück der Ersatzteilsuchmaschine ist ein Relevanzmodell, das die Anfrage eines Servicetechnikers (z.B. „Kompressor für einen Northland-Kühlschrank“) bis hin zur genauen Teilenummer. Für das Training dieses Modells war ein riesiges Dataset mit Paaren aus Suchanfragen und zugehörigen Teilen erforderlich.

InstaLILY AI stand bei herkömmlichen Methoden vor mehreren Herausforderungen:

  • Skalierbarkeit:Millionen von Arbeitsauftragszeilen manuell zu kennzeichnen, war nicht möglich.
  • Kosten und Qualität:Die Verwendung anderer Frontier-Modelle für die Kennzeichnung war dreimal so teuer und führte zu 15% niedrigeren Übereinstimmungsraten als die endgültige Lösung.
  • Leistung:Eine Live-Suche mit LLM wäre zu langsam. Bei ersten Tests wurde eine Latenz von zwei Minuten gemessen. Außerdem könnte sie die erforderlichen 500 Abfragen pro Sekunde (QPS) in der Produktion nicht verarbeiten.


Das Unternehmen benötigte ein System, mit dem sich kostengünstig hochwertige Daten generieren lassen, um schnell ein genaues endgültiges Modell zu erhalten.

Eine dreistufige Pipeline mit Gemini und Gemma

InstaLILY AI hat eine dreistufige Pipeline entwickelt, in der die erweiterten Schlussfolgerungsfunktionen von Gemini 2.5 Pro verwendet werden, um hochwertige Labels zu erstellen. Dieses Wissen wird dann in kleinere, effizientere Modelle für die Produktion übertragen.

Die Pipeline funktioniert so:

  • Generierung synthetischer Daten (Lehrermodell): Gemini 2.5 Pro generiert Goldstandard-Labels für Paare aus Suchanfragen und Teilen. Um eine hohe Genauigkeit zu erzielen, verwendet InstaLILY AI Multi-CoT-Reasoning (Multi-Perspective Chain-of-Thought). Dabei wird das Modell aufgefordert, Teile aus verschiedenen Blickwinkeln zu analysieren, z. B. Marke, Kategorie, Spezifikationen und komplexe Geschäftslogik für die Kompatibilität. Mit diesem Ansatz wurde in einem Blindtest-Dataset eine Übereinstimmung von 94% mit menschlichen Experten erzielt.
  • Training des Schülermodells:Die hochwertigen Labels von Gemini 2.5 Pro werden verwendet, um Gemma-7B zu optimieren. InstaLILY AI hat mehrere Techniken zur Optimierung des Schülermodells verwendet, darunter die Direct Preference Optimization (DPO), die die Zahl der falsch positiven Ergebnisse um 40 % reduziert hat. Außerdem erstellten sie ein Ensemble aus drei feinabgestimmten Gemma-Varianten, die über jede Stichprobe abstimmen und so die Label-Präzision auf 96 % steigern.
  • Bereitstellung in der Produktion:Das Wissen aus den Gemma-Modellen wird für die endgültige Produktionsumgebung in ein einfaches BERT-Modell (110 Millionen Parameter) destilliert. Dieses kleinere Modell behält eine F1-Score-Genauigkeit von 89% bei der Verarbeitung von Anfragen mit 600 QPS bei.


„Ohne die Chain-of-Thought-Kennzeichnung von LLM, um unser destilliertes Modell zu booten, müssten wir eine enorme Menge an Daten manuell taggen“, so das InstaLILY AI-Team. „Gemini hat die Datenaufbereitung erheblich beschleunigt und es uns ermöglicht, Hunderte von Arbeitsstunden für wichtigere Aufgaben wie das Feinabstimmen und die Orchestrierung einzusetzen.“

Latenz um 99,8% und Kosten um 98,3 % gesenkt

Die Teacher-Student-Architektur führte zu erheblichen Verbesserungen bei Geschwindigkeit, Kosten und Genauigkeit.

Das endgültige System:

  • Verkürzung der Abfragelatenz:von 2 Minuten auf 0,2 Sekunden (eine Verbesserung von 99,8 %).
  • Reduzierung der Bereitstellungskosten:von 0,12 $auf 0,002 $pro 1.000 Anfragen (eine Reduzierung um 98,3 %).
  • Hohe Genauigkeit:F1-Wert von ca. 90% für ein blindes Holdout-Dataset.


Auch der Entwicklungsprozess wurde beschleunigt. Das Team entwickelte in 48 Stunden einen Prototyp und in vier Wochen eine produktionsreife Pipeline. Ohne das Gemini- und Gemma-Ökosystem hätte dieser Prozess schätzungsweise drei bis vier Monate gedauert.

„Die Teilnahme am Google Accelerator hat uns diesen Ansatz erst ermöglicht“, so Amit Shah, Gründer und CEO von InstaLILY. „Der praktische technische Support, der frühe Zugriff auf Gemini und Gemma sowie das großzügige Cloud-Guthaben haben uns geholfen, innerhalb von Wochen vom Prototyp zur Produktion zu gelangen – nicht erst nach Monaten.“

Zukünftige Entwicklung mit multimodaler und kontinuierlicher Lernfunktion

InstaLILY AI plant, die Funktionen seiner KI-Agents durch die Einbindung der multimodalen Funktionen von Gemini zu erweitern. So können Servicetechniker ein Foto eines defekten Geräts hochladen, um die Diagnose zu erleichtern. Außerdem entwickeln sie einen kontinuierlichen Active-Learning-Dienst, der Live-Anfragen mit geringer Konfidenz kennzeichnet, sie zur Annotation an Gemini weiterleitet und die Produktionsmodelle wöchentlich neu trainiert.

Der Erfolg der Suchmaschine von InstaLILY AI für ihre KI-Agents zeigt, wie eine Lehrer-Schüler-Architektur, die die Reasoning-Leistung von Gemini 2.5 Pro mit der Effizienz von optimierten Gemma-Modellen kombiniert, komplexe Herausforderungen bei der Datengenerierung lösen und leistungsstarke, skalierbare KI-Anwendungen ermöglichen kann.

Wenn Sie mit der Entwicklung mit Gemini- und Gemma-Modellen beginnen möchten, lesen Sie unsere API-Dokumentation.