29 AOÛT 2025
InstaLILY : un moteur de recherche d'entreprise agentique, optimisé par Gemini

Les agents d'IA d'entreprise qui automatisent des workflows complexes, comme les ventes B2B ou la maintenance industrielle, nécessitent des modèles entraînés sur de grandes quantités de données de haute qualité spécifiques à un domaine. Pour de nombreuses entreprises, la création de ces données est un goulot d'étranglement majeur, car l'étiquetage manuel est lent et coûteux, et les modèles génériques peuvent manquer de la nuance nécessaire.
InstaLILY AI, une plate-forme d'entreprise pour les agents d'IA autonomes et verticaux, aide les entreprises à automatiser et à exécuter des workflows complexes dans les domaines des ventes, des services et des opérations. Pour l'un de ses clients, PartsTown, elle devait créer un moteur de recherche en temps réel pour que les agents d'IA puissent trouver instantanément les pièces de rechange spécifiques pour les techniciens de maintenance sur le terrain dans un catalogue de plus de cinq millions d'articles. Cela nécessitait une méthode évolutive pour générer des millions d'étiquettes de haute qualité pour l'entraînement des modèles.
Pour résoudre ce problème, InstaLILY AI a développé un pipeline de génération de données synthétiques en plusieurs étapes. Le pipeline utilise une architecture maître-élève, avec Gemini 2.5 Pro comme modèle "maître" pour générer des données d'entraînement de référence, et un modèle Gemma affiné comme "élève" pour permettre un déploiement en production évolutif et à faible coût.
Le défi de la création de données d'entraînement spécialisées à grande échelle
Le cœur du moteur de recherche de pièces est un modèle de pertinence qui relie la requête d'un technicien de maintenance (par exemple, "compresseur pour un réfrigérateur Northland") à la référence exacte. L'entraînement de ce modèle a nécessité un ensemble de données volumineux de paires de parties de requêtes.
L'IA InstaLILY a rencontré plusieurs difficultés avec les méthodes traditionnelles :
- Évolutivité : il n'était pas possible d'étiqueter manuellement des millions de lignes d'ordres de travail.
- Coût et qualité : l'utilisation d'autres modèles de pointe pour l'étiquetage était trois fois plus coûteuse et entraînait des taux de concordance inférieurs de 15 % par rapport à leur solution finale.
- Performances : une recherche en direct basée sur un LLM serait trop lente. Les premiers tests ont montré une latence de deux minutes et l'incapacité à gérer les plus de 500 requêtes par seconde (RPS) requises en production.
Elle avait besoin d'un système capable de générer des données de haute qualité à moindre coût, afin d'obtenir un modèle final rapide et précis.
Pipeline en trois étapes avec Gemini et Gemma
InstaLILY AI a conçu un pipeline en trois étapes qui utilise le raisonnement avancé de Gemini 2.5 Pro pour créer des libellés de haute qualité, puis distille ces connaissances dans des modèles plus petits et plus efficaces pour la production.
Le pipeline fonctionne comme suit :
- Génération de données synthétiques (modèle enseignant) : Gemini 2.5 Pro génère des étiquettes de référence pour les paires requête/partie. Pour atteindre un haut niveau de précision, InstaLILY AI utilise le raisonnement en chaîne de pensée multi-perspective (Multi-CoT, Multi-Perspective Chain-of-Thought). Le modèle est ainsi invité à analyser les pièces sous plusieurs angles, y compris la marque, la catégorie, les spécifications et la logique métier complexe pour la compatibilité. Cette approche a permis d'obtenir un taux de concordance de 94 % avec les experts humains sur un ensemble de tests aveugles.
- Entraînement du modèle élève : les libellés de haute qualité de Gemini 2.5 Pro sont utilisés pour affiner Gemma-7B. L'IA InstaLILY a utilisé plusieurs techniques pour optimiser le modèle étudiant, y compris l'optimisation directe des préférences (DPO, Direct Preference Optimization), qui a réduit les faux positifs de 40 %. Ils ont également créé un ensemble de trois variantes Gemma affinées qui votent sur chaque échantillon, ce qui a permis d'augmenter la précision des libellés à 96 %.
- Inférence en production : les connaissances des modèles Gemma sont distillées dans un modèle BERT léger (110 millions de paramètres) pour l'environnement de production final. Ce modèle plus petit conserve une précision de score F1 de 89 % tout en traitant les requêtes à 600 QPS.
"Sans le chain-of-thought des LLM pour amorcer notre modèle distillé, nous devrions taguer manuellement une énorme quantité de données", a déclaré l'équipe InstaLILY AI. "Gemini a considérablement accéléré la préparation des données et nous a permis de réaffecter des centaines d'heures d'ingénierie à des tâches à plus fort impact, comme le réglage précis et l'orchestration."
Réduction de la latence de 99,8 % et des coûts de 98,3 %
L'architecture enseignant-élève a permis d'améliorer considérablement la vitesse, le coût et la précision.
Le système final obtenu :
- Réduction de la latence des requêtes : de 2 minutes à 0,2 seconde (amélioration de 99,8 %).
- Réduction des coûts de diffusion : de 0,12 $à 0,002 $pour 1 000 requêtes (soit une réduction de 98,3 %).
- Précision élevée : score F1 d'environ 90 % sur un ensemble de données de validation aveugle.
Le processus de développement a également été accéléré. L'équipe a créé un prototype en 48 heures et un pipeline prêt pour la production en quatre semaines. Elle estime que ce processus aurait pris trois à quatre mois sans l'écosystème Gemini et Gemma.
"Participer au programme d'accélération Google m'a permis d'adopter cette approche", explique Amit Shah, fondateur et PDG d'InstaLILY. "L'assistance technique pratique, l'accès anticipé à Gemini et Gemma, et les généreux crédits Cloud nous ont permis de passer du prototype à la production en quelques semaines, et non en quelques mois."
Développement futur avec l'apprentissage multimodal et continu
InstaLILY AI prévoit d'étendre les capacités de ses agents d'IA en intégrant les fonctionnalités multimodales de Gemini. Les techniciens pourront ainsi importer une photo de l'appareil cassé pour faciliter le diagnostic. Ils développent également un service d'apprentissage actif continu qui signale les requêtes en direct à faible confiance, les achemine vers Gemini pour annotation et réentraîne les modèles de production chaque semaine.
Le succès du moteur de recherche d'agents d'IA d'InstaLILY AI montre comment une architecture enseignant-élève, combinant la puissance de raisonnement de Gemini 2.5 Pro à l'efficacité des modèles Gemma affinés, peut résoudre des problèmes complexes de génération de données et permettre des applications d'IA évolutives et hautes performances.
Pour commencer à créer avec les modèles Gemini et Gemma, consultez notre documentation sur l'API.