29 de agosto de 2025
InstaLILY: Un motor de búsqueda empresarial basado en agentes y potenciado por Gemini

Los agentes de IA empresariales que automatizan flujos de trabajo complejos, como las ventas B2B o el mantenimiento industrial, requieren modelos entrenados con grandes cantidades de datos específicos del dominio y de alta calidad. Para muchas empresas, la creación de estos datos es un cuello de botella principal, ya que el etiquetado manual es lento y costoso, y los modelos genéricos pueden carecer de los matices necesarios.
InstaLILY AI, una plataforma empresarial para agentes de IA autónomos y verticales, ayuda a las empresas a automatizar y ejecutar flujos de trabajo complejos en ventas, servicios y operaciones. Para uno de sus clientes, PartsTown, necesitaban crear un motor de búsqueda en tiempo real para que los agentes de IA pudieran encontrar al instante técnicos de servicio de campo que tuvieran las piezas de repuesto específicas de un catálogo de más de cinco millones de artículos. Esto requirió una forma escalable de generar millones de etiquetas de alta calidad para el entrenamiento del modelo.
Para resolver este problema, la IA de InstaLILY desarrolló una canalización de generación de datos sintéticos de varias etapas. La canalización usa una arquitectura de profesor-alumno, en la que Gemini 2.5 Pro actúa como el modelo “profesor” para generar datos de entrenamiento de referencia, y un modelo Gemma optimizado como el “alumno” para permitir una implementación de producción escalable y de bajo costo.
El desafío de crear datos de entrenamiento especializados a gran escala
El núcleo del motor de búsqueda de piezas es un modelo de relevancia que conecta la búsqueda de un técnico de servicio (p.ej., "compresor para una refrigeradora Northland") al número de pieza exacto. Para entrenar este modelo, se necesitó un conjunto de datos masivo de pares de partes de búsquedas.
La IA de InstaLILY enfrentó varios desafíos con los métodos tradicionales:
- Escalabilidad: No era factible etiquetar manualmente millones de líneas de órdenes de trabajo.
- Costo y calidad: Usar otros modelos de vanguardia para el etiquetado fue tres veces más costoso y generó tasas de acuerdo un 15% más bajas en comparación con la solución final.
- Rendimiento: Una búsqueda potenciada por un LLM en vivo sería demasiado lenta, ya que las pruebas iniciales mostraron una latencia de dos minutos, y no podría controlar las más de 500 consultas por segundo (QPS) necesarias en producción.
Necesitaban un sistema que pudiera generar datos de alta calidad de manera rentable, lo que llevaría a un modelo final rápido y preciso.
Una canalización de tres etapas con Gemini y Gemma
La IA de InstaLILY diseñó una canalización de tres etapas que usa el razonamiento avanzado de Gemini 2.5 Pro para crear etiquetas de alta calidad y, luego, destila ese conocimiento en modelos más pequeños y eficientes para la producción.
La canalización funciona de la siguiente manera:
- Generación de datos sintéticos (modelo profesor): Gemini 2.5 Pro genera etiquetas de referencia para los pares de partes de la búsqueda. Para lograr una alta precisión, la IA de InstaLILY utiliza el razonamiento de cadena de pensamiento multiperspectiva (Multi-CoT), lo que le indica al modelo que analice las piezas desde múltiples ángulos, como la marca, la categoría, las especificaciones y la lógica empresarial compleja para la compatibilidad. Este enfoque logró un 94% de acuerdo con los expertos humanos en un conjunto de pruebas a ciegas.
- Entrenamiento del modelo estudiante: Las etiquetas de alta calidad de Gemini 2.5 Pro se usan para ajustar Gemma-7B. La IA de InstaLILY usó varias técnicas para optimizar el modelo de estudiante, incluida la optimización de preferencias directas (DPO), que redujo los falsos positivos en un 40%. También crearon un conjunto de tres variantes de Gemma ajustadas que votan sobre cada muestra, lo que aumentó la precisión de las etiquetas al 96%.
- Publicación en producción: El conocimiento de los modelos de Gemma se destila en un modelo BERT ligero (110 millones de parámetros) para el entorno de producción final. Este modelo más pequeño mantiene una precisión del 89% en la puntuación F1 mientras procesa solicitudes a 600 QPS.
"Sin el etiquetado de cadena de pensamiento de los LLM para iniciar nuestro modelo destilado, tendríamos que etiquetar manualmente una enorme cantidad de datos", afirmó el equipo de IA de InstaLILY. "Gemini aceleró significativamente la preparación de datos y nos permitió reasignar cientos de horas de ingeniería a tareas de mayor apalancamiento, como el ajuste y la organización".
Reducción de la latencia en un 99.8% y de los costos en un 98.3%
La arquitectura de profesor-alumno brindó mejoras significativas en velocidad, costo y precisión.
El sistema final logrado:
- Reducción de la latencia de las búsquedas: De 2 minutos a 0.2 segundos (una mejora del 99.8%).
- Reducción del costo de publicación: De USD 0.12 a USD 0.002 por cada 1,000 búsquedas (una reducción del 98.3%).
- Alta precisión: Puntuación F1 de aproximadamente el 90% en un conjunto de datos de exclusión ciego.
También se aceleró el proceso de desarrollo. El equipo creó un prototipo en 48 horas y una canalización lista para producción en cuatro semanas, un proceso que, según sus estimaciones, habría llevado de tres a cuatro meses sin el ecosistema de Gemini y Gemma.
"Formar parte de Google Accelerator desbloqueó todo este enfoque", dijo Amit Shah, fundador y director ejecutivo de InstaLILY. “La asistencia técnica práctica, el acceso anticipado a Gemini y Gemma, y los generosos créditos de Cloud nos ayudaron a pasar del prototipo a la producción en semanas, no en meses”.
Desarrollo futuro con aprendizaje multimodal y continuo
InstaLILY AI planea expandir las capacidades de sus agentes de IA incorporando las funciones multimodales de Gemini. Esto permitirá que los técnicos suban una foto de una unidad rota para ayudar con el diagnóstico. También están desarrollando un servicio de aprendizaje activo continuo que marca las búsquedas en vivo con baja confianza, las enruta a Gemini para su anotación y vuelve a entrenar los modelos de producción semanalmente.
El éxito del motor de búsqueda de InstaLILY AI para sus agentes de IA demuestra cómo una arquitectura de profesor-alumno, que combina el poder de razonamiento de Gemini 2.5 Pro con la eficiencia de los modelos de Gemma ajustados, puede resolver desafíos complejos de generación de datos y habilitar aplicaciones de IA escalables y de alto rendimiento.
Para comenzar a compilar con los modelos de Gemini y Gemma, lee nuestra documentación de la API.