27 OCT. 2025
Raindrop surveille les performances des agents d'IA à grande échelle à l'aide de Gemini 2.5 Flash
Les agents d'IA présentent des défis de surveillance uniques par rapport aux logiciels traditionnels. Les échecs des systèmes d'IA sont souvent "silencieux", ce qui signifie qu'ils ne génèrent pas d'exceptions ni d'erreurs standards. Il est donc plus difficile pour les équipes d'ingénierie de détecter les problèmes. Les méthodes de débogage traditionnelles, comme l'analyse des journaux ou les évaluations de préproduction, peuvent ne pas permettre de détecter les problèmes de performances réels.
Raindrop fournit une plate-forme de surveillance spécialement conçue pour les agents d'IA en production. Il aide les équipes d'ingénierie à identifier les problèmes complexes, comme les échecs d'appels d'outils et la frustration des utilisateurs, en traitant d'énormes flux d'interactions utilisateur. Pour alimenter efficacement son pipeline de surveillance, Raindrop utilise Gemini 2.5 Flash pour la catégorisation, la synthèse et le reclassement des résultats de recherche.
Activer la surveillance en temps réel à grande échelle
La plate-forme Raindrop traite des dizaines de millions d'événements par jour. L'un des principaux défis de Raindrop consiste à permettre aux équipes d'ingénieurs d'interroger et de classer les problèmes dans ces vastes ensembles de données en temps quasi réel. Lorsqu'un utilisateur définit un nouveau problème à surveiller, le système de Raindrop doit interpréter rapidement son intention et analyser les flux d'événements pour trouver des correspondances.
Ce traitement à haut débit nécessite des modèles offrant une latence extrêmement faible et une grande rentabilité. Raindrop avait besoin d'une solution pour alimenter son pipeline de "surveillance sémantique" principal et de nouvelles fonctionnalités comme la recherche approfondie (un outil permettant de rechercher des données d'IA de production), sans entraîner de coûts prohibitifs ni de temps de réponse lents qui nuiraient à l'expérience utilisateur.
"Nous avions besoin d'un modèle capable de traiter rapidement ces événements initiaux à un coût raisonnable", explique Ben Hylak, cofondateur et directeur de la technologie de Raindrop. "La faible latence et l'intelligence de Gemini 2.5 Flash nous permettent d'utiliser notre produit Deep Search, qui serait inutilisable avec d'autres modèles (trop lent et trop coûteux)."
Implémenter Gemini 2.5 Flash pour la rapidité et les résultats structurés
Raindrop a intégré Gemini 2.5 Flash pour gérer la catégorisation et la réécriture des requêtes. L'implémentation a été simplifiée à l'aide du SDK Vercel AI, ce qui a permis à Raindrop d'intégrer rapidement les modèles.
Raindrop utilise Gemini 2.5 Flash pour plusieurs fonctions clés :
- Expansion et réécriture des requêtes : dans le pipeline Deep Search, Gemini 2.5 Flash est utilisé pour réécrire les requêtes des utilisateurs afin d'optimiser les résultats et d'améliorer la pertinence des recherches pour des millions d'événements.
- Sorties structurées : Raindrop utilise l'appel d'outils et les sorties structurées pour garantir des résultats plus précis lors des interactions avec le modèle. Cette fiabilité est essentielle pour le débogage et pour fournir aux utilisateurs des traces de raisonnement précises.
Avant d'adopter Gemini 2.5 Flash, Raindrop a évalué d'autres petits modèles, mais a constaté que le rapport coût/performances était défavorable. "Les autres modèles étaient trop chers, trop lents, pas assez intelligents ou ne produisaient pas de résultats structurés fiables." Hylak, c'est noté. "Le rapport intelligence/coût n'avait de sens qu'avec Gemini 2.5 Flash."
Réduire les temps de recherche et les coûts de 90 %
En passant au modèle Gemini 2.5 Flash, Raindrop a considérablement amélioré ses performances et son efficacité.
Voici les principaux résultats :
- Temps de recherche réduit : de plusieurs heures à souvent moins d'une minute
- Réduction des coûts de plus de 90 %
- Fiabilité accrue pour les évaluations et la surveillance de la production
Raindrop utilise la compatibilité de l'API Gemini avec les sorties structurées et les appels d'outils dans son pipeline de recherche approfondie. Cela leur permet d'obtenir des résultats précis et d'afficher des traces de raisonnement pour le débogage, ce qui est essentiel pour maintenir un système fiable. L'intégration initiale a été effectuée en quelques minutes à l'aide du SDK Vercel AI.
Construire l'avenir de l'observabilité des agents
Raindrop continue de développer sa plate-forme de surveillance native aux agents avec des fonctionnalités telles que le traçage complet et la détection automatique des problèmes d'appel d'outils. Ils pensent qu'à mesure que les modèles d'IA deviendront plus rapides et plus fiables, les agents pourront gérer des tâches de plus en plus complexes.
"Les développeurs devraient profiter des sorties structurées fiables et du modèle de tarification de Gemini 2.5 Flash pour activer des cas d'utilisation qu'ils pensaient auparavant trop coûteux", a conseillé Hylak. "Gemini 2.5 Flash peut probablement changer le cours du développement de votre produit en vous permettant d'offrir à vos utilisateurs des expériences intelligentes qui fonctionnent réellement avec votre modèle de tarification."
Pour commencer à créer vos propres applications, explorez les fonctionnalités des modèles Gemini dans notre documentation de l'API.