Présentation des agents

Les agents sont des systèmes qui exploitent les modèles Gemini, un ensemble d'outils et des capacités de raisonnement pour effectuer des tâches complexes en plusieurs étapes et atteindre des objectifs spécifiques. Contrairement à un simple appel de modèle, un agent peut planifier et exécuter une série d'actions, interagir avec des systèmes externes et synthétiser des informations pour répondre à la demande d'un utilisateur.

L'API Gemini vous permet de créer des agents puissants en utilisant des fonctionnalités telles que :

  • Modèles Gemini : l'intelligence de base, qui permet le raisonnement et la compréhension du langage.
  • Outils : capacités qui connectent le modèle à des informations et des actions réelles. Il peut s'agir d'outils intégrés (comme la recherche Google, Maps ou l'exécution de code) ou d'outils personnalisés.
  • Appel de fonction : mécanisme permettant de définir et de connecter vos propres outils et API personnalisés au modèle Gemini.
  • Raisonnement : fonctionnalités qui améliorent la capacité du modèle à raisonner et à planifier des tâches complexes.
  • Contexte long : permet aux agents de conserver l'état et les informations lors d'interactions prolongées.

Agents disponibles

  • Agent Deep Research : agent autonome qui planifie, exécute et synthétise des tâches de recherche en plusieurs étapes pour des cas d'utilisation tels que l'analyse de marché, les vérifications préalables et les revues de la littérature.

Créer des agents

Les agents utilisent des modèles et des outils pour effectuer des tâches en plusieurs étapes. Bien que Gemini fournisse les capacités de raisonnement (le "cerveau") et les outils essentiels (les "mains"), vous avez souvent besoin d'un framework d'orchestration pour gérer la mémoire de l'agent, planifier les boucles et effectuer un chaînage d'outils complexe.

Pour maximiser la fiabilité des workflows en plusieurs étapes, vous devez créer des instructions qui contrôlent explicitement la façon dont le modèle raisonne et planifie. Bien que Gemini fournisse un raisonnement général solide, les agents complexes bénéficient de requêtes qui imposent des comportements spécifiques tels que la persévérance face aux problèmes, l'évaluation des risques et la planification proactive.

Consultez les workflows agentiques pour obtenir des stratégies de conception de ces requêtes. Voici un exemple d'instruction système qui a amélioré les performances sur plusieurs benchmarks d'environ 5 %.

Frameworks d'agents

Gemini s'intègre aux principaux frameworks d'agents Open Source, tels que :

  • LangChain / LangGraph : créez des flux d'application complexes avec état et des systèmes multi-agents à l'aide de structures de graphiques.
  • LlamaIndex : connectez les agents Gemini à vos données privées pour des workflows RAG améliorés.
  • CrewAI : orchestrez des agents d'IA autonomes et collaboratifs qui jouent un rôle.
  • SDK Vercel AI : créez des interfaces utilisateur et des agents optimisés par l'IA en JavaScript/TypeScript.
  • Google ADK : framework Open Source permettant de créer et d'orchestrer des agents d'IA interopérables.