Les outils étendent les capacités des modèles Gemini, leur permettant d'agir dans le monde réel, d'accéder à des informations en temps réel et d'effectuer des tâches de calcul complexes. Les modèles peuvent utiliser des outils dans les interactions standard de demande et de réponse, ainsi que dans les sessions de streaming en temps réel via l'API Live.
L'API Gemini fournit une suite d'outils intégrés entièrement gérés et optimisés pour les modèles Gemini. Vous pouvez également définir des outils personnalisés à l'aide de l'appel de fonction.
Outils intégrés disponibles
| Outil | Description | Cas d'utilisation |
|---|---|---|
| La recherche Google | Ancrez les réponses sur l'actualité et les faits disponibles sur le Web pour réduire les hallucinations. | - Répondre à des questions sur des événements récents - Vérifier des faits à l'aide de sources diverses |
| Google Maps | Créez des assistants utilisant la détection de la position qui peuvent trouver des lieux, obtenir des itinéraires et fournir un contexte local riche. | - Planifier des itinéraires de voyage avec plusieurs arrêts - Trouver des établissements locaux en fonction des critères des utilisateurs |
| Exécution de code | Permettez au modèle d'écrire et d'exécuter du code Python pour résoudre des problèmes mathématiques ou traiter des données avec précision. | - Résoudre des équations mathématiques complexes - Traiter et analyser des données textuelles avec précision |
| Contexte de l'URL | Demandez au modèle de lire et d'analyser le contenu de pages Web ou de documents spécifiques. | - Répondre à des questions basées sur des URL ou des documents spécifiques - Récupérer des informations sur différentes pages Web |
| Utilisation de l'ordinateur (aperçu) | Activez Gemini pour afficher un écran et générer des actions permettant d'interagir avec les UI des navigateurs Web (exécution côté client). | - Automatiser les workflows Web répétitifs - Tester les interfaces utilisateur des applications Web |
| Recherche de fichiers | Indexez et recherchez vos propres documents pour activer la génération augmentée par récupération (RAG). | - Recherche dans des manuels techniques - Réponses aux questions sur des données propriétaires |
Consultez la page des tarifs pour en savoir plus sur les coûts associés à des outils spécifiques.
Fonctionnement de l'exécution des outils
Les outils permettent au modèle de demander des actions lors d'une conversation. Le flux diffère selon que l'outil est intégré (géré par Google) ou personnalisé (géré par vous).
Flux d'outils intégrés
Pour les outils intégrés tels que la recherche Google ou l'exécution de code, l'ensemble du processus se déroule en un seul appel d'API :
- Vous envoyez une requête : "Quelle est la racine carrée du dernier cours de l'action GOOG ?"
- Gemini décide qu'il a besoin d'outils et les exécute sur les serveurs de Google (par exemple, il recherche le cours de l'action, puis exécute du code Python pour calculer la racine carrée).
- Gemini renvoie la réponse finale basée sur les résultats de l'outil.
Flux d'outil personnalisé (appel de fonction)
Pour les outils personnalisés et l'utilisation de l'ordinateur, votre application gère l'exécution :
- Vous envoyez un prompt avec des déclarations de fonctions (outils).
- Gemini peut renvoyer un JSON structuré pour appeler une fonction spécifique (par exemple,
{"name": "get_order_status", "args": {"order_id": "123"}}). - Vous exécutez la fonction dans votre application ou votre environnement.
- Vous renvoyez les résultats de la fonction à Gemini.
- Gemini utilise les résultats pour générer une réponse finale ou un autre appel d'outil.
Pour en savoir plus, consultez le guide sur les appels de fonction.
Sorties structurées et appel de fonction
Gemini propose deux méthodes pour générer des sorties structurées. Utilisez l'appel de fonction lorsque le modèle doit effectuer une étape intermédiaire en se connectant à vos propres outils ou systèmes de données. Utilisez les sorties structurées lorsque vous avez absolument besoin que la réponse finale du modèle respecte un schéma spécifique, par exemple pour afficher une UI personnalisée.
Créer des agents
Les agents sont des systèmes qui utilisent des modèles et des outils pour effectuer des tâches en plusieurs étapes. Bien que Gemini fournisse les capacités de raisonnement (le "cerveau") et les outils essentiels (les "mains"), vous avez souvent besoin d'un framework d'orchestration pour gérer la mémoire de l'agent, planifier les boucles et effectuer un chaînage d'outils complexe.
Gemini s'intègre aux principaux frameworks d'agents Open Source :
- LangChain / LangGraph : créez des flux d'application complexes avec état et des systèmes multi-agents à l'aide de structures de graphiques.
- LlamaIndex : connectez les agents Gemini à vos données privées pour des workflows RAG améliorés.
- CrewAI : orchestrez des agents d'IA autonomes et collaboratifs qui jouent un rôle.
- SDK Vercel AI : créez des interfaces utilisateur et des agents optimisés par l'IA en JavaScript/TypeScript.
- ADK Google : framework Open Source permettant de créer et d'orchestrer des agents d'IA interopérables.