Tools und KI-Agenten mit der Gemini API verwenden

Tools und Agents erweitern die Funktionen von Gemini-Modellen und ermöglichen es ihnen, Aktionen auszuführen, auf Echtzeitinformationen zuzugreifen und komplexe Berechnungsaufgaben zu erledigen. Modelle können Tools sowohl bei Standard-Anfrage-Antwort-Interaktionen als auch bei Echtzeit-Streaming-Sitzungen über die Live API verwenden.

Tools sind bestimmte Funktionen (z. B. Google Suche oder Codeausführung), die ein Modell verwenden kann, um Anfragen zu beantworten.
Agents sind Systeme, die mehrstufige Aufgaben planen, ausführen und zusammenfassen können, um ein Nutzerziel zu erreichen.

Die Gemini API bietet eine Reihe von vollständig verwalteten, integrierten Tools und Agents, die für Gemini-Modelle optimiert sind. Sie können auch benutzerdefinierte Tools mit Funktionsaufrufen definieren.

Verfügbare integrierte Tools

Tool	Beschreibung	Anwendungsfälle
Google Suche	Antworten mit aktuellen Ereignissen und Fakten aus dem Web untermauern, um Halluzinationen zu reduzieren.	– Fragen zu aktuellen Ereignissen beantworten – Fakten mit verschiedenen Quellen bestätigen
Google Maps	Erstellen Sie standortbezogene Assistenten, die Orte finden, Wegbeschreibungen abrufen und umfassende lokale Informationen bereitstellen können.	– Reisepläne mit mehreren Zwischenstopps planen – Lokale Unternehmen anhand von Nutzerkriterien finden
Codeausführung	Das Modell darf Python-Code schreiben und ausführen, um mathematische Probleme zu lösen oder Daten genau zu verarbeiten.	– Komplexe mathematische Gleichungen lösen – Textdaten präzise verarbeiten und analysieren
URL-Kontext	Weisen Sie das Modell an, Inhalte von bestimmten Webseiten oder Dokumenten zu lesen und zu analysieren.	– Fragen auf Grundlage bestimmter URLs oder Dokumente beantworten – Informationen von verschiedenen Webseiten abrufen
Computer Use (Preview)	Gemini kann einen Bildschirm ansehen und Aktionen generieren, um mit Webbrowser-Benutzeroberflächen zu interagieren (clientseitige Ausführung).	– Automatisieren von sich wiederholenden webbasierten Workflows – Testen von Benutzeroberflächen von Webanwendungen
Dateisuche	Sie können Ihre eigenen Dokumente indexieren und durchsuchen, um Retrieval-Augmented Generation (RAG) zu ermöglichen.	– Suche in technischen Handbüchern – Fragen beantworten mit proprietären Daten

Details zu den Kosten für bestimmte Tools finden Sie auf der Preisseite.

Verfügbare Kundenservicemitarbeiter

Agent	Beschreibung	Anwendungsfälle
Deep Research	Plant, führt aus und fasst mehrstufige Rechercheaufgaben selbstständig zusammen.	– Marktanalyse – Sorgfältige Prüfung – Literaturrecherche

So funktioniert die Ausführung von Tools

Mit Tools kann das Modell während einer Unterhaltung Aktionen anfordern. Der Ablauf hängt davon ab, ob das Tool integriert (von Google verwaltet) oder benutzerdefiniert (von Ihnen verwaltet) ist.

Ablauf integrierter Tools

Bei integrierten Tools wie der Google Suche oder der Codeausführung erfolgt der gesamte Prozess innerhalb eines API-Aufrufs:

Sie senden einen Prompt: „Was ist die Quadratwurzel des aktuellen Aktienkurses von GOOG?“
Gemini entscheidet, dass Tools benötigt werden, und führt sie auf den Servern von Google aus (z.B. wird nach dem Aktienkurs gesucht und dann Python-Code ausgeführt, um die Quadratwurzel zu berechnen).
Gemini sendet die endgültige Antwort zurück, die auf den Tool-Ergebnissen basiert.

Benutzerdefinierter Tool-Ablauf (Funktionsaufrufe)

Bei benutzerdefinierten Tools und der Computernutzung übernimmt Ihre Anwendung die Ausführung:

Sie senden einen Prompt zusammen mit Funktionsdeklarationen (Tools).
Gemini kann eine strukturierte JSON-Datei zurückgeben, um eine bestimmte Funktion aufzurufen (z. B. {"name": "get_order_status", "args": {"order_id": "123"}}).
Sie führen die Funktion in Ihrer Anwendung oder Umgebung aus.
Sie senden die Funktionsergebnisse an Gemini zurück.
Gemini verwendet die Ergebnisse, um eine endgültige Antwort oder einen weiteren Tool-Aufruf zu generieren.

Weitere Informationen finden Sie im Leitfaden zu Funktionsaufrufen.

Strukturierte Ausgaben im Vergleich zu Funktionsaufrufen

Gemini bietet zwei Methoden zum Generieren strukturierter Ausgaben. Verwenden Sie Funktionsaufrufe, wenn das Modell einen Zwischenschritt ausführen muss, indem es eine Verbindung zu Ihren eigenen Tools oder Datensystemen herstellt. Verwenden Sie strukturierte Ausgaben, wenn die endgültige Antwort des Modells unbedingt einem bestimmten Schema entsprechen muss, z. B. zum Rendern einer benutzerdefinierten Benutzeroberfläche.

Strukturierte Ausgaben mit Tools

Sie können strukturierte Ausgaben mit integrierten Tools kombinieren, um sicherzustellen, dass Modellantworten, die auf externen Daten oder Berechnungen basieren, einem strengen Schema entsprechen.

Codebeispiele

Agents erstellen

Agents sind Systeme, die Modelle und Tools verwenden, um mehrstufige Aufgaben zu erledigen. Gemini bietet zwar die Denkfähigkeiten („Gehirn“) und die wichtigsten Tools („Hände“), aber oft benötigen Sie ein Orchestrierungs-Framework, um den Speicher des Agents zu verwalten, Schleifen zu planen und komplexe Tool-Verkettungen durchzuführen.

Um die Zuverlässigkeit in mehrstufigen Workflows zu maximieren, sollten Sie Anweisungen erstellen, die explizit steuern, wie das Modell argumentiert und plant. Gemini bietet zwar eine starke allgemeine Argumentation, aber komplexe Agents profitieren von Prompts, die bestimmte Verhaltensweisen erzwingen, z. B. Beharrlichkeit bei Problemen, Risikobewertung und proaktive Planung.

Unter Agent-basierte Workflows finden Sie Strategien zum Entwerfen dieser Prompts. Hier ist ein Beispiel für eine Systemanweisung, die die Leistung bei mehreren agentenbasierten Benchmarks um etwa 5 % verbessert hat.

Frameworks für KI-Agenten

Gemini lässt sich in führende Open-Source-Agent-Frameworks wie die folgenden einbinden:

LangChain / LangGraph: Erstellen Sie zustandsorientierte, komplexe Anwendungsabläufe und Multi-Agenten-Systeme mithilfe von Diagrammstrukturen.
LlamaIndex: Gemini-Agents mit Ihren privaten Daten für RAG-optimierte Workflows verbinden.
CrewAI: Orchestrieren Sie kollaborative, autonome KI-Agents, die Rollenspiele spielen.
Vercel AI SDK: Erstellen Sie KI-basierte Benutzeroberflächen und Agents in JavaScript/TypeScript.
Google ADK: Ein Open-Source-Framework zum Erstellen und Orchestrieren interoperabler KI-Agents.