Tools und KI-Agenten mit der Gemini API verwenden

Tools und Agents erweitern die Funktionen von Gemini-Modellen und ermöglichen es ihnen, Aktionen in der realen Welt auszuführen, auf Echtzeitinformationen zuzugreifen und komplexe Rechenaufgaben zu erledigen. Modelle können Tools sowohl bei Standard-Anfrage-Antwort-Interaktionen als auch bei Echtzeit-Streaming-Sitzungen über die Live API verwenden.

  • Tools sind spezifische Funktionen (z. B. Google Suche oder Codeausführung), die ein Modell zum Beantworten von Anfragen verwenden kann.
  • Agents sind Systeme, die mehrstufige Aufgaben planen, ausführen und zusammenfassen können, um ein Nutzerziel zu erreichen.

Die Gemini API bietet eine Reihe von vollständig verwalteten, integrierten Tools und Agents, die für Gemini-Modelle optimiert sind. Sie können auch benutzerdefinierte Tools mit Funktionsaufrufen definieren.

Verfügbare integrierte Tools

Tool Beschreibung Anwendungsfälle
Google Suche Antworten auf aktuelle Ereignisse und Fakten aus dem Web stützen, um Halluzinationen zu reduzieren. – Fragen zu aktuellen Ereignissen beantworten 
– Fakten mit verschiedenen Quellen bestätigen
Google Maps Erstellen Sie standortbezogene Assistenten, die Orte finden, Wegbeschreibungen abrufen und umfassende lokale Informationen bereitstellen können. – Reisepläne mit mehreren Zwischenstopps planen 
– Lokale Unternehmen anhand von Nutzerkriterien finden
Codeausführung Das Modell darf Python-Code schreiben und ausführen, um mathematische Probleme zu lösen oder Daten genau zu verarbeiten. – Komplexe mathematische Gleichungen lösen 
– Textdaten präzise verarbeiten und analysieren
URL-Kontext Weisen Sie das Modell an, Inhalte von bestimmten Webseiten oder Dokumenten zu lesen und zu analysieren. – Fragen auf Grundlage bestimmter URLs oder Dokumente beantworten 
– Informationen von verschiedenen Webseiten abrufen
Computer Use (Preview) Gemini kann einen Bildschirm ansehen und Aktionen generieren, um mit Webbrowser-Benutzeroberflächen zu interagieren (clientseitige Ausführung). – Automatisieren von sich wiederholenden webbasierten Workflows 
– Testen von Benutzeroberflächen von Webanwendungen
Dateisuche Sie können Ihre eigenen Dokumente indexieren und durchsuchen, um Retrieval-Augmented Generation (RAG) zu ermöglichen. – Suche in technischen Handbüchern 
– Fragen beantworten mit proprietären Daten

Weitere Informationen zu den Kosten für bestimmte Tools finden Sie auf der Preisseite.

Verfügbare Kundenservicemitarbeiter

Agent Beschreibung Anwendungsfälle
Deep Research Plant, führt aus und fasst mehrstufige Rechercheaufgaben selbstständig zusammen. – Marktanalyse 
– Sorgfältige Prüfung 
– Literaturrecherche

So funktioniert die Ausführung von Tools

Mit Tools kann das Modell während einer Unterhaltung Aktionen anfordern. Der Ablauf hängt davon ab, ob das Tool integriert (von Google verwaltet) oder benutzerdefiniert (von Ihnen verwaltet) ist.

Ablauf integrierter Tools

Bei integrierten Tools (Google Suche, Google Maps, URL-Kontext, Dateisuche, Codeausführung) erfolgt der gesamte Prozess in einem API-Aufruf:

  1. Sie senden einen Prompt: „Was ist die Quadratwurzel des aktuellen Aktienkurses von GOOG?“
  2. Gemini entscheidet, dass Tools benötigt werden, und führt sie auf den Servern von Google aus (z.B. wird nach dem Aktienkurs gesucht und dann Python-Code ausgeführt, um die Quadratwurzel zu berechnen).
  3. Gemini sendet die endgültige Antwort zurück, die auf den Tool-Ergebnissen basiert.

Benutzerdefinierter Tool-Ablauf (Funktionsaufrufe)

Bei benutzerdefinierten Tools und der Computerverwendung übernimmt Ihre Anwendung die Ausführung:

  1. Sie senden einen Prompt zusammen mit Funktionsdeklarationen (Tools).
  2. Gemini kann strukturiertes JSON zurückgeben, um eine bestimmte Funktion aufzurufen (z. B. {"name": "get_order_status", "args": {"order_id": "123"}}), immer mit einer eindeutigen id.
  3. Sie führen die Funktion in Ihrer Anwendung oder Umgebung aus.
  4. Sie senden die Funktionsergebnisse mit demselben id wie beim Funktionsaufruf zurück an Gemini.
  5. Gemini verwendet die Ergebnisse, um eine endgültige Antwort oder einen weiteren Tool-Aufruf zu generieren.

Weitere Informationen finden Sie im Leitfaden zu Funktionsaufrufen.

Ablauf zum Kombinieren integrierter und benutzerdefinierter Tools

Bei Anfragen, in denen integrierte und benutzerdefinierte Tools (Funktionsaufrufe) kombiniert werden, verwendet das Modell Tool-Kontextzirkulation, um die Ausführung in verschiedenen Umgebungen zu koordinieren:

  1. Sie senden einen Prompt und deklarieren die integrierten Tools und benutzerdefinierten Funktionen, die Sie aktivieren möchten. Dabei legen Sie ein Flag fest, um die Kombinationsunterstützung zu aktivieren.
  2. Gemini führt integrierte Tools aus und übergibt die Kontrolle an den Nutzer, wenn clientseitige Funktionsaufrufe generiert werden. Welche Aktion zuerst ausgeführt wird, hängt vom Prompt und der Entscheidung des Modells ab. Es wird eine Antwort mit Folgendem zurückgesendet:
    • Bestätigung des Tool-Aufrufs
    • Ergebnisse der Tool-Antwort (diese können nach dem JSON-Code stehen, wenn das Modell zwei parallele Funktionsaufrufe generiert hat)
    • Strukturierter JSON-Code zum Aufrufen Ihrer Funktion
    • Verschlüsselte Gedanken-Signaturen, um den Kontext beizubehalten
  3. Sie führen die Funktion in Ihrer Anwendung oder Umgebung aus.
  4. Sie geben alle Teile der Antwort von Gemini sowie die Ergebnisse Ihres Funktionsaufrufs zurück.
  5. Gemini generiert die endgültige Antwort anhand des gesamten kombinierten Kontexts.

Im Leitfaden zur Kombination von Tools erfahren Sie, wie Sie die Unterstützung für die Kombination von integrierten und benutzerdefinierten Tools aktivieren und wie der Kontext weitergegeben wird.

Strukturierte Ausgaben im Vergleich zu Funktionsaufrufen

Gemini bietet zwei Methoden zum Generieren strukturierter Ausgaben. Verwenden Sie Funktionsaufrufe, wenn das Modell einen Zwischenschritt ausführen muss, indem es eine Verbindung zu Ihren eigenen Tools oder Datensystemen herstellt. Verwenden Sie strukturierte Ausgaben, wenn die endgültige Antwort des Modells unbedingt einem bestimmten Schema entsprechen muss, z. B. zum Rendern einer benutzerdefinierten Benutzeroberfläche.

Strukturierte Ausgaben mit Tools

Sie können strukturierte Ausgaben mit integrierten Tools kombinieren, um sicherzustellen, dass Modellantworten, die auf externen Daten oder Berechnungen basieren, einem strengen Schema entsprechen.

Codebeispiele finden Sie unter Strukturierte Ausgaben mit Tools.

Agents erstellen

Agenten sind Systeme, die Modelle und Tools verwenden, um mehrstufige Aufgaben zu erledigen. Gemini bietet zwar die Denkfähigkeiten („Gehirn“) und die wichtigsten Tools („Hände“), aber oft benötigen Sie ein Orchestrierungs-Framework, um den Speicher des Agents zu verwalten, Schleifen zu planen und komplexe Tool-Verkettungen durchzuführen.

Um die Zuverlässigkeit in mehrstufigen Workflows zu maximieren, sollten Sie Anweisungen erstellen, die explizit steuern, wie das Modell argumentiert und plant. Gemini bietet zwar eine starke allgemeine Argumentation, aber komplexe Agents profitieren von Prompts, die bestimmte Verhaltensweisen erzwingen, z. B. Beharrlichkeit bei Problemen, Risikobewertung und proaktive Planung.

Unter Agent-basierte Workflows finden Sie Strategien zum Entwerfen dieser Prompts. Hier ist ein Beispiel für eine Systemanweisung, die die Leistung bei mehreren agentenbasierten Benchmarks um etwa 5 % verbessert hat.

Frameworks für KI-Agenten

Gemini lässt sich in führende Open-Source-Agent-Frameworks wie die folgenden einbinden:

  • LangChain / LangGraph: Erstellen Sie zustandsbehaftete, komplexe Anwendungsabläufe und Multi-Agenten-Systeme mithilfe von Diagrammstrukturen.
  • LlamaIndex: Gemini-Agents mit Ihren privaten Daten für RAG-optimierte Workflows verbinden.
  • CrewAI: Orchestrieren Sie kollaborative, autonome KI-Agents, die Rollenspiele spielen.
  • Vercel AI SDK: Erstellen Sie KI-basierte Benutzeroberflächen und Agents in JavaScript/TypeScript.
  • Google ADK: Ein Open-Source-Framework zum Erstellen und Orchestrieren interoperabler KI-Agents.