Tools erweitern die Möglichkeiten von Gemini-Modellen, sodass sie Aktionen ausführen, auf Echtzeitinformationen zugreifen und komplexe Berechnungsaufgaben erledigen können. Modelle können Tools sowohl bei Standard-Anfrage-Antwort-Interaktionen als auch bei Echtzeit-Streaming-Sitzungen über die Live API verwenden.
Die Gemini API bietet eine Reihe von vollständig verwalteten, integrierten Tools, die für Gemini-Modelle optimiert sind. Sie können auch benutzerdefinierte Tools mit Funktionsaufruf definieren.
Verfügbare integrierte Tools
| Tool | Beschreibung | Anwendungsfälle |
|---|---|---|
| Google Suche | Antworten auf aktuelle Ereignisse und Fakten aus dem Web stützen, um Halluzinationen zu reduzieren. | – Fragen zu aktuellen Ereignissen beantworten – Fakten mit verschiedenen Quellen bestätigen |
| Google Maps | Erstellen Sie standortbezogene Assistenten, die Orte finden, Wegbeschreibungen abrufen und umfassende lokale Informationen bereitstellen können. | – Reisepläne mit mehreren Zwischenstopps planen – Lokale Unternehmen anhand von Nutzerkriterien finden |
| Codeausführung | Das Modell darf Python-Code schreiben und ausführen, um mathematische Probleme zu lösen oder Daten genau zu verarbeiten. | – Komplexe mathematische Gleichungen lösen – Textdaten präzise verarbeiten und analysieren |
| URL-Kontext | Weisen Sie das Modell an, Inhalte von bestimmten Webseiten oder Dokumenten zu lesen und zu analysieren. | – Fragen auf Grundlage bestimmter URLs oder Dokumente beantworten – Informationen von verschiedenen Webseiten abrufen |
| Computer Use (Vorschau) | Gemini kann einen Bildschirm ansehen und Aktionen generieren, um mit Webbrowser-Benutzeroberflächen zu interagieren (clientseitige Ausführung). | – Automatisieren von sich wiederholenden webbasierten Workflows – Testen von Benutzeroberflächen von Webanwendungen |
| Dateisuche | Sie können Ihre eigenen Dokumente indexieren und durchsuchen, um Retrieval-Augmented Generation (RAG) zu ermöglichen. | – Suche in technischen Handbüchern – Fragenbeantwortung anhand proprietärer Daten |
Details zu den Kosten für bestimmte Tools finden Sie auf der Preisseite.
So funktioniert die Ausführung von Tools
Mithilfe von Tools kann das Modell während einer Unterhaltung Aktionen anfordern. Der Ablauf unterscheidet sich je nachdem, ob das Tool integriert (von Google verwaltet) oder benutzerdefiniert (von Ihnen verwaltet) ist.
Ablauf integrierter Tools
Bei integrierten Tools wie der Google Suche oder der Codeausführung erfolgt der gesamte Prozess in einem API-Aufruf:
- Sie senden einen Prompt: „What is the square root of the latest stock price of GOOG?“ (Was ist die Quadratwurzel des letzten Aktienkurses von GOOG?)
- Gemini entscheidet, dass Tools benötigt werden, und führt sie auf den Servern von Google aus (z.B. wird nach dem Aktienkurs gesucht und dann Python-Code ausgeführt, um die Quadratwurzel zu berechnen).
- Gemini sendet die endgültige Antwort zurück, die auf den Tool-Ergebnissen basiert.
Benutzerdefinierter Tool-Ablauf (Funktionsaufrufe)
Bei benutzerdefinierten Tools und der Computernutzung übernimmt Ihre Anwendung die Ausführung:
- Sie senden einen Prompt zusammen mit Funktionsdeklarationen (Tools).
- Gemini kann eine strukturierte JSON-Datei zurückgeben, um eine bestimmte Funktion aufzurufen (z. B.
{"name": "get_order_status", "args": {"order_id": "123"}}). - Sie führen die Funktion in Ihrer Anwendung oder Umgebung aus.
- Sie senden die Funktionsergebnisse an Gemini zurück.
- Gemini verwendet die Ergebnisse, um eine endgültige Antwort oder einen weiteren Toolaufruf zu generieren.
Weitere Informationen finden Sie im Leitfaden zu Funktionsaufrufen.
Strukturierte Ausgaben im Vergleich zu Funktionsaufrufen
Gemini bietet zwei Methoden zum Generieren strukturierter Ausgaben. Verwenden Sie Funktionsaufrufe, wenn das Modell einen Zwischenschritt ausführen muss, indem es eine Verbindung zu Ihren eigenen Tools oder Datensystemen herstellt. Verwenden Sie strukturierte Ausgaben, wenn die endgültige Antwort des Modells unbedingt einem bestimmten Schema entsprechen muss, z. B. zum Rendern einer benutzerdefinierten Benutzeroberfläche.
Strukturierte Ausgaben mit Tools
Sie können strukturierte Ausgaben mit integrierten Tools kombinieren, um sicherzustellen, dass Modellantworten, die auf externen Daten oder Berechnungen basieren, weiterhin einem strengen Schema entsprechen.
Codebeispiele finden Sie unter Strukturierte Ausgaben mit Tools.
Agents erstellen
Agents sind Systeme, die Modelle und Tools verwenden, um mehrstufige Aufgaben zu erledigen. Gemini bietet zwar die Reasoning-Funktionen („Gehirn“) und die wichtigsten Tools („Hände“), aber oft benötigen Sie ein Orchestrierungs-Framework, um den Speicher des Agents zu verwalten, Schleifen zu planen und komplexe Tool-Chaining-Vorgänge auszuführen.
Um die Zuverlässigkeit in mehrstufigen Workflows zu maximieren, sollten Sie Anweisungen erstellen, die explizit steuern, wie das Modell argumentiert und plant. Gemini bietet zwar eine starke allgemeine Argumentation, aber komplexe Agents profitieren von Prompts, die bestimmte Verhaltensweisen erzwingen, z. B. Beharrlichkeit bei Problemen, Risikobewertung und proaktive Planung.
Im Abschnitt Agent-basierte Workflows finden Sie Strategien zum Entwerfen dieser Prompts. Hier ist ein Beispiel für eine Systemanweisung, die die Leistung bei mehreren agentenbasierten Benchmarks um etwa 5 % verbessert hat.
Frameworks für KI-Agenten
Gemini lässt sich in führende Open-Source-Agent-Frameworks wie die folgenden einbinden:
- LangChain / LangGraph: Mit Grafiken können Sie komplexe Anwendungsabläufe und Multi-Agent-Systeme mit Status erstellen.
- LlamaIndex: Verbinden Sie Gemini-Agents mit Ihren privaten Daten für RAG-optimierte Workflows.
- CrewAI: Orchestrieren Sie kollaborative, autonome KI-Agents, die Rollenspiele spielen.
- Vercel AI SDK: KI-basierte Benutzeroberflächen und Agents in JavaScript/TypeScript erstellen.
- Google ADK: Ein Open-Source-Framework zum Erstellen und Orchestrieren interoperabler KI-Agents.