Tools erweitern die Möglichkeiten von Gemini-Modellen. Sie ermöglichen es ihnen, Aktionen auszuführen, auf Echtzeitinformationen zuzugreifen und komplexe Berechnungsaufgaben zu erledigen. Modelle können Tools sowohl bei Standard-Anfrage-Antwort-Interaktionen als auch bei Echtzeit-Streaming-Sitzungen über die Live API verwenden.
Die Gemini API bietet eine Reihe von vollständig verwalteten, integrierten Tools, die für Gemini-Modelle optimiert sind. Sie können auch benutzerdefinierte Tools mit Funktionsaufruf definieren.
Verfügbare integrierte Tools
| Tool | Beschreibung | Anwendungsfälle |
|---|---|---|
| Google Suche | Antworten mit aktuellen Ereignissen und Fakten aus dem Web untermauern, um Halluzinationen zu reduzieren. | – Fragen zu aktuellen Ereignissen beantworten – Fakten mit verschiedenen Quellen bestätigen |
| Google Maps | Erstellen Sie standortbezogene Assistenten, die Orte finden, Wegbeschreibungen abrufen und umfassende lokale Informationen bereitstellen können. | – Reisepläne mit mehreren Zwischenstopps planen – Lokale Unternehmen anhand von Nutzerkriterien finden |
| Codeausführung | Das Modell darf Python-Code schreiben und ausführen, um mathematische Probleme zu lösen oder Daten genau zu verarbeiten. | – Komplexe mathematische Gleichungen lösen – Textdaten präzise verarbeiten und analysieren |
| URL-Kontext | Weisen Sie das Modell an, Inhalte von bestimmten Webseiten oder Dokumenten zu lesen und zu analysieren. | – Fragen auf Grundlage bestimmter URLs oder Dokumente beantworten – Informationen von verschiedenen Webseiten abrufen |
| Computer Use (Preview) | Gemini kann einen Bildschirm ansehen und Aktionen generieren, um mit Webbrowser-Benutzeroberflächen zu interagieren (clientseitige Ausführung). | – Automatisieren von sich wiederholenden webbasierten Workflows – Testen von Benutzeroberflächen von Webanwendungen |
| Dateisuche | Sie können Ihre eigenen Dokumente indexieren und durchsuchen, um Retrieval-Augmented Generation (RAG) zu ermöglichen. | – Suche in technischen Handbüchern – Beantwortung von Fragen zu proprietären Daten |
Details zu den Kosten für bestimmte Tools finden Sie auf der Preisseite.
So funktioniert die Ausführung von Tools
Mithilfe von Tools kann das Modell während einer Unterhaltung Aktionen anfordern. Der Ablauf unterscheidet sich je nachdem, ob das Tool integriert (von Google verwaltet) oder benutzerdefiniert (von Ihnen verwaltet) ist.
Ablauf integrierter Tools
Bei integrierten Tools wie der Google Suche oder der Codeausführung erfolgt der gesamte Prozess innerhalb eines API-Aufrufs:
- Sie senden einen Prompt: „Was ist die Quadratwurzel des letzten Aktienkurses von GOOG?“
- Gemini entscheidet, dass Tools benötigt werden, und führt sie auf den Servern von Google aus (z.B. wird nach dem Aktienkurs gesucht und dann Python-Code ausgeführt, um die Quadratwurzel zu berechnen).
- Gemini gibt die endgültige Antwort zurück, die auf den Tool-Ergebnissen basiert.
Benutzerdefinierter Tool-Ablauf (Funktionsaufrufe)
Bei benutzerdefinierten Tools und der Computernutzung übernimmt Ihre Anwendung die Ausführung:
- Sie senden einen Prompt zusammen mit Funktionsdeklarationen (Tools).
- Gemini kann eine strukturierte JSON-Datei zurückgeben, um eine bestimmte Funktion aufzurufen (z. B.
{"name": "get_order_status", "args": {"order_id": "123"}}). - Sie führen die Funktion in Ihrer Anwendung oder Umgebung aus.
- Sie senden die Funktionsergebnisse an Gemini zurück.
- Gemini verwendet die Ergebnisse, um eine endgültige Antwort oder einen weiteren Toolaufruf zu generieren.
Weitere Informationen finden Sie im Leitfaden zu Funktionsaufrufen.
Strukturierte Ausgaben im Vergleich zu Funktionsaufrufen
Gemini bietet zwei Methoden zum Generieren strukturierter Ausgaben. Verwenden Sie Funktionsaufrufe, wenn das Modell einen Zwischenschritt ausführen muss, indem es eine Verbindung zu Ihren eigenen Tools oder Datensystemen herstellt. Verwenden Sie strukturierte Ausgaben, wenn die endgültige Antwort des Modells unbedingt einem bestimmten Schema entsprechen muss, z. B. zum Rendern einer benutzerdefinierten Benutzeroberfläche.
Agents erstellen
Agents sind Systeme, die Modelle und Tools verwenden, um mehrstufige Aufgaben zu erledigen. Gemini bietet zwar die Reasoning-Funktionen (das „Gehirn“) und die wichtigsten Tools (die „Hände“), aber oft benötigen Sie ein Orchestrierungs-Framework, um den Speicher des Agents zu verwalten, Schleifen zu planen und komplexe Tool-Chaining-Vorgänge auszuführen.
Gemini lässt sich in führende Open-Source-Agent-Frameworks einbinden:
- LangChain / LangGraph: Mit Grafiken können Sie komplexe Anwendungsabläufe und Multi-Agent-Systeme mit Status erstellen.
- LlamaIndex: Verbinden Sie Gemini-Agents mit Ihren privaten Daten für RAG-optimierte Workflows.
- CrewAI: Orchestrieren Sie kollaborative, autonome KI-Agents, die Rollenspiele spielen.
- Vercel AI SDK: KI-basierte Benutzeroberflächen und Agents in JavaScript/TypeScript erstellen.
- Google ADK: Ein Open-Source-Framework zum Erstellen und Orchestrieren interoperabler KI-Agents.