Agents sind Systeme, die Gemini-Modelle, eine Reihe von Tools und Schlussfolgerungsfunktionen nutzen, um komplexe, mehrstufige Aufgaben auszuführen und bestimmte Ziele zu erreichen. Im Gegensatz zu einem einzelnen Modellaufruf kann ein Agent eine Reihe von Aktionen planen und ausführen, mit externen Systemen interagieren und Informationen zusammenführen, um die Anfrage eines Nutzers zu erfüllen.
Mit der Gemini API können Sie leistungsstarke Agents erstellen, indem Sie Funktionen wie die folgenden nutzen:
- Gemini-Modelle:Die Kernintelligenz, die für Schlussfolgerungen und Sprachverständnis sorgt.
- Tools:Funktionen, die das Modell mit realen Informationen und Aktionen verbinden. Das können integrierte Tools (z. B. Google Suche, Google Maps, Codeausführung) oder benutzerdefinierte Tools sein.
- Funktionsaufruf:Der Mechanismus zum Definieren und Verbinden Ihrer eigenen benutzerdefinierten Tools und APIs mit dem Gemini-Modell.
- Thinking:Funktionen, die die Fähigkeit des Modells verbessern, komplexe Aufgaben zu analysieren und zu planen.
- Langer Kontext:Agents können Status und Informationen über längere Interaktionen hinweg beibehalten.
Verfügbare Kundenservicemitarbeiter
- Deep Research Agent:Ein autonomer Agent, der mehrstufige Rechercheaufgaben für Anwendungsfälle wie Marktanalyse, Due Diligence und Literaturübersichten plant, ausführt und zusammenfasst.
Agents erstellen
Agenten verwenden Modelle und Tools, um mehrstufige Aufgaben zu erledigen. Gemini bietet zwar die Reasoning-Funktionen (das „Gehirn“) und die wichtigsten Tools (die „Hände“), aber oft benötigen Sie ein Orchestrierungs-Framework, um den Speicher des Agents zu verwalten, Schleifen zu planen und komplexe Tool-Chaining-Vorgänge auszuführen.
Um die Zuverlässigkeit in mehrstufigen Workflows zu maximieren, sollten Sie Anweisungen erstellen, die explizit steuern, wie das Modell argumentiert und plant. Gemini bietet zwar eine starke allgemeine Argumentation, aber komplexe Agents profitieren von Prompts, die bestimmte Verhaltensweisen erzwingen, z. B. Beharrlichkeit bei Problemen, Risikobewertung und proaktive Planung.
Unter Agent-basierte Workflows finden Sie Strategien zum Entwerfen dieser Prompts. Hier ist ein Beispiel für eine Systemanweisung, die die Leistung bei mehreren agentenbasierten Benchmarks um etwa 5 % verbessert hat.
Frameworks für KI-Agenten
Gemini lässt sich in führende Open-Source-Agent-Frameworks wie die folgenden einbinden:
- LangChain / LangGraph: Erstellen Sie zustandsbehaftete, komplexe Anwendungsabläufe und Multi-Agenten-Systeme mithilfe von Diagrammstrukturen.
- LlamaIndex: Gemini-Agents mit Ihren privaten Daten für RAG-optimierte Workflows verbinden.
- CrewAI: Orchestrieren Sie kollaborative, autonome KI-Agents, die Rollenspiele spielen.
- Vercel AI SDK: Erstellen Sie KI-basierte Benutzeroberflächen und Agents in JavaScript/TypeScript.
- Google ADK: Ein Open-Source-Framework zum Erstellen und Orchestrieren interoperabler KI-Agents.