Agenci to systemy, które wykorzystują modele Gemini, zestaw narzędzi i możliwości rozumowania do wykonywania złożonych, wieloetapowych zadań i osiągania konkretnych celów. W przeciwieństwie do pojedynczego wywołania modelu agent może planować i wykonywać serię działań, wchodzić w interakcje z systemami zewnętrznymi oraz syntetyzować informacje w celu realizacji żądania użytkownika.
Dzięki Gemini API możesz tworzyć zaawansowane agenty, korzystając z takich funkcji jak:
- Modele Gemini: podstawowa inteligencja, która zapewnia rozumowanie i rozumienie języka.
- Narzędzia: funkcje, które łączą model z informacjami i działaniami w świecie rzeczywistym. Mogą to być wbudowane narzędzia (np. wyszukiwarka Google, Mapy, wykonywanie kodu) lub narzędzia niestandardowe.
- Wywoływanie funkcji: mechanizm definiowania i łączenia własnych narzędzi niestandardowych oraz interfejsów API z modelem Gemini.
- Myślenie: funkcje, które zwiększają zdolność modelu do wnioskowania i planowania złożonych zadań.
- Długi kontekst: umożliwia agentom utrzymywanie stanu i informacji podczas dłuższych interakcji.
Dostępni pracownicy
- Agent Deep Research: autonomiczny agent, który planuje, wykonuje i syntetyzuje wieloetapowe zadania badawcze w przypadkach użycia takich jak analiza rynku, należyta staranność i przeglądy literatury.
Tworzenie agentów
Agenci używają modeli i narzędzi do wykonywania wieloetapowych zadań. Gemini zapewnia możliwości rozumowania („mózg”) i podstawowe narzędzia („ręce”), ale często potrzebujesz platformy orkiestracyjnej do zarządzania pamięcią agenta, planowania pętli i wykonywania złożonych łańcuchów narzędzi.
Aby zmaksymalizować niezawodność w wieloetapowych procesach, należy tworzyć instrukcje, które wyraźnie kontrolują sposób rozumowania i planowania modelu. Gemini zapewnia silne ogólne rozumowanie, ale złożone agenty korzystają z promptów, które wymuszają określone zachowania, takie jak wytrwałość w obliczu problemów, ocena ryzyka i proaktywne planowanie.
Więcej informacji o strategiach projektowania tych promptów znajdziesz w sekcji Przepływy pracy z użyciem agentów. Oto przykład instrukcji systemowej, która poprawiła wyniki w kilku testach porównawczych dotyczących możliwości agentowych o około 5%.
Platformy agentów
Gemini integruje się z najpopularniejszymi platformami agentów open source, takimi jak:
- LangChain / LangGraph: twórz złożone przepływy aplikacji z zachowywaniem stanu i systemy wieloagentowe przy użyciu struktur grafów.
- LlamaIndex połącz agentów Gemini z danymi prywatnymi, aby korzystać z ulepszonych przepływów pracy RAG.
- CrewAI koordynuj współpracę autonomicznych agentów AI odgrywających różne role.
- Vercel AI SDK: tworzenie interfejsów użytkownika i agentów opartych na AI w JavaScript/TypeScript.
- Google ADK: platforma open source do tworzenia i koordynowania interoperacyjnych agentów AI.