Agenty to systemy, które wykorzystują modele Gemini, zestaw narzędzi i możliwości rozumowania do wykonywania złożonych, wieloetapowych zadań i osiągania określonych celów. W przeciwieństwie do pojedynczego wywołania modelu agent może planować, wykonywać serię działań, wchodzić w interakcje z systemami zewnętrznymi i syntetyzować informacje, aby spełnić żądanie użytkownika.
Dzięki Gemini API możesz tworzyć zaawansowane agenty, korzystając z takich funkcji jak:
- Modele Gemini: podstawowa inteligencja, która zapewnia wnioskowanie i rozumienie języka.
- Narzędzia: funkcje, które łączą model z informacjami i działaniami w świecie rzeczywistym. Mogą to być narzędzia wbudowane (np. wyszukiwarka Google, Mapy, wykonywanie kodu) lub narzędzia niestandardowe.
- Wywoływanie funkcji: mechanizm definiowania i łączenia własnych narzędzi niestandardowych i interfejsów API z modelem Gemini.
- Myślenie: funkcje, które zwiększają zdolność modelu do wnioskowania i planowania złożonych zadań.
- Długi kontekst: umożliwia agentom utrzymywanie stanu i informacji podczas długotrwałych interakcji.
Dostępni agenci
- Agent Deep Research: autonomiczny agent, który planuje, wykonuje i syntetyzuje wieloetapowe zadania badawcze na potrzeby takich przypadków użycia jak analiza rynku, należyta staranność i przegląd literatury.
Tworzenie agentów
Agenty używają modeli i narzędzi do wykonywania wieloetapowych zadań. Gemini zapewnia możliwości rozumowania („mózg”) i podstawowe narzędzia („ręce”), ale często potrzebujesz platformy do zarządzania pamięcią agenta, pętlami planowania i złożonymi łańcuchami narzędzi.
Aby zmaksymalizować niezawodność w wieloetapowych przepływach pracy, należy tworzyć instrukcje, które wyraźnie określają, jak model ma rozumować i planować. Gemini zapewnia silne ogólne rozumowanie, ale złożone agenty korzystają z promptów, które wymuszają określone zachowania, takie jak wytrwałość w obliczu problemów, ocena ryzyka i proaktywne planowanie.
Strategie projektowania tych promptów znajdziesz w sekcji Agentic workflows for. Oto przykład instrukcji systemowej, która poprawiła wydajność w kilku testach porównawczych agentów o około 5%.
Platformy agentów
Gemini integruje się z wiodącymi platformami agentów open source, takimi jak:
- LangChain / LangGraph: Twórz złożone przepływy aplikacji ze stanem i systemy wieloagentowe za pomocą struktur grafów.
- LlamaIndex: połącz agenty Gemini z danymi prywatnymi, aby korzystać z przepływów pracy z ulepszonym RAG.
- CrewAI
- Vercel AI SDK: twórz interfejsy użytkownika i agenty oparte na AI w JavaScript/TypeScript.
- Google ADK: platforma open source do tworzenia i zarządzania interoperacyjnymi agentami AI.