Przegląd agentów

Agenty to systemy, które wykorzystują modele Gemini, zestaw narzędzi i możliwości rozumowania do wykonywania złożonych, wieloetapowych zadań i osiągania określonych celów. W przeciwieństwie do pojedynczego wywołania modelu agent może planować, wykonywać serię działań, wchodzić w interakcje z systemami zewnętrznymi i syntetyzować informacje, aby spełnić żądanie użytkownika.

Dzięki Gemini API możesz tworzyć zaawansowane agenty, korzystając z takich funkcji jak:

  • Modele Gemini: podstawowa inteligencja, która zapewnia wnioskowanie i rozumienie języka.
  • Narzędzia: funkcje, które łączą model z informacjami i działaniami w świecie rzeczywistym. Mogą to być narzędzia wbudowane (np. wyszukiwarka Google, Mapy, wykonywanie kodu) lub narzędzia niestandardowe.
  • Wywoływanie funkcji: mechanizm definiowania i łączenia własnych narzędzi niestandardowych i interfejsów API z modelem Gemini.
  • Myślenie: funkcje, które zwiększają zdolność modelu do wnioskowania i planowania złożonych zadań.
  • Długi kontekst: umożliwia agentom utrzymywanie stanu i informacji podczas długotrwałych interakcji.

Dostępni agenci

  • Agent Deep Research: autonomiczny agent, który planuje, wykonuje i syntetyzuje wieloetapowe zadania badawcze na potrzeby takich przypadków użycia jak analiza rynku, należyta staranność i przegląd literatury.

Tworzenie agentów

Agenty używają modeli i narzędzi do wykonywania wieloetapowych zadań. Gemini zapewnia możliwości rozumowania („mózg”) i podstawowe narzędzia („ręce”), ale często potrzebujesz platformy do zarządzania pamięcią agenta, pętlami planowania i złożonymi łańcuchami narzędzi.

Aby zmaksymalizować niezawodność w wieloetapowych przepływach pracy, należy tworzyć instrukcje, które wyraźnie określają, jak model ma rozumować i planować. Gemini zapewnia silne ogólne rozumowanie, ale złożone agenty korzystają z promptów, które wymuszają określone zachowania, takie jak wytrwałość w obliczu problemów, ocena ryzyka i proaktywne planowanie.

Strategie projektowania tych promptów znajdziesz w sekcji Agentic workflows for. Oto przykład instrukcji systemowej, która poprawiła wydajność w kilku testach porównawczych agentów o około 5%.

Platformy agentów

Gemini integruje się z wiodącymi platformami agentów open source, takimi jak:

  • LangChain / LangGraph: Twórz złożone przepływy aplikacji ze stanem i systemy wieloagentowe za pomocą struktur grafów.
  • LlamaIndex: połącz agenty Gemini z danymi prywatnymi, aby korzystać z przepływów pracy z ulepszonym RAG.
  • CrewAI
  • Vercel AI SDK: twórz interfejsy użytkownika i agenty oparte na AI w JavaScript/TypeScript.
  • Google ADK: platforma open source do tworzenia i zarządzania interoperacyjnymi agentami AI.