Narzędzia i agenci rozszerzają możliwości modeli Gemini, umożliwiając im podejmowanie działań w świecie, dostęp do informacji w czasie rzeczywistym i wykonywanie złożonych zadań obliczeniowych. Modele mogą korzystać z narzędzi zarówno w standardowych interakcjach typu żądanie-odpowiedź, jak i w sesjach strumieniowych w czasie rzeczywistym za pomocą interfejsu Live API.
- Narzędzia to konkretne funkcje (takie jak wyszukiwarka Google czy wywoływanie kodu), których model może używać do odpowiadania na zapytania.
- Agenci to systemy, które mogą planować, wykonywać i syntetyzować wieloetapowe zadania, aby osiągnąć cel użytkownika.
Gemini API udostępnia zestaw w pełni zarządzanych, wbudowanych narzędzi i agentów zoptymalizowanych pod kątem modeli Gemini. Możesz też zdefiniować narzędzia niestandardowe za pomocą wywoływania funkcji.
Dostępne wbudowane narzędzia
| Narzędzie | Opis | Przypadki użycia |
|---|---|---|
| Wyszukiwarka Google | Powiąż odpowiedzi z aktualnymi wydarzeniami i faktami z internetu, aby ograniczyć halucynacje. | – odpowiadanie na pytania dotyczące ostatnich wydarzeń , – weryfikowanie faktów w różnych źródłach. |
| Mapy Google | Twórz asystentów z dostępem do lokalizacji, którzy mogą znajdować miejsca, wyznaczać trasy i dostarczać szczegółowe informacje o lokalnym kontekście. | – planowanie tras podróży z wieloma przystankami – wyszukiwanie lokalnych firm na podstawie kryteriów użytkownika |
| Wykonywanie kodu | Umożliwia modelowi pisanie i uruchamianie kodu Pythona w celu dokładnego rozwiązywania problemów matematycznych lub przetwarzania danych. | – Rozwiązywanie złożonych równań matematycznych – Precyzyjne przetwarzanie i analizowanie danych tekstowych |
| Kontekst adresu URL | Wskaż modelowi, aby odczytywał i analizował treści z określonych stron internetowych lub dokumentów. | – odpowiadanie na pytania na podstawie konkretnych adresów URL lub dokumentów – wyszukiwanie informacji na różnych stronach internetowych. |
| Korzystanie z komputera (wersja zapoznawcza) | Zezwól Gemini na wyświetlanie ekranu i generowanie działań umożliwiających interakcję z interfejsami przeglądarki (wykonywanie po stronie klienta). | – Automatyzacja powtarzalnych przepływów pracy w internecie – Testowanie interfejsów użytkownika aplikacji internetowych |
| Wyszukiwanie plików | Indeksowanie i wyszukiwanie własnych dokumentów, aby włączyć generowanie rozszerzone przez wyszukiwanie w zapisanych informacjach (RAG). | – przeszukiwanie instrukcji technicznych , – odpowiadanie na pytania dotyczące danych własnych. |
Szczegółowe informacje o kosztach związanych z poszczególnymi narzędziami znajdziesz na stronie z cennikiem.
Dostępni pracownicy
| Agent | Opis | Przypadki użycia |
|---|---|---|
| Deep Research | Autonomicznie planuje, wykonuje i syntetyzuje wieloetapowe zadania badawcze. | – Analiza rynku – Due diligence – Przegląd literatury |
Jak działa wykonywanie narzędzi
Narzędzia umożliwiają modelowi żądanie działań podczas rozmowy. Proces różni się w zależności od tego, czy narzędzie jest wbudowane (zarządzane przez Google) czy niestandardowe (zarządzane przez Ciebie).
Przepływ wbudowanego narzędzia
W przypadku wbudowanych narzędzi (wyszukiwarka Google, Mapy Google, kontekst adresu URL, wyszukiwanie plików, wykonywanie kodu) cały proces odbywa się w ramach jednego wywołania interfejsu API:
- Ty: „Ile wynosi pierwiastek z najnowszej ceny akcji GOOG?”.
- Gemini stwierdza, że potrzebuje narzędzi, i uruchamia je na serwerach Google (np. wyszukuje cenę akcji, a potem uruchamia kod w Pythonie, aby obliczyć pierwiastek kwadratowy).
- Gemini odsyła ostateczną odpowiedź opartą na wynikach narzędzia.
Niestandardowy przepływ narzędzia (wywoływanie funkcji)
W przypadku narzędzi niestandardowych i korzystania z komputera wykonanie jest obsługiwane przez aplikację:
- Ty wysyłasz prompta wraz z deklaracjami funkcji (narzędzi).
- Gemini może wysyłać z powrotem uporządkowany kod JSON, aby wywołać konkretną funkcję (np.
{"name": "get_order_status", "args": {"order_id": "123"}}), zawsze z niepowtarzalnym identyfikatoremid. - Ty wykonujesz funkcję w aplikacji lub środowisku.
- Ty wysyłasz wyniki funkcji z tym samym identyfikatorem
idco wywołanie funkcji z powrotem do Gemini. - Gemini używa wyników do wygenerowania ostatecznej odpowiedzi lub innego wywołania narzędzia.
Więcej informacji znajdziesz w przewodniku po wywoływaniu funkcji.
Łączenie wbudowanych i niestandardowych narzędzi
W przypadku żądań, które łączą wbudowane i niestandardowe narzędzia (wywołania funkcji), model używa kontekstu narzędzia, aby koordynować wykonywanie w różnych środowiskach:
- Ty wysyłasz prompt i deklarujesz wbudowane narzędzia oraz funkcje niestandardowe, które chcesz włączyć, ustawiając flagę, aby włączyć obsługę kombinacji.
- Gemini wykonuje wbudowane narzędzia i przekazuje kontrolę użytkownikowi, jeśli wygenerowane zostaną wywołania funkcji po stronie klienta (kolejność wykonania zależy od prompta i decyzji modelu). Wysyła odpowiedź zawierającą:
- Potwierdzenie wywołania narzędzia
- Wyniki odpowiedzi narzędzia (mogą pojawić się po kodzie JSON, jeśli model wygenerował 2 równoległe wywołania funkcji).
- Uporządkowany kod JSON do wywoływania funkcji
- Zaszyfrowane podpisy myśli, które zachowują kontekst
- Ty wykonujesz funkcję w aplikacji lub środowisku.
- Zwracasz wszystkie części odpowiedzi Gemini oraz wyniki wywołania funkcji.
- Gemini generuje ostateczną odpowiedź na podstawie całego połączonego kontekstu.
Więcej informacji o włączaniu obsługi kombinacji narzędzi wbudowanych i niestandardowych oraz przykłady przekazywania kontekstu znajdziesz w przewodniku po kombinacjach narzędzi.
Uporządkowane dane wyjściowe a wywoływanie funkcji
Gemini oferuje 2 metody generowania danych strukturalnych. Używaj wywoływania funkcji, gdy model musi wykonać krok pośredni, łącząc się z Twoimi narzędziami lub systemami danych. Używaj strukturalnych danych wyjściowych, gdy potrzebujesz, aby ostateczna odpowiedź modelu była zgodna z określonym schematem, np. w celu renderowania niestandardowego interfejsu.
Uporządkowane dane wyjściowe z narzędzi
Możesz łączyć dane wyjściowe w formacie strukturalnym z wbudowanymi narzędziami, aby mieć pewność, że odpowiedzi modelu oparte na danych zewnętrznych lub obliczeniach nadal są zgodne ze ścisłym schematem.
Przykłady kodu znajdziesz w sekcji Ustrukturyzowane dane wyjściowe z użyciem narzędzi.
Tworzenie agentów
Agenty to systemy, które wykorzystują modele i narzędzia do wykonywania wieloetapowych zadań. Gemini zapewnia możliwości rozumowania („mózg”) i podstawowe narzędzia („ręce”), ale często potrzebujesz platformy orkiestracji, aby zarządzać pamięcią agenta, pętlami planowania i wykonywać złożone łańcuchy narzędzi.
Aby zmaksymalizować niezawodność w wieloetapowych procesach, należy tworzyć instrukcje, które wyraźnie kontrolują sposób rozumowania i planowania modelu. Gemini zapewnia silne ogólne rozumowanie, ale złożone agenty korzystają z promptów, które wymuszają określone zachowania, takie jak wytrwałość w obliczu problemów, ocena ryzyka i proaktywne planowanie.
Strategie projektowania tych promptów znajdziesz w artykule Przepływy pracy oparte na agentach. Oto przykład instrukcji systemowej, która poprawiła wyniki w kilku testach porównawczych dotyczących możliwości agentowych o około 5%.
Platformy agentów
Gemini integruje się z najpopularniejszymi platformami agentów open source, takimi jak:
- LangChain / LangGraph: twórz złożone przepływy aplikacji z zachowywaniem stanu i systemy wieloagentowe przy użyciu struktur grafów.
- LlamaIndex połącz agentów Gemini z danymi prywatnymi, aby korzystać z ulepszonych przepływów pracy RAG.
- CrewAI koordynuj współpracę autonomicznych agentów AI odgrywających różne role.
- Vercel AI SDK: tworzenie interfejsów użytkownika i agentów opartych na AI w JavaScript/TypeScript.
- Google ADK: platforma open source do tworzenia i koordynowania interoperacyjnych agentów AI.