Narzędzia rozszerzają możliwości modeli Gemini, umożliwiając im podejmowanie działań w świecie, dostęp do informacji w czasie rzeczywistym i wykonywanie złożonych zadań obliczeniowych. Modele mogą korzystać z narzędzi zarówno w standardowych interakcjach typu żądanie-odpowiedź, jak i w sesjach strumieniowania w czasie rzeczywistym za pomocą interfejsu Live API.
Interfejs Gemini API udostępnia zestaw w pełni zarządzanych, wbudowanych narzędzi zoptymalizowanych pod kątem modeli Gemini. Możesz też zdefiniować narzędzia niestandardowe za pomocą wywoływania funkcji.
Dostępne wbudowane narzędzia
| Narzędzie | Opis | Przypadki użycia |
|---|---|---|
| Wyszukiwarka Google | Powiąż odpowiedzi z aktualnymi wydarzeniami i faktami z internetu, aby ograniczyć halucynacje. | – odpowiadanie na pytania dotyczące ostatnich wydarzeń , – weryfikowanie faktów w różnych źródłach. |
| Mapy Google | Twórz asystentów z dostępem do lokalizacji, którzy mogą znajdować miejsca, wyznaczać trasy i dostarczać szczegółowe informacje o lokalnym kontekście. | – planowanie tras podróży z wieloma przystankami – wyszukiwanie lokalnych firm na podstawie kryteriów użytkownika |
| Wykonywanie kodu | Umożliwia modelowi pisanie i uruchamianie kodu w Pythonie w celu dokładnego rozwiązywania problemów matematycznych lub przetwarzania danych. | – Rozwiązywanie złożonych równań matematycznych – Precyzyjne przetwarzanie i analizowanie danych tekstowych |
| Kontekst adresu URL | Wskaż modelowi, aby odczytywał i analizował treści z określonych stron internetowych lub dokumentów. | – odpowiadanie na pytania na podstawie konkretnych adresów URL lub dokumentów ; – wyszukiwanie informacji na różnych stronach internetowych. |
| Korzystanie z komputera (wersja zapoznawcza) | Zezwól Gemini na wyświetlanie ekranu i generowanie działań umożliwiających interakcję z interfejsami przeglądarki (wykonywanie po stronie klienta). | – Automatyzacja powtarzalnych przepływów pracy w internecie – Testowanie interfejsów użytkownika aplikacji internetowych |
| Wyszukiwanie plików | Indeksowanie i wyszukiwanie własnych dokumentów w celu włączenia generowania rozszerzonego przez wyszukiwanie w zapisanych informacjach (RAG). | – przeszukiwanie instrukcji technicznych , – odpowiadanie na pytania dotyczące danych własnych. |
Szczegółowe informacje o kosztach związanych z poszczególnymi narzędziami znajdziesz na stronie z cennikiem.
Jak działa wykonywanie narzędzi
Narzędzia umożliwiają modelowi żądanie działań podczas rozmowy. Proces różni się w zależności od tego, czy narzędzie jest wbudowane (zarządzane przez Google) czy niestandardowe (zarządzane przez Ciebie).
Przepływ wbudowanego narzędzia
W przypadku wbudowanych narzędzi, takich jak wyszukiwarka Google czy wykonywanie kodu, cały proces odbywa się w ramach jednego wywołania interfejsu API:
- Ty: „Ile wynosi pierwiastek kwadratowy z najnowszej ceny akcji GOOG?”.
- Gemini stwierdza, że potrzebuje narzędzi, i uruchamia je na serwerach Google (np. wyszukuje cenę akcji, a potem uruchamia kod Pythona, aby obliczyć pierwiastek kwadratowy).
- Gemini odsyła ostateczną odpowiedź opartą na wynikach narzędzia.
Niestandardowy przepływ narzędzi (wywoływanie funkcji)
W przypadku narzędzi niestandardowych i korzystania z komputera aplikacja obsługuje wykonywanie:
- Ty wysyłasz prompta wraz z deklaracjami funkcji (narzędzi).
- Gemini może odesłać uporządkowany plik JSON, aby wywołać konkretną funkcję (np.
{"name": "get_order_status", "args": {"order_id": "123"}}). - Ty wykonujesz funkcję w aplikacji lub środowisku.
- Ty wysyłasz wyniki funkcji z powrotem do Gemini.
- Gemini używa wyników do wygenerowania ostatecznej odpowiedzi lub kolejnego wywołania narzędzia.
Więcej informacji znajdziesz w przewodniku po wywoływaniu funkcji.
Uporządkowane dane wyjściowe a wywoływanie funkcji
Gemini oferuje 2 metody generowania danych strukturalnych. Używaj wywoływania funkcji, gdy model musi wykonać krok pośredni, łącząc się z Twoimi narzędziami lub systemami danych. Używaj strukturalnych danych wyjściowych, gdy potrzebujesz, aby ostateczna odpowiedź modelu była zgodna z określonym schematem, np. w przypadku renderowania niestandardowego interfejsu.
Agenci budowlani
Agenci to systemy, które wykorzystują modele i narzędzia do wykonywania wieloetapowych zadań. Gemini zapewnia możliwości rozumowania (czyli „mózg”) i podstawowe narzędzia („ręce”), ale często potrzebujesz platformy orkiestracyjnej do zarządzania pamięcią agenta, planowania pętli i wykonywania złożonych łańcuchów narzędzi.
Gemini integruje się z najpopularniejszymi platformami agentów open source:
- LangChain / LangGraph: twórz złożone przepływy aplikacji z zachowywaniem stanu i systemy wieloagentowe za pomocą struktur grafów.
- LlamaIndex połącz agentów Gemini z danymi prywatnymi, aby usprawnić przepływy pracy oparte na RAG.
- CrewAI koordynuj współpracujących, autonomicznych agentów AI odgrywających określone role.
- Vercel AI SDK: tworzenie interfejsów użytkownika i agentów opartych na AI w JavaScript/TypeScript.
- Google ADK: platforma open source do tworzenia i koordynowania interoperacyjnych agentów AI.