Инструменты расширяют возможности моделей Gemini, позволяя им действовать в реальном мире, получать доступ к информации в режиме реального времени и выполнять сложные вычислительные задачи. Модели могут использовать инструменты как в стандартных взаимодействиях типа «запрос-ответ», так и в сеансах потоковой передачи данных в реальном времени через Live API .
API Gemini предоставляет набор полностью управляемых встроенных инструментов, оптимизированных для моделей Gemini, или вы можете определить пользовательские инструменты с помощью вызова функций .
Доступные встроенные инструменты
| Инструмент | Описание | Варианты использования |
|---|---|---|
| Поиск Google | Заземлите реакции на текущие события и факты из Интернета, чтобы уменьшить галлюцинации. | - Ответы на вопросы о недавних событиях - Проверка фактов с помощью различных источников |
| Google Карты | Создавайте помощников, учитывающих местоположение, которые могут находить нужные места, получать указания и предоставлять подробную местную информацию. | - Планирование маршрутов путешествий с несколькими остановками - Поиск местных предприятий на основе критериев пользователя |
| Выполнение кода | Позвольте модели писать и запускать код Python для точного решения математических задач или обработки данных. | - Решение сложных математических уравнений - Точная обработка и анализ текстовых данных |
| URL-контекст | Дайте модели задание прочитать и проанализировать контент определенных веб-страниц или документов. | - Ответы на вопросы по конкретным URL-адресам или документам - Извлечение информации с разных веб-страниц |
| Использование компьютера (предварительный просмотр) | Разрешить Gemini просматривать экран и генерировать действия для взаимодействия с пользовательскими интерфейсами веб-браузера (выполнение на стороне клиента). | - Автоматизация повторяющихся веб-рабочих процессов - Тестирование пользовательских интерфейсов веб-приложений |
| Поиск файлов | Индексируйте и ищите собственные документы, чтобы включить функцию дополненной генерации поиска (RAG). | - Поиск технических руководств - Ответы на вопросы по конфиденциальным данным |
Подробную информацию о расходах на конкретные инструменты см. на странице «Цены» .
Как работает исполнение инструментов
Инструменты позволяют модели запрашивать действия во время разговора. Последовательность действий различается в зависимости от того, является ли инструмент встроенным (управляемым Google) или пользовательским (управляемым вами).
Встроенный поток инструментов
Для встроенных инструментов, таких как Google Search или Code Execution, весь процесс происходит в рамках одного вызова API:
- Вы отправляете запрос: «Чему равен квадратный корень последней цены акций GOOG?»
- Gemini решает, что ему нужны инструменты, и запускает их на серверах Google (например, ищет цену акций, а затем запускает код Python для вычисления квадратного корня).
- Gemini возвращает окончательный ответ, основанный на результатах работы инструмента.
Пользовательский поток инструментов (вызов функций)
Для пользовательских инструментов и использования компьютера ваше приложение управляет выполнением:
- Вы отправляете приглашение вместе с объявлениями функций (инструментов).
- Gemini может отправить обратно структурированный JSON для вызова определенной функции (например,
{"name": "get_order_status", "args": {"order_id": "123"}}). - Вы выполняете функцию в своем приложении или среде.
- Результаты функции вы отправляете обратно в Gemini.
- Gemini использует результаты для формирования окончательного ответа или вызова другого инструмента.
Более подробную информацию можно найти в руководстве по вызову функций .
Структурированные выводы против вызова функций
Gemini предлагает два метода генерации структурированных выходных данных. Вызов функций используется, когда модели необходимо выполнить промежуточный шаг, подключившись к вашим собственным инструментам или системам данных. Структурированные выходные данные используются, когда вам необходимо, чтобы конечный ответ модели строго соответствовал определённой схеме, например, для визуализации пользовательского интерфейса.
Строительные агенты
Агенты — это системы, использующие модели и инструменты для выполнения многоэтапных задач. Хотя Gemini предоставляет возможности рассуждения («мозг») и необходимые инструменты («руки»), для управления памятью агента, планирования циклов и создания сложных цепочек инструментов часто требуется фреймворк оркестровки.
Gemini интегрируется с ведущими фреймворками агентов с открытым исходным кодом:
- LangChain / LangGraph : создание сложных потоков приложений с отслеживанием состояния и многоагентных систем с использованием графовых структур.
- LlamaIndex : подключите агентов Gemini к вашим личным данным для рабочих процессов, улучшенных RAG.
- CrewAI : организуйте совместную работу автономных ИИ-агентов, играющих роли.
- Vercel AI SDK : создание пользовательских интерфейсов и агентов на базе ИИ на JavaScript/TypeScript.
- Google ADK : платформа с открытым исходным кодом для создания и организации совместимых агентов ИИ.