Использование инструментов с Gemini API

Инструменты расширяют возможности моделей Gemini, позволяя им действовать в реальном мире, получать доступ к информации в режиме реального времени и выполнять сложные вычислительные задачи. Модели могут использовать инструменты как в стандартных взаимодействиях типа «запрос-ответ», так и в сеансах потоковой передачи данных в реальном времени через Live API .

API Gemini предоставляет набор полностью управляемых встроенных инструментов, оптимизированных для моделей Gemini, или вы можете определить пользовательские инструменты с помощью вызова функций .

Доступные встроенные инструменты

Инструмент Описание Варианты использования
Поиск Google Заземлите реакции на текущие события и факты из Интернета, чтобы уменьшить галлюцинации. - Ответы на вопросы о недавних событиях
- Проверка фактов с помощью различных источников
Google Карты Создавайте помощников, учитывающих местоположение, которые могут находить нужные места, получать указания и предоставлять подробную местную информацию. - Планирование маршрутов путешествий с несколькими остановками
- Поиск местных предприятий на основе критериев пользователя
Выполнение кода Позвольте модели писать и запускать код Python для точного решения математических задач или обработки данных. - Решение сложных математических уравнений
- Точная обработка и анализ текстовых данных
URL-контекст Дайте модели задание прочитать и проанализировать контент определенных веб-страниц или документов. - Ответы на вопросы по конкретным URL-адресам или документам
- Извлечение информации с разных веб-страниц
Использование компьютера (предварительный просмотр) Разрешить Gemini просматривать экран и генерировать действия для взаимодействия с пользовательскими интерфейсами веб-браузера (выполнение на стороне клиента). - Автоматизация повторяющихся веб-рабочих процессов
- Тестирование пользовательских интерфейсов веб-приложений
Поиск файлов Индексируйте и ищите собственные документы, чтобы включить функцию дополненной генерации поиска (RAG). - Поиск технических руководств
- Ответы на вопросы по конфиденциальным данным

Подробную информацию о расходах на конкретные инструменты см. на странице «Цены» .

Как работает исполнение инструментов

Инструменты позволяют модели запрашивать действия во время разговора. Последовательность действий различается в зависимости от того, является ли инструмент встроенным (управляемым Google) или пользовательским (управляемым вами).

Встроенный поток инструментов

Для встроенных инструментов, таких как Google Search или Code Execution, весь процесс происходит в рамках одного вызова API:

  1. Вы отправляете запрос: «Чему равен квадратный корень последней цены акций GOOG?»
  2. Gemini решает, что ему нужны инструменты, и запускает их на серверах Google (например, ищет цену акций, а затем запускает код Python для вычисления квадратного корня).
  3. Gemini возвращает окончательный ответ, основанный на результатах работы инструмента.

Пользовательский поток инструментов (вызов функций)

Для пользовательских инструментов и использования компьютера ваше приложение управляет выполнением:

  1. Вы отправляете приглашение вместе с объявлениями функций (инструментов).
  2. Gemini может отправить обратно структурированный JSON для вызова определенной функции (например, {"name": "get_order_status", "args": {"order_id": "123"}} ).
  3. Вы выполняете функцию в своем приложении или среде.
  4. Результаты функции вы отправляете обратно в Gemini.
  5. Gemini использует результаты для формирования окончательного ответа или вызова другого инструмента.

Более подробную информацию можно найти в руководстве по вызову функций .

Структурированные выводы против вызова функций

Gemini предлагает два метода генерации структурированных выходных данных. Вызов функций используется, когда модели необходимо выполнить промежуточный шаг, подключившись к вашим собственным инструментам или системам данных. Структурированные выходные данные используются, когда вам необходимо, чтобы конечный ответ модели строго соответствовал определённой схеме, например, для визуализации пользовательского интерфейса.

Строительные агенты

Агенты — это системы, использующие модели и инструменты для выполнения многоэтапных задач. Хотя Gemini предоставляет возможности рассуждения («мозг») и необходимые инструменты («руки»), для управления памятью агента, планирования циклов и создания сложных цепочек инструментов часто требуется фреймворк оркестровки.

Gemini интегрируется с ведущими фреймворками агентов с открытым исходным кодом:

  • LangChain / LangGraph : создание сложных потоков приложений с отслеживанием состояния и многоагентных систем с использованием графовых структур.
  • LlamaIndex : подключите агентов Gemini к вашим личным данным для рабочих процессов, улучшенных RAG.
  • CrewAI : организуйте совместную работу автономных ИИ-агентов, играющих роли.
  • Vercel AI SDK : создание пользовательских интерфейсов и агентов на базе ИИ на JavaScript/TypeScript.
  • Google ADK : платформа с открытым исходным кодом для создания и организации совместимых агентов ИИ.