Агенты — это системы, использующие модели Gemini, набор инструментов и возможности логического мышления для выполнения сложных многоэтапных задач и достижения конкретных целей. В отличие от однократного вызова модели, агент может планировать и выполнять ряд действий, взаимодействовать с внешними системами и синтезировать информацию для выполнения запроса пользователя.
С помощью API Gemini вы можете создавать мощные агенты, используя такие функции, как:
- Модели Близнецов : Основной тип интеллекта, обеспечивающий рассуждения и понимание языка.
- Инструменты : Возможности, которые связывают модель с информацией и действиями из реального мира. Это могут быть встроенные инструменты (например, поиск Google, карты, выполнение кода) или пользовательские инструменты.
- Вызов функций : механизм для определения и подключения собственных пользовательских инструментов и API к модели Gemini.
- Мышление : Характеристики, которые повышают способность модели рассуждать и планировать сложные задачи.
- Длинный контекст : Позволяет агентам сохранять состояние и информацию на протяжении длительного взаимодействия.
Доступные агенты
- Deep Research Agent : Автономный агент, который планирует, выполняет и синтезирует многоэтапные исследовательские задачи для таких сценариев использования, как анализ рынка, комплексная проверка и обзор литературы.
Строительные агенты
Агенты используют модели и инструменты для выполнения многоэтапных задач. В то время как Gemini предоставляет возможности логического мышления («мозг») и необходимые инструменты («руки»), часто требуется система оркестровки для управления памятью агента, планирования циклов и выполнения сложных цепочек действий с использованием инструментов.
Для обеспечения максимальной надежности в многоэтапных рабочих процессах следует создавать инструкции, которые явно контролируют то, как модель рассуждает и планирует. Хотя Gemini обеспечивает сильную общую логику рассуждений, сложные агенты выигрывают от подсказок, которые обеспечивают выполнение конкретных действий, таких как настойчивость перед лицом проблем, оценка рисков и упреждающее планирование.
В разделе «Рабочие процессы Agentic» вы найдете стратегии разработки таких подсказок. Вот пример системной инструкции , которая повысила производительность в нескольких тестах Agentic примерно на 5%.
Агентские структуры
Gemini интегрируется с ведущими платформами для создания агентов с открытым исходным кодом, такими как:
- LangChain / LangGraph : Создание сложных, сохраняющих состояние потоков приложений и многоагентных систем с использованием графовых структур.
- LlamaIndex : Подключите агентов Gemini к вашим личным данным для оптимизации рабочих процессов с помощью RAG.
- CrewAI : Организуйте совместную работу автономных агентов искусственного интеллекта, имитирующих ролевые игры.
- Vercel AI SDK : Создавайте пользовательские интерфейсы и агентов на основе ИИ с использованием JavaScript/TypeScript.
- Google ADK : платформа с открытым исходным кодом для создания и координации взаимодействующих агентов искусственного интеллекта.