Los agentes son sistemas que aprovechan los modelos de Gemini, un conjunto de herramientas y capacidades de razonamiento para realizar tareas complejas de varios pasos y alcanzar objetivos específicos. A diferencia de una sola llamada al modelo, un agente puede planificar, ejecutar una serie de acciones, interactuar con sistemas externos y sintetizar información para satisfacer la solicitud de un usuario.
Con la API de Gemini, puedes compilar agentes potentes utilizando funciones como las siguientes:
- Modelos de Gemini: Son la inteligencia central, ya que proporcionan razonamiento y comprensión del lenguaje.
- Herramientas: Capacidades que conectan el modelo con información y acciones del mundo real. Pueden ser herramientas integradas (como la Búsqueda de Google, Maps o la ejecución de código) o herramientas personalizadas.
- Llamada a función: Es el mecanismo para definir y conectar tus propias herramientas y APIs personalizadas al modelo de Gemini.
- Pensamiento: Son funciones que mejoran la capacidad del modelo para razonar y planificar tareas complejas.
- Contexto extenso: Permite que los agentes mantengan el estado y la información durante interacciones prolongadas.
Agentes disponibles
- Agente de Deep Research: Es un agente autónomo que planifica, ejecuta y sintetiza tareas de investigación de varios pasos para casos de uso como análisis de mercado, diligencia debida y revisiones de literatura.
Creación de agentes
Los agentes usan modelos y herramientas para completar tareas de varios pasos. Si bien Gemini proporciona las capacidades de razonamiento (el "cerebro") y las herramientas esenciales (las "manos"), a menudo necesitas un framework de organización para administrar la memoria del agente, los bucles de planificación y realizar encadenamientos de herramientas complejos.
Para maximizar la confiabilidad en los flujos de trabajo de varios pasos, debes crear instrucciones que controlen de forma explícita cómo razona y planifica el modelo. Si bien Gemini proporciona un razonamiento general sólido, los agentes complejos se benefician de las instrucciones que imponen comportamientos específicos, como la persistencia ante los problemas, la evaluación de riesgos y la planificación proactiva.
Consulta los flujos de trabajo basados en agentes para conocer estrategias sobre cómo diseñar estas instrucciones. Este es un ejemplo de una instrucción del sistema que mejoró el rendimiento en varias comparativas de agentes en alrededor de un 5%.
Frameworks de agentes
Gemini se integra con los principales frameworks de agentes de código abierto, como los siguientes:
- LangChain / LangGraph: Crea flujos de aplicaciones complejos y con estado, y sistemas multiagente con estructuras de gráficos.
- LlamaIndex: Conecta agentes de Gemini a tus datos privados para flujos de trabajo mejorados con RAG.
- CrewAI: Organiza agentes de IA autónomos colaborativos que interpretan roles.
- Vercel AI SDK: Compila interfaces de usuario y agentes potenciados por IA en JavaScript o TypeScript.
- ADK de Google: Es un framework de código abierto para compilar y organizar agentes de IA interoperables.