Os agentes são sistemas que usam modelos do Gemini, um conjunto de ferramentas e recursos de raciocínio para realizar tarefas complexas de várias etapas e atingir metas específicas. Ao contrário de uma única chamada de modelo, um agente pode planejar, executar uma série de ações, interagir com sistemas externos e sintetizar informações para atender à solicitação de um usuário.
Com a API Gemini, é possível criar agentes eficientes usando recursos como:
- Modelos do Gemini:a inteligência principal, que oferece raciocínio e compreensão de linguagem.
- Ferramentas:recursos que conectam o modelo a informações e ações do mundo real. Elas podem ser ferramentas integradas (como a Pesquisa Google, o Maps e a execução de código) ou personalizadas.
- Chamada de função:o mecanismo para definir e conectar suas próprias ferramentas e APIs personalizadas ao modelo Gemini.
- Raciocínio:recursos que melhoram a capacidade do modelo de raciocinar e planejar tarefas complexas.
- Contexto longo:permite que os agentes mantenham o estado e as informações em interações mais longas.
Representantes disponíveis
- Deep Research Agent:um agente autônomo que planeja, executa e sintetiza tarefas de pesquisa em várias etapas para casos de uso como análise de mercado, auditoria e revisões de literatura.
Como criar agentes
Os agentes usam modelos e ferramentas para concluir tarefas de várias etapas. Embora o Gemini forneça as capacidades de raciocínio (o "cérebro") e as ferramentas essenciais (as "mãos"), muitas vezes é necessário um framework de orquestração para gerenciar a memória do agente, planejar loops e realizar encadeamento de ferramentas complexo.
Para maximizar a confiabilidade em fluxos de trabalho de várias etapas, crie instruções que controlem explicitamente como o modelo raciocina e planeja. Embora o Gemini ofereça um raciocínio geral forte, agentes complexos se beneficiam de comandos que impõem comportamentos específicos, como persistência diante de problemas, avaliação de riscos e planejamento proativo.
Consulte os fluxos de trabalho de agente para estratégias de criação desses comandos. Confira um exemplo de uma instrução do sistema que melhorou a performance em vários comparativos de agentes em cerca de 5%.
Frameworks de agentes
O Gemini se integra aos principais frameworks de agentes de código aberto, como:
- LangChain / LangGraph: crie fluxos de aplicativos complexos e com estado e sistemas multiagentes usando estruturas de grafo.
- LlamaIndex: conecte agentes do Gemini aos seus dados particulares para fluxos de trabalho aprimorados com RAG.
- CrewAI: orquestre agentes de IA autônomos colaborativos e de interpretação de papéis.
- SDK de IA da Vercel: crie interfaces e agentes de usuário com tecnologia de IA em JavaScript/TypeScript.
- ADK do Google: um framework de código aberto para criar e orquestrar agentes de IA interoperáveis.